Peer-review tra intelligenze artificiali
Far valutare l'output di un'IA da un'altra IA — e quando ha senso farlo
Guida pratica · Formazione Digitale

Hai generato un materiale didattico con l'IA. Sembra buono. Ma come fai a sapere se ha punti deboli che non riesci a vedere proprio perché l'hai appena creato?

Questa guida descrive la pratica della peer-review tra modelli: usare una seconda istanza — dello stesso modello o di uno diverso — per revisionare l'output della prima. Non per sostituire il tuo giudizio, ma per alzare la qualità della bozza prima che arrivi a te.
💡 Il principio di fondo

Ogni modello ha punti ciechi — argomenti o errori che tende a non notare nei propri output. Un secondo modello legge senza il bias di conferma del primo, e trova quello che il primo si era perso.


1
Stesso modello o modello diverso?
La scelta dipende da cosa vuoi ottenere

La regola pratica è semplice:

Regola pratica
Usa lo stesso modello quando vuoi essere efficiente
Usa un modello diverso quando vuoi essere sorpreso

→ Hai già un'ipotesi sul problema: stesso modello

→ Vuoi scoprire problemi che non hai ancora immaginato: cambia modello

La tabella seguente ti aiuta a scegliere caso per caso:

Cosa vuoi controllareCombinazione consigliataPerché funziona
Errori di contenuto disciplinare 🔁 Stesso modello, nuova conv. Risposta rapida, stesso lessico. Funziona quando sai già dove guardare.
Chiarezza del testo per gli studenti Claude + Gemini Gemini è più attento alla leggibilità e alla struttura logica espositiva.
Casi limite e situazioni inattese (BES, domanda fuori traccia, caso ambiguo) Claude + GPT-4 GPT-4 esplora scenari al bordo che il primo modello non ha considerato.
Coerenza interna su un progetto lungo (UDA intera, percorso multi-settimana) ⚡ Stessa istanza con contesto Portare il contesto a un secondo modello introduce dispersione.
Scelte pedagogiche discutibili 🔀 Modello diverso Il modello che ha prodotto l'output tende a difenderlo. Un altro lo valuta senza attaccamento.
⚠ Limite strutturale

La peer-review AI non sa come reagisce una classe reale a un materiale. Il test sul campo è insostituibile. Nessun modello sostituisce la verifica con gli studenti reali.


2
Il prompt di handoff
Il vero collo di bottiglia non è quale modello scegliere

Il problema principale non è quale modello usare per la review — è come trasferisci il contesto da una conversazione all'altra. Un secondo modello valuta quello che gli dai: se il briefing è vago, la review sarà inutile.

2.1 Struttura del prompt di handoff

Il prompt di handoff è il messaggio con cui apri la conversazione con il secondo modello. Non è una richiesta generica: deve contenere tutto il contesto necessario perché il revisore possa lavorare senza fare domande. Più è preciso, più la review sarà utile. Il template qui sotto copre tutti i campi essenziali — adattalo al tuo caso prima di usarlo.

Template — copia e personalizza
# RUOLO Agisci come revisore esperto di materiali didattici. Il tuo compito è identificare debolezze, non complimentarti. # CONTESTO Disciplina: [DISCIPLINA] Classe e livello: [es. Terza, livello intermedio] Obiettivo del materiale: [es. verifica sommativa, scheda laboratorio, rubrica] # MATERIALE DA REVISIONARE [INCOLLA QUI L'OUTPUT DA REVISIONARE] # COSA CONTROLLARE Fornisci una review in tre parti: 1. PROBLEMI CERTI — errori, imprecisioni, contraddizioni interne 2. RISCHI POTENZIALI — punti che potrebbero creare difficoltà in classe 3. MIGLIORAMENTI SUGGERITI — massimo 3, in ordine di priorità # VINCOLO Non riscrivere il materiale. Segnala solo dove e perché intervenire.
💡 Il vincolo finale è il più importante

Se non dici "non riscrivere", il secondo modello tenderà a produrre una versione alternativa. Tu vuoi una diagnosi, non una sostituzione.

2.2 Cosa non dimenticare nel handoff
✓ Includi sempre
  • Disciplina e classe di riferimento
  • Obiettivo specifico del materiale
  • Cosa vuoi che il revisore controlli
  • Il vincolo "non riscrivere"
  • Il materiale completo, non un estratto
✗ Evita
  • Dare il materiale senza contesto
  • Chiedere "cosa ne pensi?" senza criteri
  • Spiegare che è stato generato da un'IA
  • Chiedere una revisione e una riscrittura insieme
  • Incollare solo una parte del materiale

Perché non dire che è stato generato da un'IA? Perché vuoi uno sguardo neutro, non una difesa dell'output precedente. Il secondo modello non deve sapere da dove viene il materiale — questo è intenzionale.


3
Tre scenari pratici
Casi d'uso con varianti avanzate del prompt di handoff
A Verificare la gradazione tra livelli di una verifica

Hai generato una verifica e vuoi controllare che le domande siano davvero di livelli diversi.

Apri una nuova conversazione con lo stesso modello. Non incollare la verifica subito: prima dai il contesto (disciplina, classe, obiettivi della UDA), poi chiedi di valutare solo la gradazione tra livelli.

# RUOLO Agisci come esperto di docimologia scolastica. # COMPITO Analizza la seguente verifica e valuta esclusivamente se le domande rispettano una gradazione crescente di difficoltà (conoscenza → comprensione → applicazione → analisi). # COSA FORNIRE Per ogni domanda: livello cognitivo rilevato, motivazione, eventuale disallineamento rispetto alla posizione nella verifica. # VERIFICA DA ANALIZZARE [INCOLLA LA VERIFICA] # VINCOLO Non suggerire domande alternative. Solo diagnosi.
B Individuare istruzioni ambigue in una scheda laboratorio

Usa un modello diverso da quello che ha generato la scheda. Nel prompt aggiungi la simulazione del punto di vista dello studente:

# RUOLO Agisci come studente di terza che non ha mai svolto questa attività di laboratorio. # COMPITO Leggi le istruzioni seguenti e segnala: 1. Ogni punto in cui potresti bloccarti 2. Quale domanda faresti al docente al passo in cui ti fermi 3. Quali termini tecnici non comprenderesti senza spiegazione # SCHEDA DA ANALIZZARE [INCOLLA LA SCHEDA] # VINCOLO Non riscrivere le istruzioni. Solo segnala i punti critici.
💡 Tecnica avanzata

Chiedi al secondo modello di simulare uno studente in difficoltà — non solo dove le istruzioni sono ambigue, ma quale domanda farebbe un ragazzo che si blocca al passo 3.

C Verificare l'oggettività dei descrittori di una rubrica

Vuoi sapere se i descrittori della rubrica sono davvero applicabili in modo univoco. Usa il test del docente supplente:

# RUOLO Agisci come esperto di valutazione scolastica. # COMPITO Per ogni descrittore della rubrica seguente, valuta se un docente supplente — che non conosce la classe — potrebbe applicarlo in modo univoco senza ambiguità. Se no, segnala quale parola o criterio è ambiguo e perché due docenti potrebbero valutarlo diversamente. # RUBRICA DA ANALIZZARE [INCOLLA LA RUBRICA] # VINCOLO Non riscrivere i descrittori. Solo diagnosi degli elementi ambigui.
🔍 Il test del docente supplente

È uno degli strumenti più utili per smascherare descrittori apparentemente precisi che in realtà non lo sono. Se un supplente non può applicare il criterio senza conoscere il docente titolare, il criterio non è oggettivo.


4
Quando NON fare peer-review AI
Evitare il loop del perfezionismo assistito
⚠ Il rischio più sottile

Stai cercando una conferma, non una critica reale. Se hai già deciso che il materiale è buono e vuoi solo sentirti dire di sì, la peer-review AI ti darà quello che vuoi — e non ti sarà utile. La peer-review ha senso solo quando sei genuinamente disposto a ricevere feedback negativi e ad agire su di essi.

✓ Fai la peer-review quando…
  • Il materiale sarà usato con molti studenti e un errore ha alto impatto
  • Hai dubbi specifici che sai già articolare nel prompt di handoff
  • Stai progettando qualcosa di nuovo che non hai mai testato in classe
  • Il materiale riguarda argomenti valutativi o sensibili
✗ Evita quando…
  • Non hai tempo per leggere e integrare il feedback ricevuto
  • Il materiale è una bozza esplorativa che modificherai comunque
  • Il contesto è così lungo da non poterlo trasferire senza perdere informazioni cruciali
  • Stai cercando una conferma, non una critica reale
⚠ Il rischio del loop

Peer-review → revisione → nuova peer-review → nuova revisione. Il perfezionismo assistito dall'IA può diventare una trappola. Stabilisci in anticipo quante iterazioni fare — di solito una è sufficiente.


A
Checklist prima di avviare una peer-review
Spunta ogni voce — poi procedi

Prima di aprire la seconda conversazione, spunta ogni voce. Se non riesci a spuntarle tutte, la review probabilmente non ti darà risultati utili — è meglio fermarsi e chiarire prima cosa stai cercando.

Ho un obiettivo chiaro per la review — so cosa voglio controllare
Ho scelto il modello giusto in base a cosa voglio trovare
Il prompt di handoff include: ruolo, contesto, materiale completo, cosa controllare, vincolo "non riscrivere"
Non ho detto al secondo modello che il materiale è stato generato da un'IA
Ho tempo per leggere e integrare il feedback prima di usare il materiale
Ho stabilito che farò al massimo una iterazione di review
Sono genuinamente disposto a ricevere feedback negativi — non sto cercando conferme

B
Glossario
I termini usati in questa guida
Allucinazione
Informazione falsa o inventata presentata da un modello AI con tono sicuro e convincente. Non è un malfunzionamento occasionale, ma una caratteristica strutturale: il modello genera la sequenza di parole statisticamente più probabile, anche quando non ha dati affidabili su cui basarsi. Per questo l'output di una peer-review AI va sempre verificato dal docente prima dell'uso.
Bias di conferma
La tendenza a notare e valorizzare le informazioni che confermano ciò che si crede già, ignorando quelle contrarie. I modelli AI mostrano questo comportamento nei confronti del proprio output: tendono a difenderlo e a non notarne i difetti.
Finestra di contesto
La quantità massima di testo che un modello AI può "vedere" e processare in una singola conversazione. Tutto ciò che supera questo limite viene ignorato. È rilevante nella peer-review quando il materiale da revisionare è molto lungo: se supera la finestra di contesto del modello, parti del testo potrebbero non essere analizzate. In quel caso conviene spezzare la review in più sessioni tematiche.
Istanza
Una singola conversazione aperta con un modello AI. Due istanze dello stesso modello sono completamente indipendenti: non condividono memoria, contesto o preferenze. Questo le rende adatte alla peer-review proprio perché la seconda "non sa" nulla di ciò che ha prodotto la prima.
Loop di perfezionismo
Il ciclo non produttivo di peer-review → revisione → nuova peer-review → nuova revisione. Si innesca quando non si stabilisce in anticipo un limite al numero di iterazioni. Una iterazione è quasi sempre sufficiente.
Peer-review AI
La pratica di usare un secondo modello linguistico per revisionare l'output prodotto da un primo modello. Il termine prende in prestito il concetto di revisione tra pari dalla ricerca accademica.
Prompt di handoff
Il prompt strutturato che si usa per trasferire il contesto da una conversazione all'altra quando si chiede a un secondo modello di revisionare un output. Un handoff ben fatto include: ruolo del revisore, contesto disciplinare, materiale completo, criteri di revisione, vincoli.
Test del docente supplente
Tecnica per valutare l'oggettività di una rubrica: si chiede al modello di verificare se un docente che non conosce la classe potrebbe applicare ogni descrittore in modo univoco. Se no, il criterio non è sufficientemente oggettivo.
Risorse correlate
🤖 Guida al Prompting → 🔍 Peer-review tra IA →