Scienza

Gli LLM Non Sono Affidabili: Il Clamoroso Studio del MIT Rivela Verità Scomode!

2024-11-11

Autore: Sofia

I Large Language Model (LLM), alla base delle più avanzate tecnologie di intelligenza artificiale generativa, hanno dimostrato capacità sorprendenti nella generazione di testi e codice. Tuttavia, un recente studio del MIT ha messo in luce come questi modelli non riescano a comprendere il mondo in modo coerente.

Il team di ricerca, guidato da Ashesh Rambachan, ha condotto esperimenti in cui un LLM forniva indicazioni stradali a New York City con grande precisione. Sorprendentemente, quando alcune strade venivano chiuse artificialmente, le prestazioni del modello crollavano drasticamente. Questo suggerisce che la sua rappresentazione mentale della città era errata, generando collegamenti stradali inesistenti e confusioni tra gli incroci.

Le implicazioni di questi risultati sono significative. "Mentre gli LLM possono realizzare straordinarie attività linguistiche, dobbiamo assicurarci che possano effettivamente comprendere il mondo se intendiamo utilizzarli in ambiti scientifici e per fare scoperte innovative", ha affermato Rambachan.

Per analizzare se un LLM ha appreso rappresentazioni accurate del mondo, i ricercatori hanno sviluppato due metriche essenziali: la distinzione delle sequenze e la compressione delle sequenze. Queste metriche sono state applicate a problemi specifici, inclusi la navigazione nelle strade di New York e il gioco da tavolo Othello. La prima misura la capacità del modello di riconoscere differenze tra stati distinti, mentre la seconda valuta il riconoscimento di stati identici.

Il confronto tra due classi di transformer ha rivelato un risultato sorprendente: i modelli addestrati su dati casuali hanno mostrato una comprensione più accurata del mondo rispetto a quelli addestrati su dati strutturati. Questo potrebbe suggerire che l'esposizione a una varietà più ampia di scenari migliori l'apprendimento del modello. Ad esempio, nel gioco Othello, i transformer che si sono allenati su mosse casuali hanno considerato molte opzioni possibili, incluse quelle meno comuni.

Nonostante i transformer riuscissero a generare mosse valide e indicazioni spesso precise, i risultati finali hanno rivelato che solo un modello era in grado di formare una rappresentazione coerente nel gioco di Othello, mentre nessuno di essi ha costruito un modello affidabile della rete stradale di New York durante le prove di navigazione.

Quando solo l'1% delle strade è stato chiuso, il tasso di precisione del modello è drasticamente diminuito dal 100% al 67%. Le anomalie nella rappresentazione delle mappe hanno incluso strade inesistenti e collegamenti irrealizzabili, mettendo in discussione l'affidabilità degli LLM nelle applicazioni pratiche. Questo studio, quindi, non solo evidenzia i limiti degli LLM, ma pone interrogativi cruciali sul loro futuro utilizzo in ambito scientifico e pratico.