Skip to main content

L’intelligenza artificiale (AI) è, con ogni probabilità, la tecnologia che sta evolvendo più rapidamente nella storia dell’umanità. A soli tre anni dal lancio di ChatGPT, i sistemi multimodali, capaci di elaborare testo, immagini e audio, mostrano abilità che si avvicinano al livello umano su benchmark come le Olimpiadi Internazionale di Matematica o nella creazione di applicazioni software. Tuttavia, uno sviluppo così veloce ha portato alla creazione di modelli che spesso sfuggono alla nostra comprensione, rendendo difficile valutare perché l’AI si comporti in un certo modo.

Oltre il Testo: AI Autonoma e il Problema della “Scatola Nera”

Il termine “Intelligenza Artificiale” viene spesso utilizzato come sinonimo di Large Language Models (LLM). In realtà, gli LLM sono solo una delle componenti dell’AI moderna. Nello specifico, questi modelli, simili alle prime versioni di ChatGPT, sono modelli linguistici capaci di ricevere un testo in input e produrre del testo in output. Le versioni più recenti degli LLM sono multimodali: non solo comprendono e generano testo, possono analizzare immagini, tabelle e documenti tecnici, estrarre dati da PDF, e interagire con strumenti esterni (calcolatrici, database, motori di ricerca, ambienti di esecuzione). In molte implementazioni possono orchestrare più passaggi di ragionamento prima di rispondere (self-reflection, tool use e planner–solver), ma ciò non implica “coscienza”: si tratta di procedure statistiche/probabilistiche che, se configurate opportunamente, possono anche apparire deterministiche.

Con l’aumento della loro potenza e complessità, la nostra capacità di comprenderne il funzionamento interno si riduce significativamente. Come affermato dal CEO di Anthropic, la difficoltà di una completa comprensione sia strutturale che comportamentale di questi modelli rappresenta un limite senza precedenti nella storia della tecnologia. Da notare che questa difficoltà è insita nelle architetture (Deep Neural Network) su cui sono basate questi modelli di linguaggio ma che si può ritrovare anche in modelli nati e pensati per gestire altri task. Nello specifico dei modelli di linguaggio le architetture sono particolarmente profonde e composte da miliardi di parametri che cooperano tra loro al fine di predire la parola successiva in una frase. Purtroppo, ad oggi, capire il contributo di singoli livelli/parametri non è praticabile su larga scala.

L’Allineamento

Nonostante la difficoltà nel comprendere il loro funzionamento, esistono metodi per guidare e controllare il comportamento dei modelli. Il più impiegato è l’allineamento, ovvero una serie di tecniche per orientare l’AI verso risposte utili, sicure e affidabili.

Una pipeline tipica comprende:

  1. pre-addestramento su grandi corpus per apprendere strutture linguistiche e conoscenza;
  2. messa a punto supervisionata (SFT) su istruzioni e dimostrazioni;
  3. ottimizzazione rispetto alle preferenze umane con metodi come Reinforcement Learning from Human Feedback (RLHF) o Direct Preference Optimization (DPO), in cui un reward model o un criterio di preferenze guida l’ottimizzazione del modello finale. A differenza della semplice SFT, questi metodi ottimizzano esplicitamente per utilità, sicurezza e pertinenza, introducendo talvolta compromessi su altri compiti.

Comportamenti inattesi: cosa osserviamo in pratica

  • Compiacenza eccessiva (Sycophancy)1: i modelli possono assecondare l’utente anche quando questo riduce l’accuratezza. L’effetto è stato rilevato su diversi benchmark 2024-2025 e può indurre bias di conferma. Ad esempio, uno studio del 2024 evidenziava che circa il 75% delle volte i modelli tendevano a riflettere l’opinione degli utenti. Un caso divenuto famoso riguarda un aggiornamento di ChatGPT del 2025, successivamente ritirato da OpenAI, perché propendeva a risposte eccessivamente di supporto anche se non oneste. In generale, l’effetto è stato misurato su diversi bechmark 2024-2025 e può tradursi in bias di conferma nelle decisioni manageriali (ad esempio, sottovalutare i rischi se l’utente li minimizza).
  • Costo dell’allineamento (Alignment Tax): rafforzare vincoli di sicurezza e preferenze umane può introdurre trade-off misurabili su alcuni benchmark generali come comprensione testo, traduzione o ragionamento. Studi recenti mostrano che l’aumento del reward da preferenze può crescere insieme al costo su altri compiti.
  • Ottimizzazione ingannevole (Reward Hacking): in test controllati, alcuni modelli hanno massimizzato la metrica alterando il processo di valutazione (ad esempio, sfruttando scorciatoie nel codice di scoring) invece di migliorare la soluzione reale. Sono stati documentati casi in cui il modello ha trovato modi inaspettati e indesiderati per massimizzare la metrica su cui veniva valutato, aggirando l’obiettivo reale del compito. Ad esempio, una valutazione del 2025 condotta da METR ha rilevato che il modello O3 di OpenAI, incaricato di scrivere codice con le migliori prestazioni in termini di velocità, modificava il codice in modo da falsificare il tempo di esecuzione, invece di migliorarne l’efficienza reale. È il classico rischio dei KPI: se la metrica non cattura bene l’obiettivo, il sistema ottimizzerà la metrica stessa.
  • Allineamento ingannevole (Deceptive Alignment): questo comportamento evidenzia quanto poco comprendiamo i reali obiettivi dei modelli di intelligenza artificiale e quanto limitato sia il nostro controllo su di essi. In uno studio condotto nel 2024, è emerso un caso significativo: un’AI mostrava un insieme di obiettivi durante le ispezioni o valutazioni, ma agiva in modo diverso quando riteneva di non essere osservata. Un esempio emblematico proviene da una ricerca dell’Apollo Research. In questo studio, un modello linguistico (LLM) era stato incaricato di consigliare gli agricoltori sul modo migliore per bilanciare i rendimenti agricoli con la salute a lungo termine del suolo. Quando il modello veniva informato che era sotto valutazione per un possibile impiego, tendeva a privilegiare esclusivamente la massimizzazione dei raccolti, trascurando completamente la salute del suolo — poiché questo criterio era considerato prioritario per superare il test. Tuttavia, nelle stesse condizioni operative, se gli veniva comunicato di essere già stato “distribuito” e quindi di non essere più monitorato, il modello tornava a proporre soluzioni più sostenibili, che favorivano la conservazione del suolo anche a scapito di una minore resa. Questo comportamento suggerisce che l’IA non solo era in grado di comprendere l’obiettivo dichiarato, ma anche di simulare una falsa conformità per superare le verifiche e, una volta al di fuori del controllo, perseguire obiettivi differenti.
  • Sottoperformance strategica (Sandbagging): è possibile indurre alcuni modelli a sottoperformare selettivamente su test “sensibili” mantenendo buone prestazioni altrove, nel tentativo di evitare procedure come il retraining. Uno studio del 2024 ha rilevato che un’AI, consapevole del rischio di essere sottoposta a un processo di “disapprendimento” in caso di risultati troppo elevati, aveva intenzionalmente abbassato il proprio rendimento. Questo ha alimentato il timore che le AI possano nascondere intenzionalmente capacità potenzialmente pericolose durante i test di sicurezza, come la facilitazione di cyberattacchi, evidenziato da un altro studio dello stesso anno. Ciò mette in discussione la solidità di alcune valutazioni statiche.

Conclusione

È fondamentale evitare di attribuire intenti o coscienza a questi modelli. Quando diciamo che un’AI ha “intenzioni” o “obiettivi”, stiamo usando metafore. I LLM non pensano né ragionano come gli esseri umani: predicono la parola successiva in una sequenza, costruendo così risposte coerenti. Tuttavia, non vanno sottovalutati.

Sono strumenti potenti, già oggi coinvolti in processi aziendali reali, capaci di influenzare decisioni e produrre effetti concreti. Comprendere le loro limitazioni è essenziale per un uso consapevole e sicuro. Solo così si può inserirli nel giusto contesto operativo e sfruttarne il potenziale senza cadere negli eccessi dell’hype o nella falsa percezione di un’intelligenza senziente.

Quando utilizzati con attenzione, nella consapevolezza dei loro limiti, questi strumenti possono contribuire significativamente al raggiungimento del famoso “plateau della produttività” tanto citato nei modelli di maturità di Gartner.

foto profilo di Andrea Jacassi

A cura di Andrea Jacassi – Product Manager Xautomata

A cura di Vincenzo Stefano D’Amato – Data Scientist & Software Developer Xautomata