Ritratto fotografico concettuale, 35mm, che mostra una silhouette umana trasparente con all'interno una fusione luminosa tra una rete neurale stilizzata e simboli logici astratti, effetto duotone blu e argento, profondità di campo ridotta per focalizzare sulla fusione interna.

Ho Creato un’IA Che Impara Sequenze Ispirandosi al Cervello e alla Logica: Ecco Come Funziona

Sapete, una delle sfide più affascinanti nel mio campo, l’Intelligenza Artificiale, è insegnare alle macchine a fare qualcosa che per noi umani è quasi naturale: imparare dalle sequenze. Pensateci: il linguaggio, le azioni motorie, persino capire una melodia… tutto si basa sulla nostra capacità di cogliere l’ordine corretto degli eventi. È una funzione fondamentale dell’intelligenza, studiata sia nelle Scienze Cognitive che nell’IA.

Da tempo mi interrogo su come creare modelli di IA che non solo imparino queste sequenze, ma lo facciano in un modo che sia, in qualche modo, più vicino a come potremmo funzionare noi, e soprattutto, che siano comprensibili. Molti modelli attuali, specialmente le reti neurali profonde come i Transformer, sono potentissimi (basti pensare ai progressi nel processamento del linguaggio naturale), ma spesso funzionano come delle “scatole nere”. È difficile capire *perché* prendono una certa decisione o fanno una previsione, il che è un grosso problema per la sicurezza e l’affidabilità dell’IA.

Un Modello Ispirato al Cervello, Guidato dalla Logica

Così, mi sono messo al lavoro su un’idea un po’ diversa. Ho pensato: e se prendessimo spunto dalla struttura del nostro cervello, in particolare dalle cosiddette mini-colonne neocorticali – strutture che sembrano rispondere a eventi specifici all’interno di sequenze particolari – ma la “riempissimo” con un sistema logico? Non una logica qualsiasi, ma la Logica Non Assiomatica (NAL).

Perché proprio la NAL? Perché è progettata per ragionare in condizioni di conoscenza e risorse insufficienti (una situazione molto realistica, direi!), gestisce l’incertezza in modo nativo e, cosa cruciale, offre un framework per rendere il modello interpretabile. In pratica, ogni connessione, ogni “pensiero” del modello può essere rappresentato come un’affermazione logica con un associato “valore di verità” (che combina frequenza e confidenza), rendendo i suoi processi interni trasparenti.

Ho chiamato questo modello una “rete concettuale”. Immaginate un grafo dove i nodi non sono solo neuroni astratti, ma veri e propri concetti che emergono dinamicamente man mano che il sistema incontra nuovi tipi di eventi. Le connessioni tra questi concetti rappresentano relazioni temporali (come “dopo A, viene B”) apprese tramite regole logiche di NAL come l’induzione e la deduzione temporale.

Come Impara: Ipotizzare, Rivedere, Riciclare

Il meccanismo di apprendimento che ho sviluppato è un ciclo continuo in tre fasi, pensato per funzionare online e per tutta la “vita” del sistema, senza bisogno di set di addestramento e test separati:

  • Ipotizzare: Quando arriva un nuovo evento e non c’è una causa chiara, il sistema non si blocca. Formula delle ipotesi! Crea nuovi collegamenti “deboli” tra concetti che si verificano vicini nel tempo. Queste sono, appunto, ipotesi iniziali.
  • Rivedere: Man mano che le sequenze si ripetono, il sistema usa l’esperienza per rafforzare o indebolire questi collegamenti. Se un’ipotesi si rivela corretta più volte (es. B segue A), il suo valore di verità aumenta (usando le regole di induzione e revisione di NAL). Le connessioni utili diventano più forti e affidabili per le previsioni future (fatte con la deduzione).
  • Riciclare: La memoria non è infinita! Per rispettare il vincolo di risorse limitate, il sistema deve dimenticare. I collegamenti che si rivelano inutili o che hanno un valore di verità basso vengono “riciclati”, eliminati per fare spazio a nuova conoscenza più rilevante.

Questo processo permette al modello di adattarsi a flussi di dati potenzialmente infiniti e in continua evoluzione, mantenendo costante il tempo di elaborazione per ogni nuovo evento.

Fotografia macro, 85mm, di una rete di neuroni stilizzati luminosi collegati da filamenti energetici che rappresentano connessioni logiche. Illuminazione controllata e sfondo scuro per enfatizzare l'alta definizione dei dettagli delle sinapsi e dei nodi concettuali.

Affrontare l’Incertezza e Dimenticare… Senza Catastrofi!

Uno degli aspetti più interessanti è come questo approccio gestisce l’incertezza. La NAL è intrinsecamente probabilistica, quindi il modello non dà mai risposte assolute, ma previsioni con un grado di fiducia basato sull’evidenza raccolta. Se dopo la sequenza (B, C) a volte arriva D e a volte Y, il modello lo impara e può anticipare entrambe le possibilità, magari con diverse confidenze.

Ma la vera sorpresa, forse, riguarda un problema noto come oblio catastrofico. È un fenomeno fastidioso per cui molte reti neurali, quando imparano cose nuove, tendono a dimenticare rapidamente e quasi completamente ciò che avevano appreso prima. È un ostacolo enorme per l’apprendimento continuo.

Ebbene, grazie alla sua rappresentazione centrata sui concetti (dove la conoscenza è localizzata attorno a specifici concetti, non distribuita ovunque nella rete), il mio modello sembra essere notevolmente resistente a questo problema! Quando impara una nuova sequenza, le modifiche sono confinate ai concetti coinvolti, senza interferire massicciamente con la conoscenza relativa ad altre sequenze, anche molto diverse. L’ho testato esponendo il modello a diversi set di sequenze in episodi successivi: quando tornava a sequenze già viste, l’accuratezza non subiva crolli significativi. Un risultato davvero incoraggiante!

Alla Prova dei Fatti: Accuratezza e Capacità

Ho messo alla prova il modello con dataset sintetici, creando flussi di eventi contenenti diverse sequenze “prototipo” mescolate a eventi casuali (rumore). L’obiettivo era semplice: prevedere l’evento successivo nel modo più accurato possibile.

I risultati? Davvero promettenti. Il modello ha raggiunto costantemente un’elevata accuratezza, spesso arrivando o addirittura superando leggermente il massimo teorico possibile (dato che una parte degli eventi era casuale e quindi imprevedibile). Ha dimostrato di poter gestire diverse complessità, sia in termini di lunghezza delle sequenze da riconoscere (fino a 14 eventi deterministici) sia di numero di prototipi diversi presenti nel flusso (fino a 20). Curiosamente, le performance sono state persino migliori quando ho aumentato il numero di tipi di eventi possibili (da 26 a 1000), probabilmente perché rendeva più facile distinguere contesti unici per ciascun evento.

Ho anche fatto un confronto preliminare con modelli standard come LSTM e Transformer su un compito semplice. I risultati (vedi Figura 6 nel paper originale) mostrano che il mio modello si comporta bene quanto il Transformer e supera significativamente l’LSTM, con il vantaggio aggiunto dell’interpretabilità.

Fotografia sportiva, teleobiettivo zoom 200mm, di un atleta che esegue una sequenza complessa di movimenti (es. ginnastica). Scatto ad alta velocità per congelare l'azione, tracciamento del movimento per mantenere la nitidezza, evidenziando la precisione e l'ordine della sequenza.

Perché Questo Approccio è Importante?

Al di là dei risultati specifici, credo che questo lavoro apra alcune prospettive interessanti:

  • Dimostra che è possibile affrontare l’apprendimento di sequenze con un approccio basato sulla logica, offrendo un’alternativa interpretabile ai modelli puramente statistici o alle reti neurali “black box”.
  • Può essere visto come un sistema neuro-simbolico, dove neuroni (le mini-colonne) e simboli (i concetti logici) non sono separati, ma due facce della stessa medaglia. Questo potrebbe gettare nuova luce sulla vecchia questione di come i concetti emergono dall’attività neurale.
  • Il principio guida dell’apprendimento (“le risorse computazionali convergono verso la conoscenza con minore incertezza”) è semplice ma potente, e coerente con principi osservati in biologia (winner-take-all) e psicologia (Piaget).

Limiti e Prossimi Passi

Certo, siamo solo all’inizio. Il modello attuale ha dei limiti: gestisce solo un evento alla volta, assume intervalli di tempo costanti tra eventi e manca ancora di prove matematiche rigorose sulla sua convergenza (anche se i risultati empirici sono solidi). Questo deriva dalle assunzioni di base (AIKR, logica NAL) che rendono l’analisi formale più complessa rispetto a modelli basati su assunzioni più idealizzate.

Il lavoro futuro si concentrerà sul raffinare il modello, cercare garanzie teoriche almeno parziali e testarlo su scenari più complessi e reali. Colmare il divario tra rigore teorico e applicabilità pratica è la prossima grande sfida.

In conclusione, questo modello rappresenta un primo passo in una direzione che ritengo molto promettente: quella di un’IA per l’apprendimento di sequenze che sia non solo efficace, ma anche trasparente, razionale e ispirata ai principi biologici. Un’IA di cui possiamo fidarci un po’ di più perché, in un certo senso, possiamo chiederle “perché?” e ottenere una risposta comprensibile.

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *