Cosa manca all’intelligenza artificiale



Capire cosa manca all’intelligenza artificiale è un modo per comprendere la nostra capacità di apprendimento: alcune competenze che anche un bambino possiede mancano ancora alla maggior parte delle reti attuali.


In copertina: un’opera generata da una rete neurale, di Alexander Mordvintsev

(Questo testo è un estratto da  “Imparare” di Stanislas Dehaene. Ringraziamo Raffaello Cortina Editore per la gentile concessione)


di Stanislas Dehaene

È interessante cercare di chiarire cosa manchi ancora all’intelligenza artificiale, perché è un modo per definire, nella maniera più precisa possibile, cosa sia unico nella nostra capacità di apprendimento. Ecco una piccola lista, probabilmente incompleta, di competenze che anche un bambino piccolo possiede che fanno fallire miseramente la maggior parte delle reti attuali.

L’apprendimento di concetti astratti. La maggior parte delle reti neurali attualmente disponibili modellizza adeguatamente solo la prima fase d’elaborazione dell’informazione durante la quale, in meno di un quinto di secondo, le aree visive analizzano un’immagine. Questi algoritmi connessionisti sono ben lontani dall’essere profondi come si crede. Secondo uno dei loro creatori, Yoshua Bengio, in realtà, le cosiddette reti “profonde” tendono ad apprendere le regolarità statistiche superficiali dei dati, piuttosto che i concetti astratti di alto livello. Per riconoscere la presenza di un oggetto, si basano su elementi macroscopici dell’immagine, come il colore o la forma. Cambiate questi dettagli e le loro prestazioni collassano: sono assolutamente incapaci di riconoscere ciò che costituisce l’essenza di un oggetto e di concepire che una sedia rimane una sedia anche se è fatta di vetro, di un solo pezzo di metallo piegato o di plastica gonfiabile. Questa propensione a fare attenzione solo alla superficie delle cose li rende suscettibili di errori enormi. Esiste una vasta letteratura su come ingannare una rete neurale: prendete una banana, cambiate qualche pixel o mettetele vicino un certo adesivo, e la rete neurale la scambierà per un tostapane!

È vero che, se mostriamo a una persona un’immagine intermittente per una frazione di secondo, a volte commette lo stesso tipo di errori della macchina e può confondere per esempio un cane e un gatto. Tuttavia, non appena gli lasciamo un po’ più di tempo, il cervello umano non sbaglia. A differenza della macchina, il cervello domanda, rianalizza, concentra la propria attenzione su questo o quell’aspetto dell’immagine che non corrisponde alla sua prima impressione. Questa seconda analisi, cosciente e intelligente, fa appello alle nostre capacità di ragionamento e astrazione. Le reti neurali trascurano un punto essenziale: imparare significa costruirsi un modello astratto del mondo, non solo un filtro di riconoscimento delle forme. Imparando a leggere, per esempio, abbiamo acquisito il concetto astratto di tutte le lettere dell’alfabeto, che ci consente di disegnarle e di riconoscerle sotto tutti i loro travestimenti.

Douglas Hofstadter, informatico ed esperto di processi cognitivi, una volta disse che la vera sfida per l’intelligenza artificiale era riconoscere la lettera A… Una battuta, certamente, ma una battuta di una certa profondità. L’intelligenza astratta cui gli umani fanno ricorso anche in questo caso banale è all’origine di un divertente oggetto che è ormai entrato nel nostro quotidiano: il captcha, quella breve sequenza di lettere che alcuni siti web vi chiedono di riconoscere per dimostrare che siete un essere umano, non una macchina.

Per anni, i captcha hanno resistito alle macchine. Ma l’informatica si evolve rapidamente: nel 2017 un sistema artificiale è riuscito a riconoscere dei captcha bene quasi quanto un essere umano. Non sorprende che questo algoritmo imiti vari aspetti del nostro cervello. L’algoritmo, compiendo un vero e proprio tour de force, estrae il “grafo” di ogni lettera, l’essenza di una A, e usa tutte le risorse del ragionamento statistico per verificare fino a che punto questa idea astratta si applica all’immagine reale. Tuttavia, siffatto sofisticato algoritmo informatico si applica solo ai captcha. Il nostro cervello, invece, applica la facoltà di astrazione a tutti gli aspetti della nostra vita quotidiana.

La velocità di apprendimento. Tutti concordano sul fatto che le reti neurali di oggi imparano troppo lentamente: hanno bisogno di migliaia, milioni o persino miliardi di dati per sviluppare l’intuizione in un dominio specifico. Di questa lentezza, abbiamo prove sperimentali. Ci vogliono almeno novecento ore di gioco perché la rete neurale di DeepMind raggiunga un discreto livello su una console Atari – mentre un essere umano raggiunge lo stesso livello in due ore! Un altro esempio: l’apprendimento del linguaggio. Lo psicolinguista Emmanuel Dupoux stima che, nella maggior parte delle famiglie francesi, un bambino senta circa cinquecento-mille ore di parlato all’anno, il che è sufficiente perché impari la propria lingua madre; senza contare che si tratta sicuramente di una sopravvalutazione, dato che tra gli Tsimané, una popolazione indigena dell’Amazzonia boliviana, i bambini sono esposti solo a sessanta ore di parlato all’anno, il che non impedisce loro di diventare eccellenti parlanti della loro lingua. In confronto, i migliori sistemi informatici attuali di Apple, Baidu o Google richiedono da venti a mille volte più dati. Nel campo dell’apprendimento, l’efficacia del cervello umano rimane impareggiabile: “Machines are data hungry, but humans are data efficient” (“Le macchine sono affamate di dati, gli esseri umani li usano con efficacia”). L’apprendimento, nella nostra specie, sa come ottenere il massimo dal minimo di dati.

L’apprendimento sociale. La nostra specie è l’unica a condividere informazioni: ne otteniamo moltissime dagli altri esseri umani, attraverso l’imitazione o il linguaggio. Questa capacità è, per il momento, fuori dalla portata delle reti neurali attuali. In queste, la conoscenza è criptata, diluita nei valori di centinaia di milioni di pesi sinaptici, in cui rimane implicita. Non è possibile estrarla per comunicarla ad altri. La straordinaria efficienza con cui riusciamo, con poche parole, a condividere le nostre conoscenze con gli altri (“Per il panificio, giri a destra nel vicolo dietro la chiesa”) rimane ineguagliata nel mondo animale come nell’informatica.

L’apprendimento istantaneo. Versione estrema di questa efficienza: a volte siamo capaci di imparare tutto al primo colpo. Se uso un nuovo verbo, “dascare”, anche solo una volta, questo basta perché lo si sia imparato a usare. Intendiamoci: certe reti neurali sono in grado di memorizzare anche un solo episodio specifico. Ma ciò che le macchine non fanno ancora bene e che il cervello umano fa molto bene, è integrare questa singola informazione in una rete di conoscenze. Immediatamente, riuscirete non solo a memorizzare il verbo “dascare”, ma anche a coniugarlo e a inserirlo in altre frasi (Vuoi dascare con me? Dascheresti, se potessi? La dascazione è un problema; ecc.). Quando dico “Vieni a dascare”, non imparate solo una parola, ma la inserite in un vasto sistema di simboli e regole: è un verbo all’infinito, della prima coniugazione, che si può coniugare

(Io dasco, tu daschi ecc.). Imparare significa riuscire a inserire nuove conoscenze all’interno di una rete esistente.

L’apprendimento di regole sistematiche, formulate nel linguaggio del pensiero. Le regole grammaticali non sono che un esempio di un particolare talento del nostro cervello: quello che ci consente di scoprire le regole generali che si nascondono dietro ai casi particolari. In matematica, nelle scienze, in musica, riusciamo a estrarre dei principi molto generali, delle vere e proprie regole astratte. Prendete l’aritmetica: la nostra capacità di sommare due numeri è estremamente generale – una volta che abbiamo imparato la procedura con numeri piccoli, possiamo estenderla a numeri arbitrariamente grandi. O meglio, produciamo inferenze di una generalità straordinaria. Molti bambini, intorno ai cinque-sei anni, scoprono che ogni numero n ha un successore n+1 e che la sequenza di numeri interi è quindi infinita – non esiste, cioè, il numero più grande di tutti. Ricordo ancora, con emozione, il momento in cui mi resi conto di quello che era, di fatto, il mio primo teorema matematico. Che straordinario potere di astrazione! Come fa il nostro cervello, che racchiude in sé un numero finito di neuroni, a concettualizzare l’infinito?

Nessuna rete neurale è ancora in grado di rappresentare una conoscenza così sistematica per cui “ogni numero ha un successore”. I valori di verità assoluti, vero o falso, non sono la loro specialità. La sistematicità, questa capacità di generalizzare sulla base di una regola simbolica anziché sulla base di una somiglianza superficiale, sfugge ancora ai modelli attuali: l’apprendimento che chiamiamo profondo manca ancora di una comprensione profonda.

Il nostro cervello sembra essere in grado di creare formule in una sorta di linguaggio mentale. Se riesce a esprimere il concetto di insieme infinito, è perché ha un linguaggio interno dotato di una funzione di negazione (infinito = non finito). Il filosofo americano Jerry Fodor, nei suoi libri e articoli, ha teorizzato questa facoltà: postula che il nostro pensiero sia costituito da simboli che si combinano secondo le regole di una “lingua del pensiero”. La sua peculiarità è di essere ricorsivo: ogni oggetto appena creato (per esempio, il concetto di infinito) può essere immediatamente riutilizzato in nuove combinazioni, senza alcun limite. Quanti infiniti esistono? Questa è l’assurda domanda che si è posto il matematico Georg Cantor, e che lo ha portato a formulare una delle più innovative teorie matematiche del xx secolo. Questa capacità di fare “un uso infinito di mezzi finiti”, secondo la bella formula di Wilhelm von Humboldt (1767-1835), caratterizza il pensiero umano.

Oggi siamo in grado di mettere a punto un modello dell’apprendimento delle regole della numerazione o della geometria nei bambini – ma per fare questo, è necessario postulare che il nostro cervello manipoli le grammatiche e selezioni, con facilità, quelle più concise e più probabili. L’apprendimento è una sorta di programmazione: imparare significa selezionare, tra tutte le formule disponibili nel linguaggio del pensiero, la più semplice tra quelle che si adattano ai dati.

Le reti neurali non sono oggi in grado di rappresentare il ventaglio di frasi, formule, regole e teorie astratte con cui il cervello di Homo sapiens modellizza il mondo. Probabilmente non è una coincidenza: esiste qualcosa di profondamente umano, che non si trova nel cervello delle altre specie animali, e che le neuroscienze non sono ancora in grado di spiegare – una vera e propria singolarità della nostra specie. Il nostro cervello sembra essere l’unico a disporre di una serie di simboli combinabili secondo una sintassi complessa e dalla forma ad albero. Il mio laboratorio, per esempio, ha dimostrato che il cervello umano non può ascoltare una serie di suoni (bip bip bip bup), senza cercare di derivarne immediatamente la struttura astratta (tre suoni identici seguiti da un suono diverso). Nella stessa situazione, le scimmie, per esempio, individuano tre suoni, sentono che l’ultimo è diverso, ma non sembrano integrare questa conoscenza in un’unica formula. Ci vogliono decine di migliaia di prove perché una scimmia impari come invertire l’ordine di una sequenza (da abcd a dcba), mentre cinque tentativi sono sufficienti per qualunque bambino di quattro anni. Persino un neonato di qualche mese ha già sviluppato delle regole astratte e sistematiche – una capacità che sfugge totalmente sia alle reti neurali convenzionali sia alle altre specie di primati.

La composizione della conoscenza. Una volta che ho imparato, per esempio, a sommare due cifre, questa facoltà entra a far parte del mio repertorio di capacità: diventa immediatamente utilizzabile da tutte le altre mie facoltà mentali. Posso usarla in decine di contesti diversi, per esempio al ristorante o nella mia dichiarazione dei redditi. Soprattutto, posso combinarla con altre facoltà apprese – non ho alcun problema, per esempio, nel seguire i passaggi di un algoritmo che mi richiede di prendere un numero, sommargli 2 e di decidere se il risultato è più grande o più piccolo di 5. Il cervello umano sembra disporre di una specie di computer interno, una vera e propria macchina di Turing, in grado di concatenare operazioni in un ordine arbitrario, con la massima flessibilità.

È sorprendente vedere che le attuali reti neurali non abbiano ancora questa flessibilità. Ciò che apprendono rimane confinato in connessioni nascoste, inaccessibili, disperse e molto difficili da riutilizzare per altri compiti, anche se simili. Manca loro la capacità di comporre le conoscenze che hanno appreso, vale a dire ricombinarle per risolvere nuovi problemi. L’attuale intelligenza artificiale risolve solo problemi estremamente limitati: il software AlphaGo, sebbene campione del mondo di go, è un esperto ottusamente rigido, incapace di applicare ed estendere le proprie competenze a qualsiasi altro gioco leggermente diverso (incluso il gioco del go su una scacchiera 15 × 15 anziché 19 × 19). Per il nostro cervello, invece, imparare implica esplicitare la conoscenza in modo da poterla ricombinare con altre conoscenze. Anche in questo caso, abbiamo a che fare con un aspetto unico del cervello umano, legato al linguaggio e difficile da riprodurre all’interno di una macchina. René Descartes lo aveva constatato nel 1637, nel celebre Discorso sul metodo:

Se ce ne fossero di [macchine] somiglianti ai nostri corpi e capaci di imitare le nostre azioni per quanto è di fatto possibile, ci resterebbero sempre due mezzi sicurissimi per riconoscere che, non per questo, sono uomini veri. In primo luogo, non potrebbero mai usare parole o altri segni combinandoli come facciamo noi per comunicare agli altri i nostri pensieri. Perché si può ben concepire che una macchina sia fatta in modo tale da proferire parola […], ma non si può immaginare che possa combinarle in modi diversi per rispondere al senso di tutto quel che si dice in sua presenza, come possono fare gli uomini, anche i più ottusi. L’altro criterio è che quando pure facessero molte cose altrettanto bene o forse meglio di qualcuno di noi, fallirebbero inevitabilmente in altre, e si scoprirebbe così che agiscono non in quanto conoscono, ma soltanto per la disposizione degli organi. Infatti mentre la ragione è uno strumento universale, che può servire in ogni possibile occasione, quegli organi hanno bisogno di una particolare disposizione per ogni azione particolare.

La ragione, strumento universale… Le abilità che Descartes individua puntano verso un secondo sistema di apprendimento, gerarchicamente superiore rispetto a quello precedente, e che si appoggia su regole e simboli. Nelle sue fasi iniziali, il nostro sistema visivo assomiglia vagamente alle attuali reti neurali: filtra gli input, impara le combinazioni frequenti, e ciò è sufficiente per riconoscere un volto, una parola o una configurazione del gioco del go. Ma in seguito, il tipo di trattamento cambia drasticamente: l’apprendimento comincia ad assomigliare a un ragionamento, un’inferenza logica che cerca di catturare le regole di un dominio. Riuscire a creare macchine che raggiungano questo secondo livello di intelligenza è la grande sfida della ricerca contemporanea.


Stanislas Dehaene è professore presso il Collège de France, titolare della cattedra di Psicologia cognitiva sperimentale e membro dell’Académie des sciences. Presiede il Consiglio scientifico del Ministère de l’Education nationale. Nelle nostre edizioni ha pubblicato I neuroni della lettura (2009), Il pallino della matematica (2010), Coscienza e cervello (2014) e Imparare (2019).

0 comments on “Cosa manca all’intelligenza artificiale

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *