Iconografia per intelligenze artificiali

I modelli di intelligenza artificiale come i large language models e i text to image stanno rivoluzionando la nostra comprensione del linguaggio e della produzione artistica. Questo articolo esplora come questi strumenti possano essere analizzati criticamente attraverso l’iconografia, mettendo in luce le potenzialità e i limiti delle reti neurali.


In copertina, Massimo Campigli, Senza titolo, 1960 Asta Pananti in corso

di Tommaso Guariento

1. Facili analogie 

Il discorso critico sui modelli generativi, siano questi di testo, immagini, video o altro, cade spesso in un’ingenua fallacia analogica. Tale fallacia può avere varie forme, ma proviamo a specificare quella che risulta essere più prominente. I large language models (LLM) e i text to image (TTI) sono architetture composte da diverse reti neurali, addestrate per simulare il comportamento umano nell’espressione del linguaggio e della produzione d’immagini o altri contenuti. Sebbene vi sia una sovrapposizione e un dialogo fra neuroscienze e ingegneria informatica, vi sono anche profonde differenze. Tali differenze derivano dal fatto che attualmente ci sono molte cose che non sappiamo sulla neurologia dell’apprendimento, della percezione e dell’elaborazione di concetti. Come sottolineano Lev Manovich ed Emanuele Arielli, si tende ad attribuire un’agentività o una capacità sovraumana a questi modelli perché si conosce poco del sistema che essi simulano: la mente umana.

Un caso peculiare di questa prospettiva è rappresentato appunto da ingegneri informatici, che spesso proclamano dichiarazioni euforiche o disforiche rispetto alla natura senziente o quasi-biologica di questi modelli. D’altro canto c’è anche chi, come il filosofo Noam Chomsky, le reputa mere macchine statistiche. C’è poi la prospettiva di chi usa questi strumenti per scopi artistici, scandagliandone i limiti e le possibilità.

In questo testo ci occuperemo di un argomento particolare: com’è possibile fare una critica estetica di ciò che questi modelli fanno? Si è scelto di trattare in particolare il tema dell’iconografia, ovvero quella parte delle discipline storico-artistiche deputata all’analisi e scomposizione delle opere d’arte in soggetti, temi e unità culturali complesse,  la quale ha uno specifico interesse per lo studio della relazione fra immagine e parola. L’iconografia, infatti, nasce come una tecnica per descrivere il contenuto di un’opera, e spesso la sua prassi consiste nel reperimento di fonti testuali che attestino il programma che sta dietro alla realizzazione di un’opera complessa. 

L’iconografia di un’opera prodotta da un modello TTI presenta delle caratteristiche interessanti che altri media non posseggono. L’iconografia procede, in maniera non troppo dissimile dalla struttura della percezione visiva nel cervello umano e nei modelli neurali di riconoscimento visivo, per astrazioni successive. Le immagini vengono scomposte in parti di cui si riconoscono gli oggetti naturali o artificiali, poi si passa al raggruppamento di queste parti in unità di senso più complesse, come temi, allegorie, personificazioni. Si studiano inoltre: la serie sincronica di queste rappresentazioni, ad esempio analizzando le comunanze di stili su base geografica (una città, una bottega, una nazione) e la serie diacronica, ovvero come le rappresentazioni mutano nel corso del tempo e come gli stili vengono creati, rielaborati, abbandonati e ripresi. 

Anche le reti neurali deputate al riconoscimento delle immagini procedono per una gerarchia di livelli di complessità e profondità crescenti. Il primo livello è la segmentazione semantica: si tracciano confini fra le varie parti, segue poi la classificazione e localizzazione degli oggetti, che li ritaglia dallo sfondo e li colloca in riquadri distinti. Infine, si studia la composizione complessiva dell’immagine con una segmentazione delle istanze degli oggetti (ad es. nell’immagine compaiono due esseri umani e una panchina). 

Si può quindi affermare che l’analisi iconografica e il riconoscimento artificiale d’immagini siano per certi versi simili. In sostanza l’iconografia non è altro che una percezione visiva più dettagliata, nella quale l’insieme delle figure viene composto in unità che hanno significato solo se si riconosce un certo codice visivo (ad es. una donna con una bilancia è personificazione della giustizia). Essi sono però diversi sotto altri punti di vista: il riconoscimento delle immagini è una tecnica che nasce da esigenze militari e mediche, come il raffinamento dei dispositivi di puntamento, la profilazione e lo studio di malattie neurologiche da risonanze magnetiche funzionali. Date queste premesse risulterà chiaro che è possibile addestrare una rete neurale per identificare temi e soggetti, e perfino stili, influenze e serie storiche, creando di fatto il modello della percezione di un critico. Invertendo il processo si dà la possibilità di generare immagini secondo le categorie apprese durante la fase di addestramento per il riconoscimento: questo è ciò che fanno i TTI. 

2. Come genera immagini un TTI?  

 

Le premesse per l’esistenza di un TTI coinvolgono varie innovazioni mediali e tecnologiche. Innanzitutto ci deve essere un archivio digitale di immagini e testi. Questo archivio deve essere organizzato in categorie e sottocategorie. Poi ci deve essere l’elaborazione di un metodo di ricerca in questo archivio – e qui entrano in gioco gli algoritmi di ranking (motori di ricerca) e di riconoscimento per immagini. Infine si deve creare un modello in grado di comprendere il linguaggio naturale e un modello che connetta due strutture semantiche diverse – parole e immagini – all’interno dello stesso spazio concettuale. Il linguaggio, la struttura alfabetica, la stampa a caratteri mobili, la fotografia, il cinema e i calcolatori digitali sono compresi in questa serie storica che culmina nei TTI. Ma, in questa serie ci sono anche innovazioni stilistiche ed estetiche e non a caso Lev Manovich parla di archivio come forma simbolica e di poetica dei frammenti in rifermento allo stile delle TTI. L’origine estetica delle TTI proviene dalle avanguardie artistiche del ‘900, oltre che dalle tecnologie menzionate precedentemente. Da un punto di vista molto astratto, i TTI operano con frammenti, o tokens, ovvero unità minime d’immagini e testi, espressi come punti in uno spazio vettoriale a n dimensioni. Per certi versi, le TTI operano in una linea estetica che comprende puntinismo, arte astratta e dadaismo. Nel puntinismo un’immagine viene scomposta e ricomposta come insieme di macchie colorate, nel dadaismo, frammenti di testo e immagini vengono ricomposti aleatoriamente, nell’arte astratta, si estraggono figure geometriche e colori dalla percezione sensibile per ricomporli secondo un codice visivo. C’è anche una componente surrealista, che, come vedremo a breve, afferisce alla caratteristica di operare con vettori di parole e immagini in uno spazio compresso, detto spazio latente, che viene assimilato all’inconscio freudiano. 

Per spiegare cosa fa un TTI, propongo due metafore: il taumatropio e la mappa-puzzle. Il taumatropio è un antenato del cinema: si tratta di quei dischetti tondi con due figure (ad esempio un uccello e una gabbia) una per verso, che permettono, se mossi velocemente da una cordicella, di creare nella percezione un effetto di sovrapposizione. Il taumatropio è un archivio digitale, dato che contiene un bit d’informazione. Sebbene ci sia un solo bit (ad es. uccello = 0, gabbia = 1), la messa in moto del taumatropio genera un continuum d’intersezioni fra le due immagini, che però collassa, nella percezione, in un’immagine composita. I TTI sono una specie di taumatropio molto complicato, composto non solo da milioni di immagini, ma da frammenti d’immagini (tokens) e frammenti di testo e da raggruppamenti fra questi. Digitando un prompt io chiedo al modello di selezionare una serie di taumatropi e li metto in movimento: il risultato è un caos o casualità controllata guidata dalle mie parole. 

Una metafora migliore è quella della mappa-puzzle. Immaginiamo di avere due sacchetti: uno contiene frammenti di parole (per semplificare: verbi, nomi e aggettivi) e l’altro pezzetti d’immagini. Ci sono delle stranezze, però: 1.  i sacchetti contengono pezzi di parole e immagini in numero diverso – ci sono molti esemplari di un tipo e pochi di un altro, 2. L’estrazione di un pezzo condiziona quella successiva (in altre parole i pezzi non sono statisticamente indipendenti come i lanci di una moneta). Se dovessimo gettare a terra i pezzi, ci accorgeremo che formano una specie di proiezione cartografica: isole di pezzetti connesse fra loro legate da una forza magnetica o gravitazionale. Inoltre, la mappa dei pezzi di parole e quella dei pezzi d’immagini si assomigliano. Come tutte le mappe, la distanza relativa fra i pezzi dipende dalla proiezione: sotto un certo punto di vista i frammenti sono vicini e sotto un altro lontani. Un enunciato è una rotta che congiunge i frammenti. Sebbene siamo liberi di scegliere la rotta, la disposizione dei frammenti limita i gradi di movimento che possiamo fare. Se dovessimo raccogliere nei sacchetti tutti i frammenti d’immagini e parole e poi gettarli a terra (questa volta, magicamente, senza alcuna proprietà di relazione fra i pezzi), avremmo uno spazio verbale e iconico privo di senso. 

Ora pensiamo di sottrarre una parte dei frammenti dalla mappa delle parole. In particolare, selezioniamo una rotta fra isole (una frase che costituisce il prompt) e mettiamo nel sacchetto tutto il resto dei frammenti della mappa. Se estraiamo uno alla volta dei pezzetti, cercando di completare la rotta in una direzione, avremmo una specie di ricostruzione delle traiettorie e delle isole nella mappa originaria, con una serie di variazioni. Questo perché la mappa originaria non ha solo una rappresentazione, ma molte, a seconda delle proiezioni. Questo è ciò che avviene con un LLM: si elimina una parte dei dati e delle loro relazioni – un processo chiamato attenzione, concentrandosi su una traiettoria (ciò che chiediamo col prompt). Basandosi sulle relazioni fra frammenti (le forze magnetiche o gravitazionali, e le varie proiezioni), i LLM generano, parola per parola, una continuazione plausibile. Nel caso dei TTI, ciò che conta è la comprensione del prompt (ovvero la rotta tracciata sulla mappa dei frammenti delle parole) e il modo in cui questa mappa, isomorfa a quella delle immagini, potrà guidare la ricostruzione di una rotta sulla mappa delle immagini (che ha subito un processo di eliminazione  e selezione omologo a quello precedente per le parole). 

Il processo di generazione delle immagini è composto da tre moduli, i quali corrispondono a diverse architetture di reti neurali. Nel primo modulo, la comprensione del testo, il linguaggio naturale umano del prompt viene codificato come vettori (detti embeddings), ovvero frecce all’interno di uno spazio multidimensionale le cui coordinate sono dei numeri reali troncati. All’interno dei TTI c’è un modulo che, avendo a disposizione una mappa semantica vettoriale delle relazioni fra i frammenti di testo (lessemi, parole, enunciati), riconosce la particolare traiettoria che vogliamo imprimere all’immagine. La distanza fra un punto e l’altro dipende dalla particolare prospettiva dalla quale osserviamo lo spazio semantico. Recenti ricerche nel campo delle neuroscienze sono arrivate a tracciare delle vere e proprie cartografie semantiche multidimensionali utilizzando le stesse reti neurali impiegate nei LLM. La metodologia che informa questi modelli è chiamata semantica distribuzionale, ed è una teoria linguistica che parte dal presupposto che il significato delle parole dipende dal contesto – parole usate in contesti simili hanno lo stesso senso. In termini più tecnici, la semantica distribuzionale modella il significato delle parole come vettori (o punti) in uno spazio multidimensionale” . Un’idea non troppo dissimile dalle teorie di Wittgenstein, Saussure e Peirce. I punti di queste mappe sono organizzati in aree semantiche, di cui le unità minime sarebbero i neuroni o i tokens. Data la struttura arboriforme delle connessioni neuronali biologiche e la struttura a grafo delle connessioni neurali artificiali, si può stabilire un’omologia fra le due – tenendo però conto che si tratta per ora, di una analogia, nel senso che è probabile che i meccanismi di costruzione dello spazio semantico nel cervello non funzionino esattamente come ciò che vediamo nelle reti artificiali. Lo stesso tipo di codifica vettoriale avviene per le immagini, e per una combinazione di immagini e parole, ottenuta mediante una mappatura fra gli elementi più salienti di un testo (il prompt), la posizione probabile del testo nella mappa delle parole e il confronto di questo con la mappa delle immagini. 

Il secondo modulo, la generazione d’immagini, corrisponde allo strumento principale delle TTI: il modello di diffusione. Seguiamo ancora la metafora della mappa-puzzle: estraiamo dalla nostra mappa un’isola specifica (cioè un’immagine singola, come un volto o un oggetto), poi prendiamo dei pezzi a caso dalla mappa e mettiamoli dentro un sacchetto assieme ai frammenti dell’immagine, scuotiamo il sacchetto e avremo un volto confuso, i cui caratteri sono disordinati. Normalmente la nostra rete neurale è in grado di stabilire una corrispondenza fra immagini e parole, e nel caso di un’immagine confusa con frammenti casuali dovrebbe essere in grado di stabilire questa corrispondenza se addestrata. Ma il punto è che noi vogliamo addestrarla a riconoscere la quantità di frammenti casuali che abbiamo inserito. Se è in grado di farlo, allora possiamo prendere un’immagine che appare come casuale e, attraverso vari passaggi di riconoscimento e ricomposizione, formare un’immagine ordinata. Se eseguiamo lo stesso procedimento estraendo pezzi da varie isole, e cerchiamo, attraverso la rotta tracciata sulla mappa delle parole, di costruire una simile rotta composta da immagini, non avremo la ricostruzione della stessa immagine, ma la generazione di una serie d’immagini simili. 

Fuor di metafora: il modello di diffusione viene addestrato per stimare la quantità di rumore che abbiamo introdotto in un’immagine. Per rumore s’intende una disposizione dei vettori (o, per semplificare, dei pixels) casuale, dove ogni frammento compare con la stessa probabilità degli altri. Poiché la disposizione dei pixels e la struttura dello spazio iconico non è casuale, ma dipende da una codifica posizionale, è possibile addestrare la rete a riconoscere l’immagine in presenza di rumore, di stimare la quantità di rumore e di invertire questo processo, ovvero, partendo dal rumore, ricostruire l’immagine. Se si applica lo stesso processo a più immagini non si otterrà la ricostruzione di una specifica immagine, ma una combinazione di più forme, o, se addestrata su una sola categoria d’immagini (ad es., navi), una generazione combinatoria d’immagini che sono variazioni e ricombinazioni della categoria. Chiaramente, tutto questo richiede una supervisione, nel senso che ciò che guida questa ricostruzione non è solo il prompt, lo spazio semantico delle parole e quello delle immagini, ma anche l’interazione con utenti che giudicano il risultato, creando un ulteriore raffinamento del processo.

Il terzo elemento dei TTI è l’autocodificatore, composto da un codificatore e da un decodificatore. Questo modulo s’inserisce fra i primi due, riducendo la complessità delle operazioni e rendendo più preciso il risultato finale. Il riconoscimento delle immagini avviene per livelli, detti convoluzioni, che corrispondono alle aree visive del cervello umano. Ogni convoluzione estrae caratteristiche dall’immagine, aumentando così le informazioni relative alla mappa delle connessioni fra i suoi frammenti. L’estrazione delle features dell’immagine non si applica direttamente all’immagine, ma a versioni via via più compresse, caratterizzate da un numero inferiore di pixels e di proprietà. La compressione genera uno spazio latente, ovvero una forma contratta della rappresentazione e in questa forma che avvengono le operazioni di fusione e contaminazione che abbiamo descritto precedentemente. Se i TTI si fermassero a questo passaggio non sarebbero molto efficaci: avremmo sì delle immagini creative, ma a risoluzione molto bassa. Per questo è necessario un meccanismo inverso, la decompressione, che si applica dopo la compressione.  Come abbiamo visto precedentemente, l’immagine viene generata attraverso un processo guidato di riduzione del rumore. Ebbene in questo processo, ciò che rende veramente efficace le TTI è il fatto che ci sia una trasmissione d’informazioni fra la compressione e la decompressione. L’immagine generata dal modello di diffusione è raffinata, a livelli successivi, dal decodificatore, il quale permette di passare da una rappresentazione a bassa risoluzione ad una ad alta risoluzione 

Domanda: ma i TTI sanno quello che stanno facendo? Una risposta sensata potrebbe essere: forse. I TTI dispongono di un meccanismo di comprensione del linguaggio naturale, di uno spazio semantico, di uno spazio iconico e di relazioni fra questi. Ciò sembra ricalcare il modo in cui le aree del cervello codificano immagini, suoni, parole (ma ci sono anche le emozioni). Sembra evidente che le rappresentazioni che abbiamo nel cervello siamo multidimensionali e che vi sia una certa omologia fra gli spazi semantici delle parole e delle immagini. Resta però il fatto che, dal punto di vista umano, l’esperienza di questi concetti non dipende solo dalla percezione, dall’attenzione e dalla memoria, ma innanzitutto dalla coscienza. Un’osservazione preziosa ci proviene dal modo in cui artisti affetti da malfunzionamento delle aree visive (visual agnosia, prosopagnosia) sono in grado di creare opere d’arte. In uno studio compiuto negli anni ’70, viene registrato che un artista affetto da agnosia visiva (impossibilità di riconoscere e descrivere alcuni oggetti), fosse in grado di disegnare oggetti sulla base di una descrizione verbale di questi. In altre parole, non ricordava come si disegnasse un telefono, né lo riconosceva se non parzialmente, ma elencando le parti che lo componevano e la loro funzione era in grado di farne una rappresentazione composita. Un artista contemporaneo, Chuck Close, affetto da prosopagnosia (impossibilità di riconoscere i volti), crea dei ritratti anche se non è in grado di riconoscere le facce. Close scatta una fotografia in formato grande del suo modello. Poi sovrappone un foglio trasparente alla fotografia e divide quel foglio trasparente in molti piccoli cubi, ognuno dei quali viene decorato in modo distintivo. Successivamente, in un passaggio di sintesi, trasferisce i cubi decorati sulla tela.

Massimo Campigli, Senza titolo, 1960 Asta Pananti in corso

 

3. Lo spazio latente, o Denkraum 

La compressione delle immagini e le operazioni di modifica che avvengono nello spazio latente sono paragonabili al fenomeno della censura dell’inconscio e al lavoro onirico ipotizzato da Freud. Il lavoro onirico è il processo attraverso il quale il contenuto latente del sogno (desideri, emozioni) viene trasformato nell’apparenza manifesta del sogno che esperiamo durante il sonno. Ciò avviene attraverso diverse operazioni mentali come la condensazione (riduzione di più elementi in uno solo) e lo spostamento (cambiamento di significato da un elemento all’altro). La censura è invece il processo attraverso il quale la mente inconscia modifica il contenuto del sogno per renderlo accettabile alla mente cosciente. È possibile mantenere questi due concetti senza ricorrere alla sovrainterpretazione freudiana. Più precisamente: quando chiedo ad un TTI di generare un’immagine generica (ad es. un tavolo), l’operazione implicata è una condensazione – ovvero una media statistica delle proprietà delle foto classificate come tavoli. Se si adotta un paradigma cognitivo e si associa il funzionamento delle reti neurali a quello del cervello, è possibile affermare che la condensazione è un fenomeno di apprendimento per categorie. Questo perché, durante la fase di compressione, le immagini diventano sempre più compatte, ma le features che vengono estratte si moltiplicano e si disperdono nel campo semantico e iconico. Durante questo procedimento le immagini diventano non solo più generiche, ma anche più irriconoscibili, poiché l’autocoficatore comprime l’immagine nello spazio latente per mezzo del codificatore, per poi ricostruirla utilizzando solo le informazioni compresse tramite il decodificatore. Questa ricostruzione è simile al processo di lavoro onirico, poiché, nel suo tratteggiare in modo sempre più dettagliato i confini delle immagini, che emergono da uno sfondo confuso e ambiguo di forme mescolate, riesce a costituire una storia ed una struttura coerente.

Non è quindi un caso se tale spazio sia stato comparato a un “inconscio della macchina”. Inoltre, la visualizzazione e lo studio dello spazio latente mostrano alcune caratteristiche interessati dal punto di vista iconografico. Uno spazio latente composto a partire dal database di due sole tipologie d’immagini, ad esempio un pesce e un uccello, è visualizzabile come un quadrato all’interno di un sistema di coordinate cartesiano. Ci sono due punti opposti che rappresentano un uccello puro e un pesce puro e una variazione e fusione fra questi a mano a mano che ci si avvicina al centro del quadrato, esattamente come si può vedere nel quadro “Cielo e Acqua” di Escher. Secondo Stephen Wolfram, tale spazio è composto da isole di senso (quelle che noi interpretiamo come immagini corrette) e da quello che lui chiama spazio intra-concettuale. Lo spazio intra-concettuale è formato da tutte quelle composizioni d’immagini che vivono nello spazio latente che non corrispondono a una descrizione dotata di senso per un osservatore umano. Per queste immagini ci mancano letteralmente le parole. E ciò è normale, dato che i TTI operano con tokens, matrici, vettori e numeri reali in uno spazio multidimensionale, mentre noi usiamo dei concetti. Lo spazio latente ha meno dimensioni dello spazio totale delle reti semantiche e iconiche e, per quanto possiamo capirne, la sua struttura ha degli assi semantici che si possono esplorare. Per asse semantico s’intende una particolare prospettiva o proiezione, entro la quale le immagini dello spazio vengono ordinate. Anche questi assi sono rappresentabili come vettori, questa volta codificanti delle proprietà complesse etc. In futuro sarà possibile operare a partire da modifiche direttamente nello spazio latente, una volta identificati i vettori che determinano le trasformazioni nel processo di diffusione e decompressione. 

Per parlare dello spazio latente Wolfram usa l’espressione “mente aliena”, mentre altri autori impiegano la metafora freudiana dell’inconscio. A mio avviso, se d’inconscio o mente si deve parlare, è necessario impiegare una prospettiva mediale: ciò che lo spazio latente rappresenta è l’inconscio del medium, ovvero uno spazio che dipende dal suo codice, dal training e dalle correzioni successive. Questo spazio è parzialmente assimilabile a quello di un soggetto – come afferma Emanuele Arielli – nel senso di un autore implicito. Questo perché i TTI ricostruiscono un modello di artista e di critico sulla base dei nostri prompt. La prima fase ricostruisce un critico, poiché discrimina le parti dell’immagine e le raggruppa secondo unità semantiche, la seconda fase invece ricostruisce l’operare della mente di un’artista. 

Ma c’è una particolare motivazione per cui la tecnologia delle reti neurali dovrebbe avere un rapporto più diretto con l’inconscio e le sue operazioni? Da un punto di vista qualitativo, certamente no: lo dimostrano le migliaia di studi di iconografia analitica sulla pittura e di psicanalisi sul cinema. 

Quello che i TTI rendono evidente è piuttosto un processo di creazione generico, il quale si applica alle menti umane e alle reti neurali. Basta prendere le lezioni di Gilles Deleuze sulla pittura per rendersene conto. Il filosofo francese paragona il processo di creazione artistica a un caos controllato, intendendo con ciò il fatto che la tela bianca rappresenta l’insieme dei cliché che l’artista deve eliminare per produrre la sua opera. Questo caos può essere operato in modo analogico e digitale mediante l’inserimento di un diagramma, termine ripreso da Peirce, che rimanda alla possibilità di modulare, tramite grafi, schemi e variazioni, un insieme di percetti spaziotemporali. Questo controllo del caos è esattamente il procedimento per cui il modulo di diffusione elimina progressivamente rumore da una serie d’immagini guidato dal diagramma che sono le nostre indicazioni. Ciò che modula il caos è la traduzione vettoriale dei prompt. I vettori del nostro discorso creano un percorso che si scontra con l’inerzia, la gravità e i legami che costituiscono la normale disposizione dei frammenti in una mappa semantica. In questo senso, dal punto di vista estetico, i TTI uniscono una componente digitale, che Deleuze associa alla pittura astratta e al puntinismo con una componente analogica, che Deleuze associa a Francis Bacon e a Pollock. In ultima analisi, la macchina su cui operano i TTI è un calcolatore digitale, e le immagini vengono discretizzate per essere memorizzate, ma i computer possono simulare l’analogia mediante vettori e matrici. 

Deleuze afferma inoltre che in rapporto a questo caos si possono avere diverse attitudini, le quali corrispondono a diversi stili: si può tendere a una codifica rigida o cristallina, come nella pittura astratta, o a forme più complesse e organiche, sino ad una modulazione analogica delle macchie di colore, come nell’action painting. Nei TTI c’è una codifica alla base, poiché le immagini sono inizialmente archiviate come mappe di bit e solo successivamente, con le reti neurali, si dà la possibilità di una simulazione di modulazioni analogiche. 

Nello spazio semantico agiscono delle forze di attrazione, poiché parole e immagini simili sono attrattori, i quali rappresentano isole di senso di un mare di variazioni. Il modo in cui operiamo con tali forze è dato dai vettori che introduciamo e dalla particolare prospettiva che assumiamo nei confronti dello spazio semantico. Utilizzando i termini dello storico dell’arte viennese Aby Warburg, potremmo definire i vettori come formule di pathos e lo spazio semantico come “denkraum”, spazio del pensiero. Ci sono vettori semplici che codificano frammenti, o singoli oggetti o composizioni di oggetti e vettori-proprietà , la cui funzione è quella di alterare quelle che potremmo definire caratteristiche generali delle immagini. Vettori-proprietà importanti sono ad esempio i colori, le posizioni, i sentimenti, i quali non sono localizzati ad una singola area semantica, ma distribuiti.   Le formule di pathos di cui parlava Warburg erano trasformazioni che agivano sulle figure, come una torsione, il cambiamento di un’espressione o dell’intensità dei colori, lo spostamento da figura a sfondo. Con i TTI possiamo “vedere” e operare a livello di queste forze, che non sono altro che vettori-proprietà. Il denkraum, invece, è quella parte dello spazio semantico che non codifica immagini riconoscibili. Nel suo progetto per un atlante per le immagini, Warburg apponeva foto in bianco e nero su pannelli scuri, e queste foto erano come le isole semantiche dello spazio latente, unità di senso circondate dal caos delle interconnessioni reciproche o intra-concettuale, per usare l’espressione di Wolfram. 

4. Soggetti, Oggetti, Gerarchie  

 

La struttura dei TTI implica un meccanismo di auto-iconografia: da un lato perché immagini e descrizioni sono unificate  e dall’altro perché essi costruiscono dei modelli simulati di artista e critico. L’operazione iconografica non si situa a livello di prompt, che rappresenta l’intenzione dell’autore umano, ma nello spazio latente e nello studio mediale delle specificità del modello impiegato. Lo spazio latente offre una visione sinottica di immagini che mancano di parole per essere espresse, mentre lo studio della struttura del database e degli algoritmi impiegati permette una critica estetica. La necessità di una critica mediale è determinata dal fatto che i modelli non sono strumenti generici, come una tavolozza o una macchina da presa, ma sono strumenti che integrano un enorme archivio d’immagini digitalizzate e un legame con le aziende che distribuiscono i software. Questi strumenti posseggono una genealogia di lunga durata, che li connette alle storie intrecciate di tecniche militari, analisi mediche e profilazioni. Infine, le capacità acquisite da un modello (ad es. il riconoscimento) vengono trasferite ad un altro (ad es. la generazione). 

L’analisi dello spazio latente corrisponde a una traduzione verbale e alla visualizzazione in termini comprensibili da un osservatore umano delle forze in gioco. Questo pone un problema che in futuro potrebbe tradursi in una modifica delle professioni. Come dicevamo, i TTI rendono inutile la distinzione fra critica e creazione, a livello interno, perché senza la segmentazione semantica la generazione (diffusione) non sarebbe possibile. Gli artisti che operano a livello di prompt devono già possedere delle nozioni critiche, dato che forniscono una descrizione verbale dell’immagine che vogliono realizzare. D’altro canto, la realizzazione dell’immagine è un processo di selezione, fine tuning e post-produzione. Il prompting è una specie di iconografia inversa: si parte da una descrizione e si genera l’immagine. Dato che per fornire una descrizione è necessario conoscere i referenti, gli stili, i temi, le regole di composizione, e la reazione del TTI al linguaggio,  vi è una sovrapposizione fra il know-how critico e quello inventivo. Questa descrizione è parziale, poiché il prompting è solo uno degli aspetti della creazione algoritmica – la selezione di un corpus sul quale addestrare un modello e la conoscenza del suo funzionamento profondo sono altrettanto importanti, oltre a tutte le varie funzioni a disposizione di chi usa questi software, poco note a chi si ferma al prompting ma conosciute a tutti i professionisti e le professioniste che lavorano con TTI. Considerare il prompting come l’unica interazione umana con la macchina, insomma, è decisamente riduttivo.

. E quindi si aggiunge un terzo insieme, che si combina con quello dell’artista e del critico, ovvero quello degli ingegneri che hanno costruito i modelli. Ciò genera ulteriori problemi: i modelli, una volta addestrati, non dipendono più dal corpus iniziale, ma da questo hanno estratto delle strutture semantiche. Volendo applicare il modello ad un altro corpus si sposterebbe una struttura da un corpus all’altro. Un’altra questione problematica è che, ad ora, i modelli estraggono informazioni da database ottenuti in modo opaco, spesso sfruttando interstizi legali. Infine, ci sono i costi di training e generazione, i primi piuttosto elevati, i secondi contenuti, ma dipendenti dalla frequenza d’impiego di milioni di utenti.

Tutto ciò fa pensare che l’interfaccia, la natura privata dei servizi, la difficoltà di conoscere tecnicamente il funzionamento delle reti neurali, la dipendenza di un modello da altri e la natura opaca delle acquisizioni dei database costituiscano colli di bottiglia rispetto al funzionamento efficace dei TTI. Dal punto di vista della tendenze future, queste limitazioni potrebbero essere risolte in modi che attualmente ci sembrano allarmanti. Non si tratta semplicemente dei problemi giuridici o lavorativi, ma in modo più generale del fatto che l’intersezione delle ricerche sulle reti neurali e la neurologia mostra l’esistenza di vari punti in comune. Anche se, come abbiamo ripetuto più volte, non c’è una omologia fra mente e reti neurali, ciò che i progressi nei due campi mostrano è che c’è una comprensione sempre più raffinata di modi per tradurre in termini algoritmici il pensiero umano. Se questa strada venisse perseguita l’esito potrebbe essere quella macchina per esperienze che è al cuore di un famoso esperimento mentale di Robert Nozick. In Anarchia, Stato, Utopia Nozick si chiede se, avendo a disposizione una macchina che simula esperienze piacevoli, o ci permette di diventare chi vogliamo (macchina per trasformazioni) o, ancora, che ci permette di creare ciò che vogliamo (macchina del risultato) siamo ancora in grado di conferire un senso alle esistenze individuali. Un modo meno catastrofico di leggere il progresso di questi modelli è pensarla col Marx dell’Ideologia tedesca, immaginando una società futura in cui la divisione del lavoro cessa di esistere, e ognuno occupa il suo tempo nel modo che meglio preferisce, con la clausola che mente lo fa, deve poter aumentare il benessere sociale di tutti. Fra queste due ipotesi, preferisco pensare che nel futuro l’intersezione fra questi modelli e le neuroscienze dovrebbe condurre allo sviluppo di una migliore comprensione e cooperazione, cercando di interpretarli come macchine di traduzione e comunicazione – una delle ragioni per le quali sono stati creati, fra le altre cose. 

Secondo Matteo Pasquinelli ciò che questi modelli neurali fanno è automatizzare e perfezionare la divisione del lavoro, spezzettando compiti ed azioni complesse in unità sempre più minute, le cui rappresentazione sono vettori e matrici, operando calcoli e trasformazioni su queste matrici. Ciò non avviene automaticamente, ma mediante il costante inserimento di continue calibrazioni umane, che però corrispondono all’alienante frammentazione delle task da compiere. La divisione del lavoro non è però una mera frammentazione, ma l’inserimento di questa frammentazione in una gerarchia, graficamente rappresentata da un albero (o grafo) composto da tronchi, fronde, rami e radici. Tali gerarchie sono le isole e le rotte dello spazio semantico che si trova nelle reti neurali e che possiamo, per approssimazione, proiettare sulle reti neurali biologiche. Stephen Wolfram pensa che questa analogia sia interpretabile come una sostanziale identità fra computazione ed evoluzione biologica: i fenomeni fisici sono computazionali, come quelli biologici, e neurologici. Un altro modo di leggere questa somiglianza è di soffermarsi sul fatto che l’estrapolazione di strutture ad albero sia qualcosa che solo gli esseri umani fanno, e ciò è determinato dal linguaggio. Ma il linguaggio è un invenzione così potente che l’abbiamo proiettata sul mondo naturale, ad esempio descrivendo la biologia in termini tassonomici e sul mondo sociale, ad esempio, creando civiltà e fabbriche con una struttura gerarchica. Infine, è semplicemente possibile che questa non sia che l’ultima delle metafore tecnologiche: macchine idrauliche, calcolatori digitali e reti neurali sono modelli che abbiamo applicato alle mente e al mondo, salvo poi scoprire che entrambe erano immensamente più complessi. 

5. Slittamenti dello spazio semantico o Nachleben   

 

Lo spazio latente delle reti neurali è un fermo-immagine del processo di percezione, una memoria congelata di processi che nel nostro cervello avvengono dinamicamente. Allo stesso modo, la semantica distribuzionale costruisce spazi vettoriali che corrispondono allo stato congelato della lingua. Ma, come affermava Saussure, la lingua, e più in generale la cultura, è viva e in costante mutazione. Mettendo in una serie diverse rappresentazioni vettoriali dello spazio semantico, possiamo vedere come queste mappe cambiano nel corso del tempo: alcuni legami si rafforzano, altri si sfilacciano, altri sembrano scomparire. Il livello più alto dell’analisi iconografica è lo studio delle invarianze rappresentative concepite come una serie temporale. Poiché lo spazio semantico e quello iconico sono stoccati nelle menti dei parlanti e degli artisti, è possibile mostrare come nella storia agiscano forze di mutazione e conservazione dei legami fra le varie parti. Ciò che Warburg chiamava Nachleben, “sopravvivenza”, dal punto di vista della semantica distribuzionale è l’osservazione che certe configurazioni di forze – certe isole di senso, o vettori -, s’indeboliscono o si frammentino per poi ricomparire altrove, magari raggruppati con nuovi vettori. Il Rinascimento è un caso paradigmatico: raffigurazioni plastiche e corpus di testi della cultura greca, che nel corso del Medioevo sono stati meramente conservati, si sono indeboliti o dispersi in mille rivoli geografici, assumendo dei connotati depotenziati. È questo il caso delle divinità greche, che si muovono nel campo geografico e culturale europeo nascoste sotto forme irriconoscibili, nei testi di astronomia islamica, o negli erbari. Col Rinascimento essi riacquisiscono la loro forza e la loro centralità originaria, anche se la struttura dello spazio semantico comprende marco-aree come il cristianesimo che ha cambiato tutti i rapporti. Li troviamo fusi con santi e madonne, non più come figure di sfondo o relegate ai confini dello spazio semantico. Ciò che rendeva possibile questi mutamenti era la modificazione di vettori-proprietà che agivano nello spazio latente della storia così come agiscono, singolarmente, nelle menti. Questo porta a pensare che lo studio delle forze oscillatore e telluriche dello spazio semantico sia oggi molto più realizzabile di quanto avesse potuto fare al suo tempo Warburg, poiché abbiamo degli archivi molto più dettagliati e organici, i quali possono permetterci di osservare queste forze, di quantificarle e interrogarle. 

La vita stessa della storia, con la sua complessa diversità, i suoi travestimenti, la sua libertà e la sua castigatezza, prende alle volte il volto della folla, alle volte quello dell’individuo; il suo umore oscilla fra l’ottimismo e il pessimismo; essa crea e distrugge gli stati, i culti, le civiltà; alle volte abbandonandosi a degli impulsi e alla fantasia, essa è un pesante mistero per sé stessa. Altre volte essa è sostenuta e accompagnata dalla sola riflessione, nonostante attraversata, in certi giorni, dai presentimenti di quello che avverrà in un futuro lontano” Jacob Burckhardt

Bibliografia 
Estetica artificiale 
D’Isa, Francesco, La rivoluzione algoritmica. Arte e intelligenza artificiale, Roma, Luca Sossella Editore, 2024.
Guariento, Tommaso, «Una scienza senza nomi. Arti della memoria, filogenesi culturale e cultural analytics», Nicola Russo, Joaquin Mutchinick (a cura di), Immagine e memoria nell’era digitale, 111–137, Milano, Mimesis, 2020.
Manovich, Lev, Arielli Emanuele, Artificial Aesthetics: Generative AI, Art, and Visual Media, 2021-2024, http://manovich.net/index.php/projects/artificial-aesthetics-book
Estetica e neuroscienze 
Kandel, Eric, Arte e Neuroscienze, Milano, Raffaello Cortina, 2017.
Wapner, Wendy, Tedd Judd, Howard Gardner, «Visual Agnosia in an Artist», Cortex, vol. 14, fasc. 3, settembre 1978, pp. 343–364.
Semantica distribuzionale e neuroscienze
Çukur, Tolga, Shinji Nishimoto, Alexander G. Huth, Jack L. Gallant, «Attention during natural vision warps semantic representation across the human brain», Nature Neuroscience, vol. 16, fasc. 6, aprile 2013, pp. 763–770.
Dehaene, Stanislas, Florent Meyniel, Catherine Wacongne, Liping Wang, Christophe Pallier, «The Neural Representation of Sequences: From Transition Probabilities to Algebraic Patterns and Linguistic Trees», Neuron, vol. 88, fasc. 1, ottobre 2015, pp. 2–19.
Grand, Gabriel, Idan Asher Blank, Francisco Pereira, Evelina Fedorenko, «Semantic projection recovers rich human knowledge of multiple object features from word embeddings», Nature human behaviour, vol. 6, fasc. 7, luglio 2022.
Higgins, Irina, Le Chang, Victoria Langston, Demis Hassabis, Christopher Summerfield, Doris Tsao, Matthew Botvinick, «Unsupervised deep learning identifies semantic disentanglement in single inferotemporal face patch neurons», Nature Communications, vol. 12, fasc. 1, novembre 2021, pp. 1–14.
Manning, Christopher D., «Human Language Understanding & Reasoning», Daedalus, vol. 151, fasc. 2, maggio 2022, pp. 127–138.
Sorscher, Ben, Surya Ganguli, Haim Sompolinsky, «Neural representational geometry underlies few-shot concept learning», Proceedings of the National Academy of Sciences of the United States of America, vol. 119, fasc. 43, ottobre 2022.
Semantica distribuzionale e reti neurali 
Elhage, et al., “Toy Models of Superposition”, Transformer Circuits Thread, 2022, https://transformer-circuits.pub/2022/toy_model/index.html
Haas, René, Inbar Huberman-Spiegelglas, Rotem Mulayoff, Tomer Michaeli, «Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models», ArXiv , marzo 2023.
Park, Yong-Hyun, Mingi Kwon, Jaewoong Choi, Junghyo Jo, Youngjung Uh, «Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry», arXiv, luglio 2023.
Filosofia 
Chalmers, David, “Could a Large Language Model be Conscious?”, arXiv:2303.07103v2, 2023. 
Deleuze, Gilles, Sur la peinture: cours, mars-juin, David Lapoujade (a cura di), Paris, Les éditions de minuit, 2023.
Marx, Karl, Friedrich Engels, L’ideologia tedesca, Roma, Editori riuniti, 1967.
Nozick, Robert, Anarchia, stato e utopia, Milano, Il saggiatore, 2008.
Pasquinelli, Matteo, The eye of the master: a social history of artificial intelligence, London, Verso, 2023.
Guide su TTI e LLM
Alammar, Jay, “Illustrated Stable Diffusion”, https://jalammar.github.io/illustrated-stable-diffusion 
De Baggis, Mafe, Alberto Puliafito, In principio era ChatGPT , Milano, Apogeo, 2023.
Colyer, Adrian “The Amazing Power of Word Vectors”, 2016, https://blog.acolyer.org/2016/04/21/the-amazing-power-of-word-vectors
Wolfram, Stephen “Generative AI Space and the Mental Imagery of Alien Minds,” Stephen Wolfram Writings. 
https://writings.stephenwolfram.com/2023/07/generative-ai-space-and-the-mental-imagery-of-alien-minds, 2023.
Wolfram, Stephen, What is ChatGPT doing … and why does it work?, Wolfram Media, 2023.
“How Stable Diffusion Works (AI Image Generation)”, 27 Giugno 2023, 
https://www.youtube.com/watch?v=sFztPP9qPRc&t=27s 
“Stable Diffusion – How to build amazing images with AI”, 12 Dicembre 2023, 
https://www.youtube.com/watch?v=JmATtG0yA5E 
“Denoising and Variational Autoencoders” 15 Gennaio 2002. 
 https://www.youtube.com/watch?v=SSXDkfiPs7c 

Tommaso Guariento è nato a Padova (1985). Ha conseguito un dottorato in Studi Culturali all’Università di Palermo. Vive fra Padova e Parigi. Scrive per l’indiscreto, not, anti-materia, Effimera ed Il Lavoro culturale. Si interessa di immagini, antropologia e filosofia politica. da tre anni tiene un corso di visual studies presso la scuola open source di bari.

0 comments on “Iconografia per intelligenze artificiali

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *