Il Nooscopio: L’intelligenza artificiale come strumento di estrattivismo della conoscenza



 Il Nooscopio è una cartografia critica dei limiti dell’intelligenza artificiale che mira a sfidare le mistificazioni che circondano queste tecnologie, che non sono considerate né intelligenti in senso stretto né politicamente neutre, ma ben radicate nel tessuto sociale e storico, oltre che nel lavoro umano.


In copertina: Un’opera di Poppy De Havilland, “Unbound”, 2023

Questo testo è estratto da Black Box Cartography – A critical cartography of the Internet and beyond, a cura di Vladan Joler. Ringraziamo gli autori e Krisis Publishing per la gentile concessione.


di Vladan Joler e Matteo Pasquinelli

traduzione di Francesco D’Isa

 

 

1. Qualche chiarimento riguardo al progetto di meccanizzare la ragione

Il Nooscopio è una cartografia dei confini dell’intelligenza artificiale (IA) che vuole essere una provocazione sia per l’informatica che per le discipline umanistiche. Sappiamo che ogni mappa offre una prospettiva parziale ed è da intendersi come un modo per stimolare il dibattito. Questa mappa è un manifesto di dissidenti dell’IA e il suo scopo è sfidare le varie mistificazioni in atto attorno all’intelligenza artificiale. Anzitutto riguardo alla sua definizione come intelligenza e seconda di poi come forma politica autonoma rispetto alla società (1). Nell’espressione “intelligenza artificiale”, l’aggettivo “artificiale” ci riporta al mito dell’autonomia della tecnologia: allude a una caricaturale “mente aliena” che si auto-riprodurrebbe in silico, ma in realtà mistifica due processi di alienazione: la crescente autonomia geopolitica delle aziende hi-tech e l’invisibilizzazione dell’autonomia dei lavoratori in tutto il mondo. Nel ventunesimo secolo il progetto di meccanizzazione della ragione umana è chiaramente mutato, diventando un regime aziendale di estrattivismo della conoscenza e colonialismo epistemico (2). Non sorprende, dato che gli algoritmi di apprendimento automatico sono tra i più potenti metodi di compressione delle informazioni.

L’obiettivo della mappa Nooscopio è quello di desacralizzare l’IA, trasformandola da entità percepita come “macchina intelligente” a semplice strumento di conoscenza. Piuttosto che intessere leggende sulla cognizione aliena, è più ragionevole considerare l’apprendimento automatico come uno strumento di amplificazione della conoscenza, che aiuta a percepire caratteristiche, patterns e correlazioni attraverso vasti spazi di dati ben al di là della capacità della mente umana. Nella storia della scienza e della tecnologia non è una novità: è già avvenuto con gli strumenti ottici nella storia dell’astronomia e della medicina (3). Dalla prospettiva della storia della scienza, l’apprendimento automatico è appunto un Nooscopio, uno strumento per vedere e navigare lo spazio della conoscenza (dal greco skopein, “esaminare, guardare”, e noos, “conoscenza”).

Ispirandosi a Gottfried Wilhelm Leibniz, il diagramma del Nooscopio utilizza un’analogia con i mezzi ottici per descrivere i dispositivi di apprendimento automatico. Discutendo il potere del suo calculus ratiocinator e della “caratteristica universale” (l’idea di progettare un linguaggio universale numerico per codificare e risolvere tutti i problemi del ragionamento umano), Leibniz propose un’analogia con gli strumenti di ingrandimento come il microscopio e il telescopio. Scrisse: “Una volta stabiliti i calcoli giusti per la maggior parte dei concetti, l’umanità avrà un nuovo strumento che potenzierà le capacità della mente in misura ben maggiore di quanto gli strumenti ottici rafforzino gli occhi, e soppianterà il microscopio e il telescopio, in quanto la ragione è superiore alla vista” (4). Anche se lo scopo di questo testo non è di reiterare l’opposizione tra le culture quantitative e qualitative, non è necessario seguire il credo di Leibniz. Le controversie non devono essere per forza ‘calcolate’ e risolte  in modo definitivo. L’apprendimento automatico non è una forma definitiva di intelligenza.

Strumenti di misurazione e percezione hanno inerentemente delle aberrazioni. Allo stesso modo in cui le lenti dei microscopi e dei telescopi non sono mai perfettamente curvilinee e lisce, le lenti logiche dell’apprendimento automatico incorporano alcuni difetti e distorsioni. Comprendere l’apprendimento automatico e registrare il suo impatto sulla società equivale a studiare il grado in cui la società è diffratta e distorta da queste lenti. È questo il dibattito sui ‘bias’ nell’IA, ma le implicazioni politiche dell’apprendimento automatico sono più profonde. L’apprendimento automatico non sta portando a un nuovo oscurantismo, ma a una razionalità diffratta in cui, come vedremo, un’episteme legata alla causalità viene sostituita da una basata su correlazioni automatizzate. Più in generale, l’IA si manifesta come  un nuovo regime di verità, validità scientifica, normatività e razionalità che spesso assume la forma di un’allucinazione statistica. Questo diagramma-manifesto è modo per dire che l’IA, il re della computazione (fantasia patriarcale di conoscenza meccanizzata, “algoritmo maestro” e macchina alfa) è nudo. Qui stiamo sbirciando nella sua scatola nera.

Sull’invenzione delle metafore come strumento di amplificazione della conoscenza. Emanuele Tesauro, “Il canocchiale aristotelico”, frontespizio dell’edizione del 1670, Torino.

2. La catena di montaggio dell’apprendimento automatico: dati, algoritmi e modelli

La storia dell’IA è segnata da esperimenti, fallimenti, controversie accademiche e intense rivalità per i finanziamenti militari, episodi spesso descritti come gli “inverni dell’IA” (5). Sebbene l’odierna IA aziendale parli di sé con il linguaggio della “magia nera” e della “super-intelligenza”, le tecniche attuali sono ancora in fase sperimentale (6). L’IA è ora allo stesso stadio di quando è stata inventata la macchina a vapore, prima che fossero scoperte le leggi della termodinamica necessarie per spiegare e controllare il suo funzionamento. Allo stesso modo, oggi, ci sono reti neurali efficienti per il riconoscimento delle immagini, ma non c’è ancora una teoria dell’apprendimento statistico per spiegare perché funzionano così bene e perché falliscono altrettanto male. Come ogni invenzione, il paradigma dell’apprendimento automatico si è consolidato lentamente, in questo caso nell’ultimo mezzo secolo. Un algoritmo “maestro” non è apparso dall’oggi al domani. Piuttosto, c’è stata una graduale costruzione di un metodo di calcolo che deve ancora trovare un suo linguaggio. I manuali di apprendimento automatico per gli studenti, ad esempio, non condividono ancora una terminologia comune. Come possiamo dunque delineare una grammatica critica dell’apprendimento automatico che possa essere concisa e accessibile, senza cadere nel gioco paranoico del definire l’Intelligenza Generale (come fanno i sostenitori della cosiddetta Intelligenza Artificiale Generale)?

Come strumento di conoscenza, l’apprendimento automatico è composto da un oggetto da osservare (dataset di addestramento), uno strumento di osservazione (algoritmo di apprendimento) e una rappresentazione finale (modello statistico). L’assemblaggio di questi tre elementi è qui proposto come un diagramma barocco dallo stravagante nome Nooscopio (7). Mantenendo l’analogia coi media ottici, il flusso di informazioni dell’apprendimento automatico è come un fascio di luce proiettato dai dati di addestramento, compresso dall’algoritmo e diffratto verso il mondo dalla lente del modello statistico.

Il diagramma del Nooscopio mira a illustrare contemporaneamente due aspetti dell’apprendimento automatico: come funziona e come sbaglia, elencando i suoi componenti principali così come l’ampio spettro di errori, limiti, approssimazioni, distorsioni, difetti, fallacie e vulnerabilità che sono intrinseci al suo paradigma (8). Questa doppia operazione enfatizza come l’IA non sia un paradigma monolitico di razionalità, ma un’architettura spuria composta da tecniche adattabili e trucchetti. Inoltre, i limiti dell’IA non sono semplicemente tecnici ma sono intrecciati con i bias umani. Nel diagramma del Nooscopio, i componenti essenziali dell’apprendimento automatico sono rappresentati al centro, le distorsioni di origine umana (human bias) sulla sinistra e le distorsioni di origine tecnica  (technical bias) sulla destra. Le lenti ottiche simboleggiano tali distorsioni e approssimazioni rappresentando la compressione e la diffrazione del flusso di informazioni. La distorsione totale dell’apprendimento automatico è rappresentata dalla lente centrale del modello statistico attraverso cui è diffratta la percezione del mondo.

Le limitazioni dell’IA sono note generalmente grazie al dibattito sul bias – l’amplificazione della discriminazione di genere, razza, abilità e classe da parte degli algoritmi (9). Nell’apprendimento automatico, è necessario distinguere tra bias di origine storica, bias presenti nel dataset e bias prodotti nell’algoritmo, che si verificano in diverse fasi del flusso di informazioni. Il bias storico (o pregiudizio già esistente nel mondo) è già evidente nella società prima dell’intervento tecnologico. Tuttavia, la naturalizzazione di tale preconcetto, ovvero l’integrazione silenziosa della disuguaglianza in una tecnologia apparentemente neutra, è di per sé dannosa (10). Parafrasando Michelle Alexander, Ruha Benjamin lo ha definito il “Nuovo Codice Jim”: “l’impiego di nuove tecnologie che riflettono e riproducono disuguaglianze esistenti ma che sono promosse e percepite come più oggettive o progressive rispetto ai sistemi discriminatori di un’era precedente” (11). Il bias del dataset viene introdotto attraverso la preparazione dei dati di addestramento da parte degli operatori umani. La parte più delicata del processo è la classificazione dei dati, in cui tassonomie desuete e reazionarie  possono causare una visione distorta del mondo, rappresentando erroneamente le diversità sociali e esacerbando le gerarchie sociali (vedi sotto il caso di ImageNet).

Il bias algoritmico (noto anche come preconcetto della macchina, distorsione statistica o distorsione del modello, al quale il diagramma del Nooscopio dedica particolare attenzione) è l’ulteriore amplificazione del bias storico e del bias del dataset da parte degli algoritmi di apprendimento automatico. Il problema della distorsione ha origine principalmente dal fatto che gli algoritmi di apprendimento automatico sono molto efficienti nella compressione delle informazioni, il che genera problemi di risoluzione, diffrazione e perdita di informazione (12). Sin dai tempi antichi, gli algoritmi sono procedure di natura economica, progettati per raggiungere un risultato nel minor numero di passaggi possibile, consumando la minima quantità di risorse: spazio, tempo, energia e lavoro (13). La competizione tra le aziende di IA è ancora oggi incentrata sulla ricerca degli algoritmi più semplici e veloci con cui capitalizzare i dati. Se la compressione dell’informazione produce il massimo tasso di profitto per le imprese dell’IA, dal punto di vista sociale produce discriminazione e perdita di diversità culturale.

Mentre le implicazioni sociali dell’IA sono comunemente viste come un problema di bias, la comprensione delle sue limitazioni tecniche è nota come il problema della ‘scatola nera’. (black box). L’effetto scatola nera è un problema reale delle reti neurali profonde (che filtrano le informazioni a tal punto che la loro catena di ragionamento non può essere invertita) ma è diventato un pretesto generico per sostenere che i sistemi IA non siano solo incomprensibili e opachi, ma addirittura “alieni” e fuori controllo (14). L’effetto scatola nera è parte della natura di qualsiasi macchina sperimentale nelle prime fasi di sviluppo (si è già notato che il funzionamento della macchina a vapore rimase un mistero per un certo tempo, anche dopo essere stata testata con successo). Il vero problema è la retorica della scatola nera, che è strettamente legata alla teoria del complotto in cui l’IA è un potere occulto che non può essere studiato, conosciuto o controllato politicamente.

3. Il dataset di allenamento: le origini sociali dell’intelligenza delle macchine

Nell’era di Internet degli anni ’90 e l’espansione dei datacenter negli anni 2000, la digitalizzazione su larga scala ha reso accessibili vaste risorse di dati. Per la prima volta, questi dati erano ampiamente disponibili e non regolamentati. Si è sviluppato un modello di estrazione della conoscenza, noto come Big Data, che utilizzava algoritmi per estrarre “intelligenza” da queste fonti aperte, principalmente per prevedere comportamenti dei consumatori e per la pubblicità. L’economia basata sulla conoscenza ha dato vita a nuove forme di capitalismo, come il “capitalismo cognitivo” e il “capitalismo di sorveglianza”, come osservato da vari studiosi (15). Fattori come il sovraccarico di informazioni su Internet, vasti datacenter, microprocessori più veloci e algoritmi per la compressione dei dati hanno avuto un ruolo chiave nell’ascesa dei monopoli dell’IA nel ventunesimo secolo.

Il dataset di addestramento è fondamentale per analizzare l’Intelligenza Artificiale come uno strumento conoscitivo. La qualità dei dati di addestramento è cruciale per l’efficacia dell’”intelligenza” estratta dagli algoritmi. C’è una prospettiva importante da considerare per vedere l’IA come un Nooscopio. I dati sono la fonte primaria di valore e intelligenza, mentre gli algoritmi calcolano e sviluppano modelli basati su questi dati. Tuttavia, i dati di addestramento non sono mai neutri o privi di bias (sono già di per sé “algoritmici”) (16); la loro selezione, formattazione e modificazione sono cruciali per i risultati finali, spesso più dei parametri tecnici degli algoritmi stessi. La scelta dei dati riflette l’importanza dell’attività umana nel campo delle menti “artificiali”.

I dataset di addestramento sono costruzioni culturali, non solo tecniche. Comprendono input associati a output ideali, come immagini con descrizioni (etichette o metadati) (17). Un esempio classico è un archivio museale, dove le opere sono organizzate per autore, anno, mezzo, ecc. Assegnare un nome o una categoria a un’immagine è un processo semiotico carico di significati umani, mai imparziale, che influenza la cognizione macchinica. La creazione di un dataset di addestramento comporta: 1) produzione: generazione di informazioni da lavoro o fenomeni; 2) cattura: codifica delle informazioni in un formato dati; 3) formattazione: organizzazione dei dati in un dataset; 4) etichettatura: classificazione dei dati in categorie (metadati) per l’apprendimento supervisionato.

L’intelligenza artificiale si addestra su ampi dataset che non sono né tecnicamente neutrali né socialmente imparziali. Non esistono dati “grezzi”, in quanto sono tutti influenzati dal lavoro umano, da caratteristiche personali e dai comportamenti sociali accumulati nel tempo attraverso reti molto vaste e tassonomie controverse (18). I principali dataset per l’apprendimento automatico, come NMIST, ImageNet e Labelled Faces in the Wild, sono nati in aziende, università e istituzioni militari del Nord Globale. Tuttavia, un’analisi più approfondita rivela una divisione del lavoro che coinvolge il Sud Globale, attraverso piattaforme di crowdsourcing impiegate per raffinare e verificare i dati (19). La parabola di ImageNet illustra i problemi comuni a molti dataset di IA: diventato il punto di riferimento per il riconoscimento delle immagini, ha segnato l’inizio della rivoluzione del Deep Learning nel 2012, quando Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton hanno vinto la sfida annuale di ImageNet con la loro rete neurale convoluzionale, AlexNet (20).

ImageNet è stato avviato dalla scienziata informatica Fei-Fei Li nel 2006 (21), grazie a tre intuizioni fondamentali per costruire un dataset efficace per il riconoscimento delle immagini. Prima, l’idea di scaricare milioni di immagini gratuite da servizi web come Flickr e Google. Secondo, l’uso della tassonomia computazionale WordNet per categorizzare le immagini (22). Terzo, l’esternalizzazione della classificazione di milioni di immagini attraverso la piattaforma di crowdsourcing Amazon Mechanical Turk. Alla fine di questo processo, lavoratori anonimi in tutto il mondo venivano pagati pochi centesimi per classificare centinaia di immagini al minuto seguendo la tassonomia WordNet, un lavoro che ha portato a notevoli controversie. La ricercatrice di AI Kate Crawford e l’artista Trevor Paglen hanno messo in luce la presenza di categorie razziste e sessiste in ImageNet, come la discutibile etichettatura di molte immagini di persone sotto la categoria ‘failure, loser, nonstarter, unsuccessful person’ (23).

L’estrattivismo vorace dei dati nell’IA ha generato reazioni inaspettate nella cultura digitale. All’inizio degli anni 2000, Lawrence Lessig non immaginava che le immagini sotto licenza Creative Commons sarebbero diventate, un decennio dopo, una risorsa non regolamentata per le tecnologie di sorveglianza basate sul riconoscimento facciale. Analogamente, i dati personali vengono costantemente integrati in dataset privati per l’apprendimento automatico, senza alcuna trasparenza. Nel 2019, l’artista e ricercatore Adam Harvey ha rivelato l’uso non consensuale di foto personali in dataset di addestramento per il riconoscimento facciale, portando Stanford, Duke University e Microsoft a ritirare i loro dataset in seguito a uno scandalo sulla privacy (24). La problematica dei dataset online solleva questioni di sovranità dei dati e diritti civili, con risposte lente da parte delle istituzioni tradizionali, come evidenziato dal Regolamento Generale sulla Protezione dei Dati dell’UE (25). Se il 2012 ha segnato l’inizio della rivoluzione del Deep Learning, il 2019 ha rivelato la vulnerabilità e la corruzione delle sue fonti dati.

Modelli combinatori e scritture cufiche, Rotolo di Topkapi, circa 1500, Iran.

4. La storia dell’AI come automazione della percezione

Anche nel mondo aziendale, si riconosce l’importanza di demistificare l’intelligenza artificiale, almeno dal punto di vista tecnico. Yann LeCun, a capo dell’AI di Facebook e noto per le sue ricerche sulle reti neurali convoluzionali, sottolinea che i sistemi di AI attuali non sono versioni avanzate della cognizione, ma piuttosto della percezione. Inoltre, il concetto del Nooscopio smaschera la struttura della “scatola nera” dell’IA, mostrando che l’IA non è un automa pensante, ma un algoritmo di riconoscimento di pattern. Questo solleva domande sul concetto di pattern: è solamente visivo? Come si leggono i comportamenti sociali come pattern? E, soprattutto, il riconoscimento di pattern è una definizione completa dell’intelligenza? La risposta è probabilmente no. Per approfondire, si dovrebbe esplorare una breve archeologia dell’IA.

L’archetipo della macchina per il riconoscimento di pattern è il Perceptron, creato da Frank Rosenblatt nel 1957 al Cornell Aeronautical Laboratory di Buffalo, New York. Il nome Perceptron deriva da “Perceiving and Recognizing Automaton” (26). Equipaggiato con una matrice visiva di 20×20 fotorecettori, il Perceptron era in grado di identificare delle semplici lettere. Un pattern visivo veniva impresso su una rete di neuroni artificiali che si attivava in risposta alla ripetizione di immagini simili, attivando un unico neurone di output che segnalava 1 (vero) per un’immagine riconosciuta o 0 (falso) per un’immagine non riconosciuta.

L’automazione della percezione, simile all’assemblaggio visivo di pixel in una catena di montaggio computazionale, affonda le sue radici nelle reti neurali artificiali ideate da Warren McCulloch e Walter Pitts (27). Dopo aver superato l'”inverno dell’AI” e dimostrato la sua efficacia alla fine degli anni 2000, l’algoritmo di riconoscimento di pattern visivi è stato esteso anche a dataset non visivi, segnando l’inizio dell’era del Deep Learning. Adesso, in contesti come le auto a guida autonoma, i pattern da riconoscere sono oggetti in vari scenari di guida, mentre nella traduzione fatta con IA, sono sequenze di parole più comuni nei testi bilingui. Indipendentemente dalla loro complessità, dal punto di vista dell’apprendimento automatico, nozioni come immagine, movimento, forma, stile e decisioni di natura etica possono tutte essere descritte come distribuzioni statistiche di pattern. Il riconoscimento di pattern copre quindi una vasta gamma di applicazioni, trasformandosi in una tecnica culturale. Il Nooscopio, per esempio, è descritto come una macchina che funziona su tre modalità: addestramento, classificazione e previsione, che possono essere intese anche come estrazione, riconoscimento e generazione di pattern.

Il Perceptron di Rosenblatt ha segnato l’inizio dell’apprendimento automatico nel senso moderno. In un’epoca dove il termine “scienza informatica” non era ancora in uso, questo campo era noto come “geometria computazionale” e, da Rosenblatt stesso, come “connessionismo”. Fondamentalmente, il lavoro di queste reti neurali era quello di effettuare inferenze statistiche. Ciò che una rete neurale calcola non è un pattern preciso, ma la sua distribuzione statistica. Oltre il marketing antropomorfico dell’AI, si trova il concetto tecnico e culturale del modello statistico. Cos’è il modello statistico nell’apprendimento automatico? Come viene calcolato? Qual è la relazione tra un modello statistico e la cognizione umana? Sono tutte questioni cruciali. Per una demistificazione efficace, sarebbe utile riformulare la domanda “Può una macchina pensare?” in termini più appropriati come “Può un modello statistico pensare?” o “Può un modello statistico sviluppare una coscienza?”

5. L’algoritmo di apprendimento: comprimere il mondo in un modello statistico

Gli algoritmi di IA sono spesso percepiti come enigmatiche formule alchemiche che distillano forme di intelligenza “aliene”. Tuttavia, cosa fanno effettivamente questi algoritmi? Questa domanda viene posta raramente anche dai sostenitori dell’AGI (Artificial General Intelligence). Un algoritmo è un processo attraverso il quale una macchina esegue calcoli per produrre un modello statistico, meglio definito come “modello statistico algoritmico”. Nella comunità degli sviluppatori, il termine “algoritmo” viene sempre più sostituito da “modello”. Questa confusione nasce dal fatto che il modello statistico non esiste separatamente dall’algoritmo ma è distribuito all’interno dei suoi parametri come memoria. Visualizzare un modello statistico algoritmico è essenzialmente impossibile, ma rappresenta una sfida degna di nota.

Nell’apprendimento automatico, esistono diverse architetture di algoritmi: dal semplice Perceptron alle reti neurali profonde, Support Vector Machines, reti Bayesiane, catene di Markov, autoencoder, macchine di Boltzmann, ecc. Ognuna ha una storia unica, spesso legata a istituzioni militari e aziende del Nord Globale. Le reti neurali, ad esempio, sono passate da strutture semplici a complesse, controllate da pochi iperparametri che influenzano milioni di parametri (28). Le reti neurali convoluzionali sono definite da un insieme limitato di iperparametri, quali il numero di strati, il numero di neuroni per strato, il tipo di connessione e il comportamento dei neuroni. Questi iperparametri delineano una struttura complessa di migliaia di neuroni artificiali con milioni di parametri. L’algoritmo inizia senza conoscenze pregresse e, attraverso il processo di addestramento, regola i suoi parametri per rappresentare efficacemente i dati in ingresso. Nel riconoscimento delle immagini, questo processo culmina in un output binario semplice: 1 indica un’immagine riconosciuta e 0 un’immagine non riconosciuta (29).

Fonte: www.asimovinstitute.org/neural-network-zoo

Per spiegare in modo accessibile il rapporto tra algoritmo e modello, prendiamo come esempio l’algoritmo Inception v3 di Google, una rete neurale convoluzionale profonda per il riconoscimento di immagini, addestrata sul dataset di ImageNet. Inception v3 ha una precisione del 78% nell’identificare immagini, ma la prestazione dell'”intelligenza meccanica” in questo caso può essere misurata anche dalla proporzione tra la dimensione dei dati di addestramento e l’algoritmo addestrato (o modello). ImageNet contiene 14 milioni di immagini, circa 150 gigabyte di dati, mentre Inception v3, che rappresenta idealmente queste informazioni, ha una dimensione di soli 92 megabyte. 

Il rapporto di compressione tra i dati di addestramento e il modello riflette il tasso di diffrazione dell’informazione. Una tabella nella documentazione di Keras confronta valori quali il numero di parametri, la profondità dei layer, la dimensione del file e l’accuratezza per i principali modelli di riconoscimento delle immagini (30). Questo confronto offre un modo diretto ma efficace per dimostrare la relazione tra modello e dati, evidenziando come l'”intelligenza” degli algoritmi sia quantificata e apprezzata nella comunità degli sviluppatori.

I modelli statistici hanno influenzato profondamente la cultura e la politica, non sono una novità dell’apprendimento automatico. L’apprendimento automatico è semplicemente un modo moderno di automatizzare la modellazione statistica. Quando Greta Thunberg ci avverte di “ascoltare la scienza”, ciò che intende veramente è, da brava studentessa di matematica, “ascoltate i modelli statistici della scienza climatica”. Senza questi modelli, non esisterebbe la scienza del clima, e senza scienza del clima non ci sarebbe attivismo climatico. La scienza del clima è effettivamente un buon esempio per iniziare a comprendere i modelli statistici. Il riscaldamento globale viene calcolato raccogliendo un ampio set di dati sulle temperature terrestri e applicando un modello matematico per analizzare le variazioni passate e prevedere quelle future (31). I modelli climatici, essendo storici e oggetto di dibattito scientifico e pubblico, differiscono dai modelli di apprendimento automatico, che tendono a essere opachi e meno accessibili al dibattito comunitario (32). In questo contesto, l’IA inaugura l’era della fantascienza statistica, con il Nooscopio che funge da proiettore di questo grande cinema statistico.

6. “Tutti i modelli sono sbagliati, ma alcuni sono utili”

La frase di George Box “Tutti i modelli sono sbagliati, ma alcuni sono utili” riassume molto bene le limitazioni della statistica e dell’apprendimento automatico (33). Tuttavia, questa affermazione è spesso usata per giustificare i bias nell’IA aziendale e statale. Si sostiene che, se la cognizione umana è basata sull’astrazione e approssimazione, allora anche le approssimazioni delle macchine dovrebbero essere accettabili. Viene ripetuto spesso retoricamente che “la mappa non è il territorio”. Suona ragionevole, ma va anche detto che l’IA rappresenta una mappa compressa e distorta della realtà, non negoziabile collettivamente, essendo una mappa priva di accesso o consenso comunitario (34).

Come fa l’apprendimento automatico a tracciare una mappa statistica del mondo? Guardiamo al caso del riconoscimento delle immagini (la forma base della percezione, codificata e automatizzata come riconoscimento di pattern) (35). Data un’immagine da classificare, l’algoritmo rileva i bordi di un oggetto come la distribuzione statistica di pixel scuri circondati da quelli chiari (un tipico pattern visivo). L’algoritmo non sa cosa sia un’immagine, non percepisce un’immagine come fa l’uomo, ma calcola solo pixel, valori numerici di luminosità e prossimità. L’algoritmo è programmato per registrare solo il bordo scuro di un profilo (cioè per adattarsi a quel pattern) e non tutti i pixel dell’immagine (ciò porterebbe a un sovradimensionamento e alla ripetizione dell’intero campo visivo). Un modello statistico è considerato efficacemente addestrato quando estrae i pattern più rilevanti dai dati di allenamento e li applica correttamente a nuovi dati nel mondo reale. Se un modello impara troppo bene i dati di allenamento, si adatta eccessivamente, riconoscendo solo corrispondenze esatte e ignorando somiglianze approssimative. In questo caso, il modello sta sovra-adattandosi, perché ha appreso minuziosamente tutto (incluso il rumore) e non è in grado di distinguere un pattern dal suo sfondo. Al contrario, si ha un sotto-adattamento quando il modello non riesce a identificare pattern significativi. Questi concetti – sovra-adattamento, adattamento corretto e sotto-adattamento (overfitting, fitting, underfitting)– possono essere rappresentati su un piano cartesiano.

La sfida principale nell’apprendimento automatico è bilanciare il rischio di sotto-adattamento e sovra-adattamento dei dati, un compito complicato dai bias intrinseci delle macchine. Il termine “apprendimento automatico”, così come “IA” antropomorfizza questa tecnologia: questa non apprende come un essere umano, ma mappa distribuzioni statistiche e disegna funzioni matematiche per approssimare la comprensione umana. Tuttavia, proprio per queste caratteristiche, l’apprendimento automatico può offrire nuove prospettive sulla comprensione umana.

Il modello statistico negli algoritmi di apprendimento automatico è un’approssimazione; indovina parti mancanti nei dati tramite interpolazione (prevede un output y all’interno dell’intervallo conosciuto dell’input x nel dataset di allenamento) sia tramite estrapolazione (prevede l’output y al di là dei limiti di x, con maggior rischio di inesattezza). L’”intelligenza” quando si parla di IA si riferisce a questa capacità di estrapolare funzioni non lineari oltre i dati noti. Come dice Dan McQuillian, “Nell’intelligenza artificiale non c’è né intelligenza né apprendimento, anche si definisce come apprendimento automatico. È semplicemente una tecnica di ottimizzazione matematica”. (36)

È fondamentale riconoscere che l'”intelligenza” nell’apprendimento automatico non si basa su formule matematiche esatte, ma su algoritmi di approssimazione “a forza bruta”. La relazione tra input e output è determinata algoritmicamente, attraverso metodi di approssimazione graduale, come il metodo del gradiente discendente. Questi processi sono analoghi al calcolo differenziale sviluppato da Leibniz e Newton. Le reti neurali sono considerate tra gli algoritmi più efficienti perché, con sufficienti strati neuronali e risorse computazionali, possono approssimare qualsiasi funzione (37). Questa brutale approssimazione graduale è una caratteristica chiave dell’IA odierna. Tuttavia, è fondamentale considerarne le potenzialità e i limiti, compreso l’alto impatto ecologico. L’addestramento di reti neurali profonde richiede enormi quantità di energia a causa del metodo del gradiente discendente e di altri algoritmi che necessitano di continui aggiustamenti infinitesimali (38).

7. World to vector

Le nozioni come adattamento, sovra-adattamento, sotto-adattamento, interpolazione ed estrapolazione sono più facili da visualizzare in due dimensioni, ma i modelli statistici operano in realtà in spazi multidimensionali. La codifica dei dati in uno spazio vettoriale multidimensionale, essenziale per l’analisi, è un concetto complesso. Uno spazio vettoriale è un ambiente matematico dove i dati possono essere rappresentati come vettori, ciascuno con molteplici dimensioni che rappresentano diverse caratteristiche o attributi dei dati. Dominique Cardon, Jean-Philippe Cointet e Antoine Mazière offrono una descrizione dettagliata della vettorializzazione dei dati.

Le reti neurali richiedono che gli input siano convertiti in vettori. Pertanto, il mondo deve essere codificato in anticipo sotto forma di una rappresentazione vettoriale puramente digitale. Mentre le immagini si prestano naturalmente a questa rappresentazione, altri oggetti come i testi devono essere ‘incorporati’ in uno spazio vettoriale prima che sia possibile calcolarli o classificarli con reti neurali. La tecnica Word2vec, ad esempio, converte le parole in vettori posizionati in uno spazio multidimensionale basandosi sulla loro relazione con altre parole nel corpus. Questa rappresentazione vettoriale permette di eseguire numerose operazioni, sfruttando la posizione relativa delle parole in questo spazio multidimensionale con diverse centinaia di dimensioni. Il vantaggio di una tale rappresentazione risiede nelle numerose operazioni offerte da una simile trasformazione. Due termini la cui posizione inferita è vicina sono semanticamente simili; queste rappresentazioni sono dette distribuite: il vettore del concetto ‘appartamento’ [-0.2, 0.3, -4.2, 5.1…] sarà simile a quello di ‘casa’ [-0.2, 0.3, -4.0, 5.1…]. […] Mentre l’elaborazione del linguaggio naturale è stata pionieristica nell'”incorporare” le parole in uno spazio vettoriale, oggi stiamo assistendo a una generalizzazione del processo di incorporazione che si sta progressivamente estendendo a tutti i campi applicativi: le reti stanno diventando semplici punti in uno spazio vettoriale con graph2vec, i testi con paragraph2vec, i film con movie2vec, i significati delle parole con sens2vec, le strutture molecolari con mol2vec, ecc. Secondo Yann LeCun, l’obiettivo dei progettisti di macchine connessioniste è mettere il mondo in un vettore (world2vec). (39)

Lo spazio vettoriale multidimensionale rende complessa la comprensione dell’apprendimento automatico, ma rappresenta una tecnica culturale molto significativa. Le Digital Humanities hanno esplorato la vettorializzazione, mostrando come la nostra conoscenza collettiva venga trasformata e processata. La definizione originale di cyberspace di William Gibson profetizzava molto probabilmente l’avvento di uno spazio vettoriale, piuttosto che della realtà virtuale: “Una rappresentazione grafica di dati astratti dalle banche di ogni computer nel sistema umano. Complessità impensabile. Linee di luce allineate  nel non-spazio della mente, configurazioni  e costellazioni di dati. Come le luci di una città, che si allontanano”. (40)


Destra: Spazio vettoriale di sette parole in tre contesti (41)

È importante notare però che l’apprendimento automatico assomiglia più a una tecnica artigianale e sperimentale che alla matematica o a una scienza esatta. L’IA è spesso caratterizzata da trucchi e stratagemmi piuttosto che da intuizioni mistiche. Un esempio è la riduzione della dimensionalità, utilizzata per evitare la cosiddetta Maledizione della Dimensionalità, che si verifica quando le dimensioni dello spazio vettoriale aumentano esponenzialmente. Le dimensioni delle categorie che mostrano bassa varianza nello spazio vettoriale (cioè i cui valori fluttuano solo leggermente) vengono aggregate per ridurre i costi di calcolo. La riduzione della dimensionalità può essere utilizzata per raggruppare significati di parole (come nel modello word2vec) ma può anche portare a una riduzione delle categorie, che può avere un impatto sulla rappresentazione della diversità sociale. La riduzione della dimensionalità può ridurre le tassonomie e introdurre bias, normalizzando ulteriormente la diversità del mondo e cancellando identità uniche (42).

8. La società della di classificazione automatica e dei bot di previsione

Le applicazioni odierne di apprendimento automatico si concentrano principalmente sulla classificazione e previsione, delineando una nuova società di controllo e governance statistica. La classificazione, o riconoscimento di pattern, identifica e organizza dati in categorie predefinite. La previsione, invece, si occupa di generare pattern, creando nuove previsioni o proiezioni basate sui dati esistenti. Entrambe queste modalità sfruttano il nucleo del modello statistico per riconoscere o generare nuovi pattern.

Nell’apprendimento automatico, la classificazione viene usata per identificare elementi come segni, oggetti o volti umani e assegnare una categoria corrispondente (label) basata su una tassonomia o convenzione culturale. Un file di input, come un’immagine da una telecamera di sorveglianza, viene elaborato dal modello per stabilire se appartiene alla sua distribuzione statistica. Se corrisponde, viene assegnata una categoria. Questo processo di classificazione, essenziale fin dai primi giorni del Perceptron, è ampiamente utilizzato in applicazioni come i riconoscitori facciali impiegati da forze dell’ordine e produttori di smartphone.

Nell’apprendimento automatico, la previsione viene utilizzata per proiettare tendenze e comportamenti futuri a partire da quelli passati. Serve per completare informazioni mancanti basandosi su un campione di dati esistenti. Ad esempio, un piccolo campione di dati può aiutare a prevedere una parte mancante di un’immagine, un file audio o un grafico orientato verso il futuro. Altre modalità includono l’esplorazione dello spazio latente, dove la distribuzione statistica di un modello viene visualizzata dinamicamente, e l’esplorazione di pattern in alcune applicazioni di design (43).

Classificazione e previsione nell’apprendimento automatico stanno diventando strumenti centrali nella sorveglianza e governance moderna. Ad esempio, i veicoli autoguidati combinano entrambe le modalità: riconoscendo oggetti stradali (persone, auto, ostacoli, segnali) e prevedendo azioni basate su precedenti decisioni umane. Anche se riconoscere un ostacolo su una strada sembra essere un gesto neutro (non lo è), identificare un essere umano secondo categorie di genere, razza e classe (e nella recente pandemia di COVID-19 come malato o immune), come stanno facendo sempre più le istituzioni statali, fa parte di un nuovo regime disciplinare. L’hybris della classificazione automatica ha causato il revival di tecniche lombrosiane reazionarie che si pensava fossero state consegnate alla storia; tecniche come il Riconoscimento Automatico del Genere (AGR), “un sottocampo del riconoscimento facciale che mira a identificare algoritmicamente il genere degli individui da fotografie o video”. (44)

Recentemente, la modalità generativa nell’apprendimento automatico ha avuto un impatto notevole nel campo artistico, con i media che celebrano la sua capacità di creare arte “autonomamente”. Tuttavia, dietro ogni opera d’arte “creata dall’IA” c’è sempre un intervento umano: un operatore applica la modalità generativa di una rete neurale addestrata su un dataset specifico. In questa modalità, la rete neurale viene eseguita al contrario (muovendosi dallo strato di output più piccolo verso lo strato di input più grande) per generare nuovi pattern dopo essere stata addestrata a classificarli; un processo che di solito si muove dallo strato di input più grande a quello di output più piccolo. La modalità generativa in apprendimento automatico ha applicazioni pratiche significative. Ad esempio, può servire come controllo per comprendere cosa ha appreso un modello, mostrando come “vede il mondo”. Questo approccio può essere particolarmente utile in applicazioni come i veicoli autoguidati, permettendo di verificare come il modello interpreta e proietta scenari stradali.

Google DeepDream è un esempio famoso di come una rete neurale può “vedere il mondo”. Basato su una rete neurale convoluzionale Inception (che è addestrata sul dataset ImageNet menzionato sopra) e programmato da Alexander Mordvintsev, DeepDream genera immagini che rivelano pattern allucinatori. Mordvintsev ha capovolto il processo della rete, trasformando un classificatore in un generatore, utilizzando del rumore casuale o immagini di paesaggi generici come input. Ha scoperto così che “le reti neurali addestrate a discriminare tra diversi tipi di immagini hanno anche molte delle informazioni necessarie per generarle” (45). Durante i primi esperimenti, sono emersi pattern ricorrenti come piume di uccelli e occhi di cane, riflettendo la sovrarappresentazione di queste categorie in ImageNet. Curiosamente, la categoria “manubrio” veniva spesso visualizzata con un braccio umano attaccato, evidenziando una rappresentazione imprecisa di alcune categorie nel dataset.

Le Reti Generative Avversarie (GAN) combinano le modalità di classificazione e generazione. Una GAN è costituita da due reti neurali: un generatore, che crea immagini, e un discriminatore, che le classifica come vere o false. Queste due reti sono addestrate contemporaneamente in un ciclo di rinforzo, dove il generatore cerca di ingannare il discriminatore producendo immagini sempre più realistiche. Questa efficacia nel generare immagini realistiche ha portato al loro abuso nella creazione di “deep fake” (46).

L’uso delle GAN per generare dati sintetici nella ricerca sul cancro ha sollevato questioni sulla verità e l’accuratezza. In alcuni casi, le reti neurali addestrate su dataset sbilanciati hanno prodotto risultati errati, “allucinando” il cancro dove non esisteva (47). In questo caso, “invece di scoprire cose, stiamo inventando cose”, osserva Fabian Offert, “lo spazio della scoperta è identico allo spazio della conoscenza che la GAN ha già avuto. […] Mentre pensiamo di vedere attraverso la GAN – guardare qualcosa con l’aiuto di una GAN – in realtà stiamo guardando dentro una GAN. La visione GAN non è realtà aumentata, è realtà virtuale. Le GAN confondono scoperta e invenzione” (48). La simulazione GAN del cancro al cervello è un tragico esempio di allucinazione scientifica guidata dall’IA.

Joseph Paul Cohen, Margaux Luck e Sina Honari. “Distribution Matching Losses Can Hallucinate Features in Medical Image Translation”, 2018. Per gentile concessione degli autori

9. I difetti di uno strumento statistico: la mancata rilevazione del nuovo

Il potere normativo dell’IA nel ventunesimo secolo deve essere esaminato in questi termini epistemici: cosa significa inquadrare la conoscenza collettiva come pattern e cosa significa disegnare spazi vettoriali e distribuzioni statistiche dei comportamenti sociali? Secondo Michel Foucault, il potere statistico era già usato nella Francia della prima modernità per misurare le norme sociali, discriminando tra comportamenti normali e anormali (49). L’IA estende facilmente il “potere di normalizzazione” delle istituzioni moderne, come, tra le altre, la burocrazia, la medicina e la statistica (originariamente, la conoscenza numerica posseduta dallo stato sulla sua popolazione) che ora passano nelle mani delle corporazioni dell’IA. La norma istituzionale è diventata una norma computazionale: la classificazione del soggetto, dei corpi e dei comportamenti, non sembra più essere un affare per i registri pubblici, ma invece per algoritmi e datacenter (50). “La razionalità centrata sui dati”, ha concluso Paula Duarte, “dovrebbe essere intesa come un’espressione della colonialità del potere” (51).

Tuttavia persiste sempre un divario, un attrito, un conflitto tra i modelli statistici dell’IA e il soggetto umano che si suppone debba essere misurato e controllato. Il divario tra i modelli statistici dell’IA e la realtà umana è spesso discusso in termini di bias. È stato ampiamente dimostrato come il riconoscimento facciale rappresenti male le minoranze sociali e come, ad esempio, i quartieri neri vengano ignorati dalla logistica e dai servizi di consegna guidati dall’IA. Se le discriminazioni di genere, razza e classe sono amplificate dagli algoritmi dell’IA, questo fa anche parte di un problema più ampio di discriminazione e normalizzazione al nucleo logico dell’apprendimento automatico (52). Il limite logico e politico dell’IA è la difficoltà della tecnologia nel riconoscere e prevedere un nuovo evento. L’apprendimento automatico come affronta un’anomalia unica, un comportamento sociale insolito o un atto innovativo?

La limitazione principale dell’apprendimento automatico nella classificazione, o riconoscimento di pattern, non riguarda solo il bias, ma anche l’incapacità di riconoscere anomalie o eventi mai visti. Questo significa difficoltà nel rilevare elementi nuovi o non convenzionali, come una metafora inedita in poesia, una battuta originale in una conversazione, o un ostacolo insolito su una strada  (un pedone? una busta di plastica?). La mancata rilevazione del nuovo (qualcosa che non è mai stato “visto” da un modello e quindi mai classificato prima in una categoria conosciuta) è un problema particolarmente pericoloso per le auto autoguidate e che ha già causato vittime. La previsione dell’apprendimento automatico, o generazione di pattern, mostra difetti simili nell’indovinare tendenze e comportamenti futuri. L’apprendimento automatico, funzionando come una tecnica di compressione delle informazioni, tende ad automatizzare l’influenza del passato, delle tassonomie precedenti e dei pattern comportamentali esistenti, influenzando così il presente. Questo approccio, che potrebbe essere definito come la rigenerazione del vecchio, si basa sull’applicazione di una visione spazio-temporale uniforme, limitando la capacità del sistema di riconoscere e rispondere a nuovi eventi storici o sviluppi

È affascinante osservare come, nell’apprendimento automatico, la definizione logica di un problema di sicurezza rifletta anche il limite logico della sua capacità creativa. I problemi intrinseci alla previsione di novità sono logicamente connessi a quelli legati alla creazione di novità. Questo perché il modo in cui un algoritmo di apprendimento automatico prevede un andamento su un grafico temporale è lo stesso modo in cui crea una nuova opera d’arte basandosi sui modelli appresi.

La domanda ‘L’intelligenza artificiale può essere creativa?’ dovrebbe essere posta in termini tecnici: l’apprendimento automatico è capace di creare opere che non sono mere imitazioni del passato? Può andare oltre i confini stilistici dei dati su cui è stato allenato? La “creatività” dell’apprendimento automatico è limitata all’identificazione di stili dai dati di allenamento e alla successiva improvvisazione casuale all’interno di questi stili. In altre parole, l’apprendimento automatico può esplorare e improvvisare solo entro i limiti logici imposti dai suoi dati di allenamento. Per tutte queste ragioni, e per il suo modo di comprimere le informazioni, sarebbe più preciso definire l’arte generata dall’apprendimento automatico come un’arte statistica.

Lewis Fry Richardson, “Weather Prediction by Numerical Process”, Cambridge University Press, 1922.

Un altro problema non evidenziato dell’apprendimento automatico è la tendenza a confondere la correlazione statistica tra due fenomeni con la causalità. In statistica, è ben noto che la correlazione non implica causalità, ovvero una semplice coincidenza statistica non è sufficiente a stabilire un legame causale. Un esempio tragico è il lavoro dello statistico Frederick Hoffman, che nel 1896 pubblicò uno studio di 330 pagine per le compagnie assicurative, dimostrando erroneamente una correlazione razziale tra essere afroamericani e avere una bassa aspettativa di vita (53). L’apprendimento automatico, estrapolando dati in modo superficiale, può creare correlazioni arbitrarie percepite come reali. Nel 2008, Chris Anderson, direttore di Wired, ha abbracciato con entusiasmo questa fallacia logica, proclamando la “fine della teoria” a causa dell’enorme quantità di dati che, secondo lui, rendono il metodo scientifico obsoleto (54). Anderson, pur non essendo esperto di metodo scientifico o inferenze logiche, sosteneva che se la correlazione statistica era sufficiente per le operazioni di business di Google, poteva anche identificare automaticamente nuovi paradigmi scientifici. Anche Judea Pearl, esperto nelle reti Bayesiane, ha criticato l’apprendimento automatico per concentrarsi troppo sul “fitting delle curve”, registrando correlazioni senza fornire spiegazioni (55).

Questa fallacia logica è diventata una pratica politica con l’adozione degli algoritmi di polizia predittiva da parte delle forze dell’ordine in tutto il mondo (56). Dan McQuillan afferma che, quando l’apprendimento automatico viene applicato alla società, si trasforma in un meccanismo biopolitico di prevenzione che produce soggetti potenzialmente criminalizzabili (57). In conclusione, l’apprendimento automatico, focalizzato sul “fitting delle curve”, impone una cultura statistica, sostituendo l’episteme tradizionale di causalità (e responsabilità politica) con una basata su correlazioni e decisioni automatizzate.

10. Adversarial intelligence vs artificial intelligence

Le deviazioni statistiche e le allucinazioni generate dall’apprendimento automatico sono state esaminate dettagliatamente attraverso le molteplici lenti del Nooscopio. Ora è necessario invertire la direzione di questo strumento: le teorie scientifiche e i dispositivi computazionali tendono a consolidare una visione astratta, la “visione scientifica da nessun luogo”, che spesso rappresenta solo il punto di vista del potere. L’ossessione per l’intelligenza artificiale può portarci in un abisso computazionale e nell’illusione che la tecnica possa chiarire la struttura sociale. Come osserva Paola Ricaurte, “L’estrazione dei dati presume che tutto sia una fonte di dati” (58). Come possiamo emanciparci da una visione del mondo centrata sui dati? È ora di prendere coscienza del fatto che non è il modello statistico a costruire il soggetto, ma piuttosto il soggetto a strutturare il modello statistico. Gli studi internalisti ed esternalisti dell’IA devono essere sfocati: le soggettività creano la matematica del controllo dall’interno, non dall’esterno. Per ricalcare ciò che Felix Guattari disse una volta delle macchine in generale, anche l’intelligenza delle macchine è costituita da “forme iper-sviluppate e iper-concentrate di certi aspetti della soggettività umana” (59).

Invece di limitarsi a studiare il funzionamento della tecnologia, l’analisi critica esplora anche i suoi fallimenti, le resistenze al suo controllo normativo e i sabotaggi operati dai lavoratori nei suoi confronti. In questo contesto, lo studio dell’hacking emerge come un metodo fondamentale per produrre conoscenza e una sonda epistemologica essenziale nell’indagare gli aspetti oscuri dell’IA (60). Ad esempio, i sistemi di apprendimento profondo per il riconoscimento facciale hanno stimolato forme di attivismo contro la sorveglianza. Attraverso tecniche di offuscamento del viso, degli umani hanno scelto di diventare inintelligibili all’intelligenza artificiale, trasformandosi in ‘black box’ umane. Le tecniche tradizionali contro la sorveglianza assumono una nuova dimensione matematica nell’era dell’apprendimento automatico. Ad esempio, l’artista e ricercatore in intelligenza artificiale Adam Harvey ha creato un tessuto mimetico chiamato HyperFace, che inganna gli algoritmi di visione computerizzata facendo loro rilevare falsi volti umani (61).

Il lavoro di Harvey pone una domanda fondamentale: cosa definisce un volto per un occhio umano e cosa per un algoritmo di visione computerizzata? I “glitch” neurali di HyperFace sfruttano questa discrepanza cognitiva, rivelando come un volto umano è percepito da una macchina.

Questa differenza tra percezione umana e macchina ci introduce al campo emergente dei cosiddetti adversarial attacks. Questi attacchi sfruttano i punti deboli di un modello statistico di una rete neurale, tipicamente per ingannare un classificatore e far percepire qualcosa di inesistente. Per esempio, nell’identificazione di oggetti, un esempio avversario (adversarial example) potrebbe essere un’immagine alterata di una tartaruga che appare normale all’occhio umano, ma viene erroneamente classificata da una rete neurale come un fucile (62). Gli esempi avversari possono essere creati come oggetti 3D o perfino adesivi per segnali stradali, che possono trarre in inganno le auto a guida autonoma (per esempio, facendo leggere un limite di velocità di 120 km/h dove in realtà è 50 km/h) (63). Gli esempi avversari sono progettati sfruttando ciò che una macchina non ha mai visto. Questo si può ottenere invertendo il modello statistico o contaminando il dataset di allenamento. La tecnica del ‘data poisoning’ (avvelenamento dei dati) mira al dataset di allenamento, introducendo dati manipolati per alterare l’accuratezza del modello e creare una backdoor per un potenziale attacco avversario (64).

Adam Harvey, HyperFace pattern, 2016.

Gli attacchi avversari evidenziano una vulnerabilità matematica comune a tutti i modelli di apprendimento automatico. “Un aspetto affascinante degli esempi avversari è che quelli generati per un modello vengono spesso erroneamente classificati anche da altri modelli, anche se hanno architetture diverse o sono stati addestrati su set di dati distinti” (65). Gli attacchi avversari mettono in luce la differenza tra percezione umana e macchina, sottolineando che il limite logico dell’apprendimento automatico è anche un limite politico. Il confine logico e ontologico dell’apprendimento automatico è rappresentato dal soggetto indisciplinato o dall’evento anomalo che sfugge alla classificazione e al controllo. Il soggetto sotto controllo algoritmico contrattacca. Gli attacchi avversari rappresentano un metodo di sabotaggio del processo di apprendimento automatico, creando ostacoli virtuali capaci di disattivare i sistemi di controllo. Un esempio avversario agisce come un sabot nell’era dell’intelligenza artificiale.

11. Il lavoro nell’era dell’IA

È essenziale chiarire la natura degli “input” e degli “output” nell’apprendimento automatico. I problemi dell’IA non riguardano solo il bias informativo, ma anche il lavoro. L’IA non è solo un strumento di controllo, ma anche di produzione. Come già accennato, una forza lavoro invisibile partecipa ad  ogni fase della catena di produzione dell’IA (composizione del dataset, supervisione dell’algoritmo, valutazione del modello, ecc.). Una divisione del lavoro estesissima  si estende dal Nord Globale verso il Sud Globale; piattaforme di crowdsourcing con lavoratori dal Venezuela, Brasile e Italia diventano  cruciali per insegnare a veicoli autoguidati tedeschi in che modo  “vedere” la strada (66).

Contro l’idea di un’intelligenza artificiale aliena, è importante sottolineare come   l’operatore  umano rimanga  sempre parte integrante del processo computazionale dell’IA. Questo lavoratore  ha mai lasciato il ciclo di produzione dell’IA. Mary Gray e Siddharth Suri hanno coniato il termine “lavoro fantasma” per descrivere il lavoro invisibile che rende l’IA solo apparentemente autonoma:

“Oltre alcune decisioni basilari, l’intelligenza artificiale non può operare senza l’intervento umano nel ciclo di funzionamento. Sia che si tratti di fornire un feed di notizie rilevante o di gestire un complesso ordine di pizza tramite messaggi online, quando l’IA commette errori o non riesce a completare un compito, migliaia di aziende si affidano a delle persone per completare silenziosamente il lavoro. Questa nuova catena di montaggio digitale integra l’input collettivo di lavoratori distribuiti, gestisce frammenti di progetti anziché prodotti finiti e opera in vari settori economici, giorno e notte” (67).

L’automazione è un mito; poiché le macchine, inclusa l’IA, richiedono continuamente interventi umani, alcuni autori hanno suggerito di sostituire il termine “automazione” con “eteromazione” (68). L’idea di eteromazione indica  che il mito  dell’IA come moto perpetuo  è reso possibile  solo grazie a un vasto esercito di lavoratori di riserva.

Esiste un modo ancora più profondo in cui il lavoro umano costituisce  la trama dell’IA. La fonte di informazione per l’apprendimento automatico (siano essi dati di input, di allenamento o semplicemente dati) è sempre una rappresentazione di competenze, attività, e comportamenti umani e della produzione sociale in generale. Qualsiasi  dataset di allenamento rappresenta implicitamente un diagramma della divisione del lavoro umano che l’IA deve analizzare e automatizzare. Ad esempio, i dataset per il riconoscimento di immagini registrano il lavoro visivo che  conducenti, guardiani e supervisori svolgono nella loro mansione.

Anche i dataset scientifici derivano da un tipo di lavoro, per la precisione dal lavoro scientifico, dalla pianificazione degli esperimenti, dall’organizzazione dei laboratori e dall’osservazione analitica. Il flusso di informazioni nell’IA dovrebbe essere visto come un dispositivo progettato per estrarre “intelligenza analitica” da varie forme di lavoro e trasferirla ad una macchina. Questo include un’ampia definizione di “lavoro” che abbraccia la produzione sociale, culturale e scientifica (69). In sostanza, l’origine dell’intelligenza delle macchine risiede nella divisione del lavoro e il suo scopo principale è l’automazione del lavoro.

Gli storici dell’informatica hanno evidenziato come i primi sviluppi dell’intelligenza delle macchine risalgano al progetto ottocentesco di meccanizzazione della divisione del lavoro mentale, in particolare il calcolo manuale (70). Da allora, il campo del calcolo è diventato una fusione di sorveglianza e disciplina del lavoro, calcolo ottimale del plusvalore e pianificazione dei comportamenti collettivi (71). Il calcolo ha instaurato e continua a mantenere un regime di visibilità e comprensibilità, andando oltre il mero ragionamento logico. La genealogia dell’IA, come strumento di potere, è confermata oggi dal suo uso diffuso in tecnologie di identificazione e previsione, tuttavia  l’anomalia centrale che rimane al centro dei suoi interessi è la disorganizzazione del lavoro.

Come tecnologia di automazione, l’IA avrà un impatto significativo sul mercato del lavoro. Ad esempio, se il deep learning ha un tasso di errore dell’1% nel riconoscimento delle immagini, ciò potrebbe significare che circa il 99% del lavoro di routine basato su compiti visivi (come la sicurezza negli aeroporti) potrebbe essere sostituito, a parte le restrizioni legali e l’opposizione sindacale. L’impatto dell’IA sul lavoro è dettagliatamente descritto in un documento dell’Istituto Sindacale Europeo, che mette in evidenza “sette dimensioni essenziali” che la futura regolamentazione dovrebbe considerare per proteggere i lavoratori: 1) salvaguardare la privacy dei lavoratori e la protezione dei dati; 2) affrontare la sorveglianza, il tracciamento e il monitoraggio; 3) rendere trasparente lo scopo degli algoritmi dell’IA; 4) garantire l’esercizio del “diritto di spiegazione” riguardo alle decisioni prese da algoritmi o modelli di apprendimento automatico; 5) preservare la sicurezza dei lavoratori nelle interazioni uomo-macchina; 6) potenziare l’autonomia dei lavoratori nelle interazioni uomo-macchina; 7) abilitare i lavoratori a diventare alfabetizzati nell’IA (72).

In conclusione, il Nooscopio si propone di riaprire la “Questione delle Macchine” (Machinery Question) nell’era dell’IA, un dibattito nato in Inghilterra durante la Rivoluzione Industriale riguardo l’uso delle macchine e la conseguente disoccupazione. All’epoca, la risposta fu un movimento sociale per l’educazione sulle macchine, noto come Movimento degli Istituti di Meccanica (Mechanics’ Institute Movement) (73). Oggi sarebbe necessaria una Intelligent Machinery Question per sviluppare una maggiore intelligenza collettiva sulla cosiddetta “intelligenza delle macchine”; più educazione pubblica anziché “macchine che apprendono” e il loro regime di estrattivismo della conoscenza (che rinforza vecchie rotte coloniali, guardando anche solo la mappa delle piattaforme di crowdsourcing contemporanee). Anche nel Nord Globale, è essenziale evidenziare la relazione coloniale tra l’IA aziendale e la produzione della conoscenza come bene comune. L’obiettivo del Nooscopio è quello di svelare le dinamiche nascoste dietro al “Turco Meccanico” aziendale e mostrare il lavoro invisibile della conoscenza collettiva, che fa apparire  l’intelligenza delle macchine un essere (per l’ideologia e solo per questa ) vivente.


Note
1
Sull’autonomia della tecnologia vedi: Langdon Winner, Autonomous Technology: Technics-Out-of-Control as a Theme in Political Thought (Cambridge, MA: MIT Press, 2001).
2
Per l’estensione del potere coloniale nelle operazioni di logistica, algoritmi e finanza vedi: Sandro Mezzadra e Brett Neilson, The Politics of Operations: Excavating Contemporary Capitalism (Durham: Duke University Press, 2019). Sul colonialismo epistemico dell’IA vedi: Matteo Pasquinelli, “Three Thousand Years of Algorithmic Rituals: The Emergence of AI from the Computation of Space,” e-flux 101 (2019), link.
3
Le digital humanities chiamano una tecnica simile “lettura distante”, che ha coinvolto gradualmente l’analisi dei dati e l’apprendimento automatico nella storia letteraria e artistica. Vedi: Franco Moretti, Distant Reading (Londra: Verso, 2013).
4
Gottfried W. Leibniz, “Prefazione alla Scienza Generale,” in Phillip Wiener (a cura di) Leibniz Selections (New York: Scribner, 1951), 23.
5
Per una storia concisa dell’IA vedi: Dominique Cardon, Jean-Philippe Cointet e Antoine Mazières, “Neurons Spike Back: The Invention of Inductive Machines and the Artificial Intelligence Controversy,” Réseaux 211 (2018).
6
Alexander Campolo e Kate Crawford, “Enchanted Determinism: Power without Control in Artificial Intelligence,” Engaging Science, Technology, and Society 6 (2020).
7
L’uso dell’analogia visiva intende anche registrare la sfumatura distinzione tra immagine e logica, rappresentazione e inferenza, nella composizione tecnica dell’IA. I modelli statistici di apprendimento automatico sono rappresentazioni operative (nel senso delle immagini operative di Harun Farocki).
8
Per uno studio sistematico delle limitazioni logiche dell’apprendimento automatico vedi: Momin Mailk, “A Hierarchy of Limitations in Machine Learning,” ArXiv preprint (2020), link.
9
Per un elenco più dettagliato dei pregiudizi dell’IA vedi: John Guttag e Harini Suresh, “A Framework for Understanding Unintended Consequences of Machine Learning,” Arxiv preprint (2019), link. Vedi anche: Aram Galstyan, et al., “A Survey on Bias and Fairness in Machine Learning,” ArXiv preprint (2019), link.
10
Virginia Eubanks, Automating Inequality: How High-Tech Tools Profile, Police, and Punish to Poor (New York: St. Martin’s Press, 2018). Vedi anche: Kate Crawford, “The Trouble with Bias” (conferenza, Neural Information Processing Systems, 2017).
11
Ruha Benjamin, Race After Technology: Abolitionist Tools for the New Jim Code (Cambridge, UK: Polity, 2019), 5.
12
Gli informatici sostengono che l’IA appartiene a un sottocampo dell’elaborazione del segnale che è la compressione dei dati.
13
Matteo Pasquinelli, The Eye of the Master: A Social History of Art (Londra: Verso, in arrivo).
14
Progetti come Explainable Artificial Intelligence, Interpretable Deep Learning e Heatmapping, tra gli altri, hanno dimostrato che penetrare nella “scatola nera” dell’apprendimento automatico è possibile. Tuttavia, la piena interpretabilità ed esplicabilità dei modelli statistici di machine learning rimane un mito. Vedi: Zacharay Lipton, “The Mythos of Model Interpretability,” ArXiv preprint (2016), link.
15
Bernard Paulré, et al., “Le Capitalisme cognitif comme sortie de la crise du capitalisme industriel: Un programme de recherche” (atti di conferenza, Forum de la Régulation, Parigi, 2001), link. Vedi anche: Shoshana Zuboff, The Age of Surveillance Capitalism: The Fight for a Human Future at the New Frontier of Power (Londra: Profile Books, 2019).
16
Lisa Gitelman, a cura di, “Raw Data” is an Oxymoron (Cambridge, MA: MIT Press, 2013).
17
Nell’apprendimento supervisionato. Anche l’apprendimento auto-supervisionato mantiene forme di intervento umano.
18
Sulla tassonomia come forma di conoscenza e potere vedi: Michel Foucault, L’ordine delle cose: Un’archeologia delle scienze umane (Londra: Routledge, 2005).
 
19
Come il Mechanical Turk di Amazon, cinicamente definito intelligenza artificiale artificiale da Jeff Bezos. Vedi: Jason Pontin, “Artificial Intelligence, With Help from the Humans,” The New York Times, 25 marzo 2007, link.
20
Sebbene l’architettura convoluzionale risalga al lavoro di Yann LeCunn alla fine degli anni ’80, l’apprendimento profondo inizia con questo articolo: Geoffrey Hinton, Alex Krizhevsky e Ilya Sutskever, “ImageNet Classification with Deep Convolutional Neural Networks,” Communications of the ACM 60, n. 6 (2017).
21
Per un resoconto accessibile (anche se non molto critico) dello sviluppo di ImageNet vedi: Melanie Mitchell, Artificial Intelligence: A Guide for Thinking Humans (Londra: Penguin, 2019).
22
WordNet è “un database lessicale di relazioni semantiche tra parole” iniziato da George Armitage all’Università di Princeton nel 1985. Fornisce una struttura ad albero stretta di definizioni.
23
Kate Crawford e Trevor Paglen, “Excavating AI: The Politics of Training Sets for Machine Learning,” 19 settembre 2019, link.
24
Adam Harvey e Jules LaPlace, progetto MegaPixels (2019), link, e Madhumita Murgia, “Who’s using your face? The ugly truth about facial recognition,” Financial Times, 19 aprile 2019, link.
25
Il regolamento sulla privacy dei dati GDPR, approvato dal Parlamento Europeo nel maggio 2018, è tuttavia un miglioramento rispetto alla regolamentazione mancante negli Stati Uniti.
26
Frank Rosenblatt, “The Perceptron: A Perceiving and Recognizing Automaton,” Cornell Aeronautical Laboratory Report 85-460-1 (Buffalo, New York, 1957), link.
27
Warren McCulloch e Walter Pitts, “How We Know Universals: The Perception of Auditory and Visual Forms,” The Bulletin of Mathematical Biophysics 9, n. 3 (1947).
28
I parametri di un modello appresi dai dati sono chiamati “parametri”, mentre i parametri che non sono appresi dai dati e sono fissati manualmente sono chiamati “iperparametri” (questi determinano il numero e le proprietà dei parametri).
29
Questo valore può essere anche una percentuale tra uno e zero.
30
Per la documentazione dei singoli modelli vedi: Keras Applications, link.
31
Paul N. Edwards, A Vast Machine: Computer Models, Climate Data, and the Politics of Global Warming (Cambridge: The MIT Press, 2010).
32
Vedi il Community Earth System Model (CESM) sviluppato dal National Center for Atmospheric Research a Boulder, Colorado dal 1996. Il CESM è una simulazione numerica completamente accoppiata dei sistemi della Terra, composta da componenti atmosferici, oceanici, di ghiaccio, di superficie terrestre, del ciclo del carbonio e altri. Il CESM include un modello climatico che fornisce simulazioni all’avanguardia del passato, presente e futuro della Terra. Per saperne di più, vedi: link.
33
George Box, “Robustness in the Strategy of Scientific Model Building,” Mathematics Research Center of the University of Wisconsin-Madison technical report #1954, (Madison, Wisconsin, 1979).
34
Le scuole post-coloniali e post-strutturaliste di antropologia ed etnologia hanno sottolineato che non esiste mai un territorio di per sé, ma sempre un atto di territorializzazione.
35
Il riconoscimento di pattern è uno tra le molte altre economie dell’attenzione. “Guardare è lavorare,” come ricorda Jonathan Beller. Jonathan Beller, The Cinematic Mode of Production: Attention Economy and the Society of the Spectacle (Lebanon, NH: University Press of New England, 2006), 2.
36
Dan McQuillan, “Manifesto on Algorithmic Humanitarianism” (presentazione al simposio Reimagining Digital Humanitarianism, Goldsmiths, Università di Londra, 16 febbraio 2018).
37
Come dimostrato dal Teorema di Approssimazione Universale.
38
Ananya Ganesh, Andrew McCallum e Emma Strubell, “Energy and Policy Considerations for Deep Learning in NLP,” ArXiv preprint (2019), link.
39
Dominique Cardon, Jean-Philippe Cointet e Antoine Mazières, “Neurons Spike Back: The Invention of Inductive Machines and the Artificial Intelligence Controversy,” Réseaux 5, n. 211 (2018).
40
William Gibson, Neuromancer (New York: Ace Books, 1984), 69.
41
Guillaume Desagulier, “Word embeddings: the (very) basics,” Around the World (2018), link.
42
Jamie Morgenstern et al., “The Price of Fair PCA: One Extra Dimension,” Advances in Neural Information Processing Systems 31 (2018).
43
Vedi l’idea di creazione assistita e generativa in: Roelof Pieters e Samim Winiger, “Creative AI: On the Democratisation and Escalation of Creativity,” creative.ai (2016), link.
44
Os Keyes, “The Misgendering Machines: Trans/HCI Implications of Automatic Gender Recognition,” Proceedings of the ACM on Human-Computer Interaction 2, n. 88 (2018), link.
45
Alexander Mordvintsev, Christophe Olah e Mike Tyka, “Inceptionism: Going Deeper into Neural Networks,” Google Research (blog), 17 giugno 2015, link.
46
I deep fakes sono media sintetici come video in cui il viso di una persona viene sostituito con i tratti facciali di qualcun altro, spesso allo scopo di forgiare fake news.
47
Joseph Paul Cohen, Margaux Luck e Sina Honari “Distribution Matching Losses Can Hallucinate Features in Medical Image Translation,” Medical Image Computing and Computer Assisted Intervention – MICCAI 2018: 21st International Conference, Granada, Spagna, 16-20 settembre 2018, Proceedings, Parte I (2018): 529-536, arXiv:1805.08841.
48
Fabian Offert, “Neural Network Cultures” (panel al festival Transmediale e Künstliche Intelligenz und Medienphilosophie HfG Karlsruhe, Berlino, 1 febbraio 2020), link.
49
Michel Foucault, Anormali: Lezioni al Collège de France 1974-1975 (New York: Picador, 2004), 26.
50
Sulle norme computazionali vedi: Matteo Pasquinelli, “Arcana Mathematica Imperii: The Evolution of Western Computational Norms” in Maria Hlavajova et al. (a cura di), Former West: Art and the Contemporary After 1989 (Cambridge, MA: MIT Press, 2017).
51
Paola Ricaurte, “Data Epistemologies, The Coloniality of Power, and Resistance,” Television & New Media 20, n. 4 (7 marzo 2019), link.
52
David Ingold e Spencer Soper, “Amazon Doesn’t Consider the Race of its Customers. Should It?,” Bloomberg (blog), 21 aprile 2016, link.
53
Cathy O’Neil, Armi di distruzione matematica (New York: Broadway Books, 2016), 161-178.
54
Chris Anderson, “La fine della teoria: Il diluvio di dati rende il metodo scientifico obsoleto,” Wired, 23 (2008). Per una critica vedi: Fulvio Mazzocchi, “Could Big Data Be the End of Theory in Science? A Few Remarks on the Epistemology of Data-Driven Science,” EMBO Reports 16, n. 10 (2015).
55
Judea Pearl e Dana Mackenzie, Il libro del perché: La nuova scienza di causa ed effetto (New York: Basic Books, 2018).
56
Esperimenti del New York Police Department dalla fine degli anni ’80. Vedi: Pasquinelli, “Arcana Mathematica Imperii.”
57
Dan McQuillan, “Consigli popolari per l’etica nell’apprendimento automatico,” Social Media and Society 4, n. 2 (2018).
58
Ricaurte, “Epistemologie dei dati.”
59
Felix Guattari, Cartografie schizoanalitiche (Londra: Continuum, 2013), 2.
60
La relazione tra intelligenza artificiale e hacking non è così antagonista come può sembrare; spesso si evolve in un ciclo di apprendimento, valutazione e rafforzamento reciproci.
61
Adam Harvey, HyperFace (progetto, 2016), link.
62
Anish Athalye et al., “Synthesizing Robust Adversarial Examples,” ArXiv preprint (2017), link.
63
Nir Morgulis et al., “Fooling a Real Car with Adversarial Traffic Signs,” ArXiv preprint (2019), link.
64
L’avvelenamento dei dati può essere impiegato anche per proteggere la privacy inserendo informazioni anonimizzate o casuali nel dataset.
65
Ian Goodfellow et al., “Explaining and Harnessing Adversarial Examples,” ArXiv preprint (2014), link.
66
Florian Schmidt, “Crowdsourced Production of AI Training Data: How Human Workers Teach Self-Driving Cars to See,” Working Paper Forschungsförderung 155 (2019).
67
Mary Gray e Siddharth Suri, Lavoro fantasma: Come fermare Silicon Valley dal costruire una nuova sottoclasse globale (Boston: Houghton Mifflin Harcourt, 2019).
68
Hamid Ekbia e Bonnie Nardi, Eteromazione e altre storie di informatica e capitalismo (Cambridge: MIT Press, 2017).
69
Per l’idea di intelligenza analitica vedi: Lorraine Daston, “Calcolo e divisione del lavoro 1750-1950,” Bulletin of the German Historical Institute 62 (2018).
70
Simon Schaffer, “L’intelligenza di Babbage: Motori di calcolo e il sistema fabbrica,” Critical Inquiry 21, n. 1 (1994), 203-227. Lorraine Daston, “Calcoli dell’Illuminismo,” Critical Inquiry 21, n. 1 (1994), 182-202. Matthew L. Jones, La contabilità della materia: Macchine da calcolo, innovazione e pensare al pensiero da Pascal a Babbage (Chicago: University of Chicago Press, 2016), 62.
71
Matteo Pasquinelli, “Sulle origini dell’Intelletto Generale di Marx,” Radical Philosophy 2, n. 6 (2019), 43-56.
72
Aida Ponce del Castillo, “Il lavoro nell’era dell’IA: perché è necessaria una regolamentazione per proteggere i lavoratori,” ETUI Research Paper – Foresight Brief #08 (2020), link.
73
Maxine Berg, La questione delle macchine e la formazione dell’economia politica 1815-1848 (Cambridge: Cambridge University Press, 1980). Anche The Economist ha recentemente messo in guardia sul “ritorno della questione delle macchine” nell’era dell’IA. Vedi: Tom Standage, “Il ritorno della questione delle macchine,” The Economist (2016).


Vladan Joler è Professore presso l’Accademia delle Arti dell’Università di Novi Sad e fondatore della SHARE Foundation. Guida SHARE Lab, un laboratorio di ricerca e indagine che esplora gli aspetti tecnici e sociali della trasparenza algoritmica, dello sfruttamento del lavoro digitale, delle infrastrutture invisibili e delle scatole nere tecnologiche.
Matteo Pasquinelli è professore associato in Filosofia della Scienza presso il Dipartimento di Filosofia e Beni Culturali dell’Università Ca’ Foscari di Venezia, dove coordina il progetto ERC AIMODELS. Per Verso Books ha recentemente pubblicato The Eye of the Master: A Social History of Artificial Intelligence.
 

0 comments on “Il Nooscopio: L’intelligenza artificiale come strumento di estrattivismo della conoscenza

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *