L’algoritmo neurale dell’arte.

artifySlide2
Ammettiamolo, non sono proprio bellissimi questi filtri…

Il titolo è una parafrasi di “A Neural Algorithm of Artistic Style”, un recente articolo di alcuni ricercatori dell’università di Tubinga, in Germania, che hanno sviluppato degli algoritmi in grado di rielaborare le immagini in base allo stile di famosi pittori del passato. Non si tratta dei mediocri risultati proposti da App come Artify o dei deboli filtri offerti dai programmi di grafica digitale (Photoshop incluso), ma di un sistema basato sulle reti neurali che Google e altre aziende usano per il riconoscimento delle immagini.

Rispondo in anticipo a possibili esagerazioni:
«È stata inventata un’intelligenza artificiale in grado di creare opere d’arte».
No, ma è stato creato un ottimo falsario artificiale.
«Le macchine sostituiranno gli uomini nel creare opere d’arte».
Non ne sono ancora in grado, ma è probabile che non ci piacerà un’opera d’arte creata da una macchina per altre macchine – non sappiamo nemmeno se un’intelligenza artificiale debba sviluppare delle tendenze che noi definiremmo artistiche.

L’importanza dello studio di Tubinga oltrepassa i dozzinali incubi/sogni fantascientifici, e ci parla in modo innovativo della natura di idee, coscienza, creatività, percezione del mondo e dunque del mondo stesso. Non è poco per l’AI di un falsario.

Un tema interessante dunque, che nasce in modo poco suggestivo: a Google serviva un software per riconoscere le immagini. Per il celebre motore di ricerca è indispensabile separare i canini dai gattini, i visi dagli ombrelli, le mogli dai cappelli, e a questo scopo ha sviluppato delle reti neurali artificiali.


“L’importanza dello studio di Tubinga oltrepassa i dozzinali incubi/sogni fantascientifici, e ci parla in modo innovativo della natura di idee, coscienza, creatività, percezione del mondo e dunque del mondo stesso. Non è poco per l’AI di un falsario.”


Spiegare cos’è una rete neurale non è facile, tanto più che non sono certo di averlo capito, privo come sono di un’adeguata preparazione matematica. In estremissima sintesi si tratta di formule che sviluppano dei pensieri molto semplici, sia che le “processino” dei neuroni biologici che artificiali. Una spiegazione meno sintetica (ma più chiara), direbbe che sono formule matematiche che a) ricevono delle informazioni, b) le processano e c) ne tirano fuori nuove informazioni. Citando Simone Valesini per Wired Italia:

Una rete neurale come quella utilizzata da Google è composta da migliaia di connessioni neurali organizzate in una serie di livelli ascendenti, che analizzano elementi sempre più astratti di un immagine. Quando al programma viene sottoposta una foto, i livelli più bassi della rete neurale analizzano elementi come gli angoli e i contrasti tra i pixel dell’immagine, salendo poi a livelli in cui il programma estrae informazioni sempre più complesse, per arrivare (dopo essersi allenato con un numero sufficiente di immagini) all’ultimo livello, dove viene prodotto l’output, ovvero il riconoscimento dell’oggetto contenuto nella foto.

In pratica una rete neurale è abbastanza intelligente da saper riconoscere un gatto dopo aver visto milioni di gatti, e può, cosa non da poco, acquisire “l’idea di gatto”. Per la gioia di Platone le porte dell’Iperuranio si aprono ad androidi che vedono gattini ovunque.

noise-to-banana
Qua invece che “gattizzare” la rete neurale di Google “bananizza” il white noise (era una rete addestrata al riconoscimento delle banane)
Un piccolo approfondimento tratto da CULTUR-E, per chi, come me, non ha chiaro il punto b), ovvero come funziona il “processare”: “La funzione di trasferimento del segnale nella rete non è programmata ma è ottenuta attraverso un processo di apprendimento basato su dati empirici. Questo processo può essere supervisionato, non supervisionato o per rinforzo. Nel primo caso la rete utilizza un insieme di dati di addestramento grazie ai quali riesce a inferire i legami che legano questi dati e sviluppare un modello “generale”. Questo modello verrà successivamente utilizzato per risolvere problemi dello stesso tipo. Nel caso del processo di apprendimento non supervisionato, il sistema fa riferimento ad algoritmi che tentano di raggruppare i dati di ingresso per tipologia, individuando cluster rappresentativi dei dati stessi facendo uso tipicamente di metodi topologici o probabilistici. Nel processo per rinforzo un algoritmo si prefigge di individuare un modus operandi a partire da un processo di osservazione dell’ambiente esterno. In questo processo è l’ambiente stesso a guidare l’algoritmo nel processo di apprendimento.”

Può sembrare una sciocchezza ma implica una deduzione importante, ovvero che, dal punto di vista sperimentale, le idee non sono in un mondo iperuranio (Scusa Platone) né sono forme a priori della conoscenza (Scusa Kant). Il “triangolo” ad esempio, emerge in qualche modo a forza di vedere cose triangolari, o per meglio dire “triangolizzabili”. Tramezzini, vetri rotti, tranci di pizza, hanno tutti qualcosa in comune: il triangolo. La rete neurale (la coscienza?) procede essenzialmente attraverso somiglianze e differenze. Cos’hanno in comune un tramezzino e un cartello stradale? Il triangolo. E un gatto nero e un siamese? Il gatto.

Ma si va oltre: una volta imparato “il gatto” la rete neurale può “gattizzare” il mondo. È quel che succede quando i ricercatori di Google hanno provato a sottoporre a determinate reti neurali delle immagini “vuote”, ovvero a un insieme casuale di pixel.

lots-of-cats_zpse9b8be3d-e1386904020427
una volta imparato il gatto la rete neurale può “gattizzare” il mondo

“Il “triangolo” ad esempio, emerge in qualche modo a forza di vedere cose triangolari, o per meglio dire “triangolizzabili”. Tramezzini, vetri rotti, tranci di pizza, hanno tutti qualcosa in comune: il triangolo.”


Sempre da Wired:

Andando ancora più in là, i ricercatori hanno fornito come input alla rete delle immagini di white noise (o rumore bianco, fondamentalmente un insieme casuale di pixel), chiedendo poi di produrre l’immagine di un determinato oggetto. Il risultato di questi esperimenti [sono] rappresentazioni in cui contorni e colori delle figure possono diventare arabeschi psichedelici (quando a essere amplificati sono i livelli più bassi della rete, che analizzano forme e colori), o pagode, palazzi e animali possono apparire dal nulla (quando l’interpretazione arriva dai livelli superiori), guidati da similitudini che solo il computer è in grado di cogliere.

Gli ormai celebri sogni “psichedelici” di Google hanno uno stile riconoscibile che si potrebbe definire attraverso: 1) la mescolanza di elementi (con un’inquietante preponderanza di una specie di “Lumacane”) 2) dei colori accesi, o meglio la ripetuta presenza dell’intero spettro dei colori all’interno della stessa immagine. Sono, insomma, immagini molto “arcobalenate”, 3) delle ripetizioni modulari di pattern che ricordano dei frattali.

building-dreams
Alcuni esempi.
the carnival of the animals and goodness knows what else
Ave Lumacane!

La similitudine con alcuni effetti degli allucinogeni è interessante, perché oltre ad avvicinare sempre più il pensiero “umano” e quello “artificiale”, ci informa su alcuni elementi ricorrenti al grado zero (anzi uno) della rappresentazione immaginifica. Le forme si fondono l’una nell’altra, i colori si moltiplicano e susseguono, in ogni cosa si scovano antri, frattali, ripetizioni, ricorrenze… l’alfabetizzazione simbolica porta spesso con sé un sapore infantile e mistico. Non a caso sono due fasi vicine a quel che gli antichi greci chiamavano Chaos («il vuoto primordiale, una specie di gorgo buio che risucchia ogni cosa in un abisso senza fine, paragonabile a una nera gola spalancata»), i filosofi Noumeno («la cosa in sé») e i santi dio. Le macchine, per ora, lo chiamerebbero «white noise». Per farla breve, «là fuori» ci sono infinite idee possibili, che le reti neurali artificiali possono cogliere soltanto in parte. E noi, al momento, molto meglio di loro.

1434970448_Foto-5-cavaliere-600x335


“Le forme si fondono l’una nell’altra, i colori si moltiplicano e susseguono, in ogni cosa si scovano antri, frattali, ripetizioni, ricorrenze… l’alfabetizzazione simbolica porta spesso con sé un sapore infantile e mistico.”

Il passaggio successivo, quello sviluppato dagli studiosi sopracitati, è che lo stile di un’immagine può essere tecnicamente disgiunto dal contenuto. Lo hanno dimostrato a partire dalle stessi reti neurali, elaborando degli algoritmi in grado di separare e ricombinare stile e immagini, dando luogo, per così dire, a nuove opere di vecchi artisti.

tubinga1

Lo studio è breve, ma per chi non potesse o volesse leggerlo, il punto sta nella capacità della rete neurale di estrapolare la texture dell’immagine ignorandone il contenuto. I termini che usano gli studiosi sono texture, style, appearance in terms of colour and localised structures… “stile” è la parola forse più calzante, o “modo di vedere/rappresentare le cose”. Insomma, si può estrarre Van Gogh dai girasoli, Munch dai tizi che urlano, Turner da navi e tramonti.

Beninteso, la capacità di identificare e riproporre uno stile è molto lontana da quella di crearlo; le reti neurali vanno per sottrazione. Dopo aver sottratto i campi e i girasoli da van Gogh quel che resta è lo stile di van Gogh; applicarlo a una qualunque altra immagine a questo punto è (relativamente) semplice – il falsario ha imparato il mestiere.


“Quale che sia il metodo con cui si inventa (o si calcola) una visione del mondo (cioè uno stile) infatti, e quale che sia l’identità che compie il processo (un uomo, un robot, un gatto), perché dall’infinito white noise dietro le cose estraiamo proprio questo e non altro?”


I risultati sono sorprendenti, tanto che alcune di queste immagini potrebbero davvero sembrare dei “nuovi” quadri di van Gogh. Certo, non i migliori; il procedimento è molto più semplice dell’opera del “vero” pittore. Potremmo però immaginare che una complessità maggiore di algoritmi, dati e processi imparati abbia portato van Gogh a creare il Campo di grano con volo di corvi.

tubinga2

Insomma, con più reti neurali, più esperienze e la bizzarria del caso si ottiene «la formula» di Picasso. Questo meccanicismo del processo creativo potrebbe suonare svilente – più una lamentela che un’obiezione – eppure i risultati di questi studi aumentano i misteri piuttosto che risolverli. Quale che sia il metodo con cui si inventa (o si calcola) una visione del mondo (cioè uno stile) infatti, quale che sia l’identità che compie il processo (un uomo, un robot, un gatto) o le cose che vi cerca (gattini e canini), perché dall’infinito white noise dietro le cose estraiamo un mondo piuttosto che un altro? Come mai inoltre tutto “torna” ed è relativamente prevedibile, o, perlomeno, non troppo imprevedibile? La coerenza dà l’illusione dell’unicità del mondo, di una sua, come dire, superiorità ontica, eppure si possono pescare tanti pesci (o lumacani) dal white noise…

Filosofi, scienziati, santi e artisti se lo chiedono spesso. Adesso anche i computer: spero che diventino più bravi e che la loro risposta non sia «42».

di Francesco D’Isa

Referenze fotografiche: Michael Tyka/ Google, Leon A. Gatys, Alexander S. Ecker, Matthias Bethge / arXiv.org

3 comments on “L’algoritmo neurale dell’arte.