Cos’è la scienza della cultura

Come possiamo vedere simultaneamente un miliardo di immagini? Quali metodi analitici possiamo applicare alla sorprendente scala della cultura digitale, ai terabyte di fotografie condivise ogni giorno sui social media, al contenuto di quattro miliardi di schede di Pinterest?


IN COPERTINA: Glaube und Schönheit, Jarik Jongman (2018)

Questo testo è un estratto da Cultural analytics di Lev Manovich, ringraziamo Cortina per la gentile concessione.


di Lev Manovich

Oggi, la ricerca che usa il calcolo e grandi insiemi di dati culturali è diffusa in molti settori accademici, pratiche professionali e tipologie di testi. Essa include pubblicazioni in riviste accademiche, articoli di conferenze, post di blog, il codice e i depositi di GitHub, grandi progetti istituzionali a lungo termine per assemblare i record digitali di molte collezioni separate come Europeana.eu, installazioni artistiche di breve durata in musei e spazi pubblici, e progetti interattivi di data artist e designer.

Diamo un’occhiata ad alcuni esempi di questa ricerca e alle pubblicazioni e conferenze accademiche in cui questo lavoro appare spesso. In informatica, il numero di pubblicazioni rilevanti e di paper di conferenze che analizzano i contenuti e le interazioni culturali si aggira ormai sulle centinaia di migliaia. Alcune di queste ricerche appaiono in conferenze sul “social computing” e sulla “scienza sociale computazionale”. Altri lavori sono svolti in vari sotto settori dell’informatica, tra cui computer multimedia, computer vision, music information retrieval, natural language processing, web science e machine learning. Anche Nature e Science, le due riviste scientifiche internazionali più prestigiose, hanno pubblicato un certo numero di articoli rilevanti. Un’altra prestigiosa rivista con molte pubblicazioni che utilizzano metodi computazionali per analizzare grandi insiemi di dati dei social media è PLOS One. Tra le conferenze annuali che presentano tali lavori, due sono molto significativi: l’International World Wide Web Conference (1994-) e la International AAAI Conference On Web And Social Media (2007-).

Gran parte di queste ricerche in informatica si basano su ampi campioni di contenuti utente condivisi sui social network e sui dati relativi al comportamento delle persone su questi network, come numero di visualizzazioni, like e condivisioni di un post, elenchi dei follower, e così via. Gli articoli analizzano il comportamento degli utenti sui più popolari social network e servizi di condivisione dei media come Weibo, Facebook, Instagram, Flickr, You-Tube, Pinterest e Tumblr. Analizzano anche computazionalmente le caratteristiche dei post di immagini, video e testo e propongono modelli che collegano il comportamento degli utenti e queste caratteristiche. Per esempio, in un’area di ricerca chiamata estetica computazionale, gli scienziati creano modelli matematici che prevedono quali immagini e video saranno popolari e come questa popolarità è influenzata dal loro contenuto e da altre caratteristiche come la “memorabilità”, “l’interesse”, “la bellezza” o “la creatività”. (I ricercatori hanno proposto metriche per misurare tali caratteristiche.)

Per esempi relativi a come gli scienziati analizzino i comportamenti culturali su una piattaforma di condivisione dei media, si pensi a Instagram. Su Google Scholar, la mia ricerca per “Instagram dataset” condotta il 3 febbraio 2020 ha restituito 17.110 articoli su riviste e paper di conferenze. Una pubblicazione ha analizzato i soggetti e i tipi di utenti più popolari di Instagram in termini di quali tipi di soggetti appaiono frequentemente nelle foto nei loro feed. Un articolo ha utilizzato un campione di 4,1 milioni di foto di Instagram per quantificare l’effetto dell’uso dei filtri sul numero di visualizzazioni e commenti. In un altro, un gruppo di ricercatori ha analizzato le tendenze temporali e demografiche nei selfie di Instagram utilizzando 5,5 milioni di foto con volti che hanno raccolto dalla rete. Hanno anche testato tre ipotesi alternative sui motivi che spingono a postare selfie in ciascuno dei 117 paesi nei loro dataset. Un altro studio ha analizzato invece gli stili di abbigliamento e di moda in quarantaquattro città del mondo utilizzando cento milioni di foto di Instagram.

Tali articoli illustrano le caratteristiche generali comuni a gran parte della ricerca culturale nell’informatica. Questa ricerca si occupa del tempo presente. Si basa su grandi campioni casuali di contenuti creati dagli utenti e delle loro attività, come diversi milioni di post sui social network e sui siti di media sharing da parte di milioni di persone. Di conseguenza, ciò che questo studio monitora e quantifica è la cultura popolare, ossia i gusti, gli interessi, e l’immaginazione condivisa dalle maggioranze. (A causa di problemi di privacy, gli scienziati non possono chiedere a ciascuno di questi utenti di identificarsi o presentare informazioni demografiche.)

Una simile scala offre ovvi vantaggi (per esempio, possiamo trovare modelli statistici più affidabili), ma il desiderio di modellare e prevedere il comportamento culturale umano su tale scala può essere anche accecante. Come discuterò più avanti in dettaglio, le piccole “isole” di cultura globale – gruppi di artefatti culturali unici, comportamenti culturali unici e gusti unici – possono facilmente diventare invisibili quando aggreghiamo tutti i dati insieme e li analizziamo come se provenissero da un’unica popolazione.

La cultura popolare contemporanea come esiste nei social media, nei blog, nei forum e in altre piattaforme online riceve la maggior parte dell’attenzione nella ricerca computazionale, ma possiamo anche trovare alcuni lavori quantitativi molto interessanti sulla storia dei media digitali. Un certo numero di scienziati ha pubblicato studi sui media visivi e audio storici che usano in maniera creativa metodi presi dai campi dell’elaborazione delle immagini, della computer vision e del music information retrieval. Esempi di questi lavori che trovo particolarmente interessanti sono “Toward Automated Discovery of Artistic Influence”, “Measuring the Evolution of Contemporary Western Popular Music” e “Quicker, Faster, Darker: Changes in Hollywood Film over 75 Years”. Il primo articolo presenta un modello matematico per la scoperta automatica dell’influenza tra gli artisti. Il modello è stato testato utilizzando 1710 immagini di dipinti di sessantasei artisti famosi. Anche se alcune delle influenze scoperte sono le stesse spesso descritte dagli storici dell’arte, il modello suggerisce anche altre contaminazioni visive tra gli artisti che non erano state discusse in precedenza. Il secondo articolo indaga piuttosto i cambiamenti nella musica popolare usando un dataset di 464.411 canzoni prodotte tra il 1955 e il 2010. Il terzo articolo analizza quindi i cambiamenti graduali nella durata media delle inquadrature attraverso 9400 film narrativi in lingua inglese creati tra il 1912 e il 2013.

L’analisi di culture testuali per lo più storiche è stata fondamentale per il campo delle digital humanities così come si è sviluppato nei dipartimenti di studi letterari. La storia che questo settore di studi ha costruito per se stesso (specialmente nei paesi di lingua inglese) inizia nel 1949 con un progetto del sacerdote italiano Roberto Busa, finalizzato a creare un indice delle parole negli scritti di San Tommaso d’Aquino che alla fine fu supportato dall’IBM (per storie alternative degli inizi di questo campo, vedi “A Genealogy of Distant Reading” di Ted Underwood e “Search and Replace: Josephine Miles and the Origins of Distant Reading” di Rachel Sagner Buurma e Laura Heffernan). Importanti pietre miliari istituzionali per lo sviluppo del campo di studi negli Stati Uniti includono la fondazione della rivista Computers and the Humanities (1996-), l’Association for Computers and the Humanities (1978-), l’NEH Office for Digital Humanities (2008-) e le Annual Digital Humanities Conferences (1989-) a livello internazionale. Qualsiasi tentativo di riassumere il campo oggi risulterà incompleto date le sue dimensioni e la sua diversità ma, per una visione prospettica dal 2015, consiglio “Seven

Ways Humanists Are Using Computers to Understand Text” di Underwood. Potrei citare molti esempi interessanti di ricerca nelle digital humanities, ma ne menzionerò solo uno perché illustra bene quello che considero il tipo di indagine più interessante: usare dati culturali più grandi per mettere in discussione i nostri concetti e i nostri metodi di analisi esistenti. Gli autori dell’articolo “Mapping Mutable Genres in Structurally Complex Volumes” applicano metodi informatici per analizzare i testi di 469.200 volumi digitalizzati in lingua inglese che coprono vari secoli. Il problema iniziale nel classificare automaticamente per genere questi libri porta alla discussione dell’instabilità delle categorie tipologiche nel tempo:

I metadati esistenti raramente forniscono informazioni non ambigue sul genere. Peggio ancora, quando si scava nel problema, diventa chiaro che nessuna quantità di categorizzazione manuale produrrà mai un confine definitivo tra fiction e non-fiction in una collezione con un arco di tempo significativo, perché il confine varia nel tempo. Forma e contenuto non si allineavano necessariamente nei secoli precedenti come lo fanno per noi. Le biografie del XIX secolo che inventano un dialogo immaginario spesso si leggono esattamente come un romanzo; i saggi del XVIII secolo come quelli di Richard Steele usano personaggi sottilmente romanzati come velo per il giornalismo saggistico.

Tra i molti articoli che analizzano i dati culturali in modo computazionale, alcuni dei più interessanti sono quelli che testano teorie culturali esistenti e/o ne propongono di nuove. Uno di questi studi si intitola “Fashion and Art Cycles Are Driven by Counter- Dominance Signals of Elite Competition: Quantitative Evidence from Music Styles”. L’articolo usa i dati su otto milioni di album musicali pubblicati tra il 1952 e il 2010 per testare due teorie comuni sui cicli dell’arte e della moda. Come riassumono gli autori del contributo, “Secondo le teorie ‘top down’, i membri dell’élite segnalano il loro status superiore introducendo nuovi simboli (per esempio, gli stili di moda), che vengono adottati da gruppi di basso status. In risposta a questa adozione, i membri dell’élite avrebbero bisogno di introdurre nuovi simboli per segnalare il loro status. Secondo molte teorie ‘bottom-up’, i cicli di stile si evolvono dalle classi inferiori e seguono un modello essenzialmente casuale”. L’analisi quantitativa dei dati storici porta gli autori a proporre una teoria diversa supportata da test statistici: “I cambiamenti negli stili dell’arte e della moda avvengono ogni volta che una nuova élite sfida con successo l’egemonia di una élite precedente”. I sociologi, osservano gli autori, si sono interessati ai meccanismi dei cicli di stile fin dal libro Philosophy of Fashion di Georg Simmel, del 1905. Formulando e testando modelli quantitativi per diversi meccanismi di cambiamento, l’articolo fornisce una metodologia che può essere usata per studiare i cicli di stile in altre aree culturali oltre alla musica popolare.

Il lavoro con grandi dataset culturali comprende non solo i ricercatori che fanno analisi nei loro laboratori e pubblicano articoli, ma anche la produzione di interfacce web interattive che permettono al pubblico di esplorare le tendenze in tali serie di dati. Uno di questi importanti progetti è l’Ngram Viewer, realizzato nel 2010 dagli scienziati di Google Jon Orwant e Will Brockman in seguito al prototipo di due studenti di dottorato dell’Università di Harvard in biologia e matematica applicata. Un visitatore del sito web dell’Ngram Viewer può inserire diverse parole o frasi e vedere istantaneamente i grafici che confrontano le frequenze delle apparizioni di queste parole in milioni di libri pubblicati nel corso di alcuni secoli.

Tra gli esperimenti per creare interfacce per grandi collezioni di immagini mi preme menzionare i progetti pionieristici dei laboratori della New York Public Library (NYPL). Uno di questi progetti creati nel 2016 permette ai visitatori online di sfogliare 187.000 immagini di dominio pubblico della NYPL per secolo, genere, collezione e colore. L’interfaccia mostra tutte queste 187.000 immagini in una volta sola in dimensioni ridotte; cliccando su ogni miniatura si accede all’immagine più grande e alle relative informazioni. Un altro progetto, chiamato Photographers’ Identities Catalog, supporta l’esplorazione dei dati relativi a 128.668 fotografi, studi e commercianti che percorrono la storia della fotografia mondiale. L’interfaccia include una mappa interattiva che mostra l’ubicazione dettagliata dei record a livello di strade cittadine. Se un fotografo ha vissuto in diversi luoghi, la mappa li collega tutti, dandoci così una panoramica spaziale della carriera dell’artista.

Nel nostro laboratorio abbiamo creato due progetti che consentono ai visitatori di esplorare e interagire con grandi collezioni di immagini e dati dei social media. Selfiecity (2014-2015) permette il confronto interattivo dei modelli in migliaia di autoritratti Instagram (selfie) che sono stati condivisi in sei città globali. On Broadway (2014) utilizza un touch screen per presentare un’interfaccia per navigare in una “città di dati” – in particolare, il tratto di Broadway di ventun chilometri che si snoda per Manhattan. Le immagini e i dati adoperati in questo progetto includono 660.000 foto Instagram geocodificate, otto milioni di check-in di Foursquare, e ventidue milioni di salite e discese dai taxi per un anno. I partecipanti al nostro laboratorio hanno lavorato alla raccolta e all’organizzazione dei dati; il design dell’interfaccia e la programmazione è stata fatta dal team, composto da uno dei leader mondiali nella visualizzazione dei dati, Moritz Stefaner, un esperto nella programmazione di applicazioni interattive, Dominicus Baur, e un designer di prodotti di dati, Daniel Goddemeyer.

I precedenti esempi di ricerche e progetti di cultural analytics possono dare l’impressione che questo lavoro serva solo a fini accademici o artistici. Tuttavia, la cultural analytics è spesso svolta anche come parte di progetti di design per creare nuovi prodotti e servizi digitali o per migliorare quelli esistenti. Questi possono andare dalla realizzazione di interfacce di nuovi media per collezioni digitali per musei e biblioteche, all’analisi dei social media urbani per guidare la progettazione e la politica urbana. L’analisi su larga scala delle interazioni delle persone con i contenuti dei media digitali o delle interazioni tra persone mediate da sistemi informatici può essere usata per migliorare tali sistemi. Per esempio, possiamo proporre algoritmi per aiutare le persone a trovare più tipi di contenuti o a scoprire contenuti che normalmente ignorerebbero. In realtà, gli scienziati informatici che lavorano al miglioramento dei sistemi di raccomandazione dedicano molte energie a capire come fornire raccomandazioni più diversificate ma comunque rilevanti. (Nell’ottobre 2018, Spotify ha dichiarato che la sua diversità di ascolto, definita come il numero di artisti che l’utente medio riproduce in streaming al mese, “è aumentata su Spotify negli ultimi dieci anni a una media di circa l’8% l’anno”.)

Alcuni informatici hanno studiato le preferenze estetiche e le dinamiche dell’attenzione nei media visivi tra gli utenti dei social network – chiedendosi quali immagini o video gli utenti preferiscano e come queste preferenze possano essere previste dal contenuto dei media e dalle caratteristiche visive. Per esempio, si consideri il contributo del 2015 intitolato “An Image is Worth More than a Thousand Favorites” (una delle autrici di questo lavoro, Miriam Redi, ha poi collaborato con noi all’analisi delle immagini di Instagram). L’articolo presenta “l’analisi della percezione estetica delle immagini web da parte della gente comune” utilizzando nove milioni di immagini Flickr con licenze Creative Commons. Passando in rassegna l’ampio corpo di ricerca quantitativa che utilizza big data, gli autori osservano:

La dinamica dell’attenzione nei social media tende a obbedire a leggi di potenza. L’attenzione si concentra su un numero relativamente piccolo di articoli popolari e trascura la grande maggioranza dei contenuti prodotti dalla folla. Anche se la popolarità può essere un’indicazione del valore percepito di un elemento all’interno della sua comunità, la ricerca precedente ha accennato al fatto che la popolarità è distinta dalla qualità intrinseca. Di conseguenza, i contenuti con bassa visibilità ma alta qualità si nascondono nella coda della distribuzione della popolarità. Questo fenomeno può essere particolarmente evidente nel caso di comunità di photo-sharing, dove fotografi di valore che non sono molto impegnati in interazioni sociali online contribuiscono con immagini di alta qualità che rimangono inosservate.

Gli autori propongono un algoritmo che può trovare immagini “impopolari” (immagini, cioè, che sono state viste solo da una piccola parte degli utenti) che sono uguali in qualità estetica alle immagini popolari. L’implementazione di tale algoritmo permetterebbe a più creator di trovare un pubblico per le loro opere. Questa ricerca esemplifica come l’analisi quantitativa su larga scala di modelli e situazioni culturali può essere ulteriormente utilizzata per offrire soluzioni costruttive che possono cambiare tali situazioni in meglio.

Alibaba data center, Qiandao Lake, Zhejiang, China, 2019 – Jarik Jongman

LA STORIA CONTRO IL PRESENTE, PROFESSIONISTI CONTRO DILETTANTI

La ricerca che analizza grandi serie di dati culturali usando metodi computazionali può essere oggi trovata in molte discipline accademiche, tra cui l’informatica, la data science, l’antropologia, la sociologia, la comunicazione, i media studies, gli studi sui giochi, la linguistica, la geografia, gli studi sul folklore, la storia, la storia dell’arte e gli studi letterari. Gli esempi nella sezione precedente hanno illustrato alcune delle questioni oggetto di indagine. Ma piuttosto che fornire altri esempi da ciascuna di queste discipline, preferirei passare dai singoli casi a una questione di più ampio respiro. Questo tema riguarda i presupposti e gli obiettivi dei tre paradigmi intellettuali più ampi che separano tali discipline – e le possibilità di riunirle nella cultural analytics come contribuenti intellettuali alla pari.

Questi tre paradigmi sono le scienze umane e le scienze sociali qualitative, le scienze sociali quantitative e l’informatica. Ognuno ha obiettivi diversi, metodi di ricerca diversi, e modi differenti di valutare l’originalità della ricerca. Quando gli studiosi analizzano i dati culturali, ciò che fanno con essi e come lo fanno riflette i presupposti e le norme di tali paradigmi. Di fatto, se conosciamo queste norme, possiamo aspettarci che la ricerca in ogni paradigma si svilupperà nella propria direzione. Così, ci si può aspettare che gli scienziati informatici cerchino leggi generali che descrivano modelli in grandi dati culturali e la creazione di modelli quantitativi che possano prevedere modelli futuri, in particolare in relazione ai comportamenti degli utenti online (seguire raccomandazioni, diffondere informazioni, acquistare ecc.). Gli scienziati sociali quantitativi porranno invece domande di scienze sociali, usando particolari metodi statistici che sono accettati nei loro campi con i dati. Dato che la loro attenzione è rivolta ai fenomeni sociali, possiamo anche aspettarci che studino comportamenti di gruppo online. Gli umanisti analizzeranno per lo più particolari serie di dati storici e anche particolari testi culturali; e idealmente metteranno in discussione le interpretazioni esistenti delle storie culturali, offrendo magari nuove interpretazioni.

Ma noi non dobbiamo selezionare nessuno di questi approcci o obiettivi. La cultural analytics non deve scegliere tra obiettivi e metodologie umanistiche e scientifiche o subordinare l’una all’altra. Al contrario, potremmo voler mettere insieme elementi sia delle scienze umane che di quelle scientifiche per lo studio delle culture. Le scienze umane possono contribuire con i loro punti di forza – l’attenzione al particolare (per esempio, singoli artefatti e autori), i significati degli artefatti e l’orientamento verso il passato. E le scienze possono darci i loro – attenzione al generale (per esempio, modelli su larga scala), uso del metodo scientifico e della matematica e interesse nel prevedere il futuro.

In questa sezione esaminerò ulteriormente alcuni dei presupposti e delle norme delle scienze umane, delle scienze sociali qualitative e dell’informatica, e discuterò come la cultural analytics possa potenzialmente combinarle. Per iniziare, facciamo una domanda: quali tipi di dati culturali sono stati finora analizzati nell’informatica e nelle scienze umane? In altre parole, cosa conta come “cultura” in ogni disciplina?

In linea con l’orientamento storico delle scienze umane, i ricercatori hanno usato i computer per analizzare per lo più artefatti storici creati soprattutto da autori professionisti, che si tratti di manoscritti medievali di dotti monaci o di romanzi del XIX secolo scritti da autori pagati dagli editori per il loro lavoro. Questa attenzione ai dati storici è facile da vedere se si passano in rassegna i numeri delle riviste di scienze umane digitali come Digital Humanities Quarterly (2007-), o i programmi dell’annuale Digital Humanities Conference.

Per contro, come ho notato prima, le pubblicazioni rilevanti in informatica si concentrano quasi esclusivamente sul periodo dopo il 2005 perché analizzano i dati dei social network, dei servizi di condivisione dei media, dei forum online e dei blog. I dataset usati in tali studi sono spesso molto più grandi di quelli utilizzati nelle digital humanities. Non è raro che essi prendano in considerazione decine o centinaia di milioni di post, foto o altri elementi e miliardi di interazioni registrate. E poiché la grande maggioranza dei contenuti generati dagli utenti è creata da persone comuni piuttosto che da professionisti, gli scienziati informatici hanno automaticamente studiato la cultura vernacolare non professionale. O, riprendendo l’espressione che ho usato prima, ciò che questa ricerca indaga e quantifica è la cultura popolare.

Abbiamo così due universi di ricerca che spesso usano gli stessi metodi computazionali ma li applicano a “culture” diverse. Dal lato delle scienze umane, abbiamo il passato che si estende per centinaia o addirittura migliaia di anni. Dal lato dell’informatica, abbiamo il presente che comincia all’alba del XXI secolo. Dal lato delle scienze umane, abbiamo artefatti creati da élite professionali. Dal lato dell’informatica abbiamo artefatti e comportamenti online creati da tutti gli altri.

La scala della ricerca nell’informatica che usa dataset del web e dei social media può essere sorprendente per gli operatori umanistici e artistici, che potrebbero non rendersi conto di quanti scienziati stiano lavorando in quest’area. Finora ho presentato una serie di esempi di ricerca ma non ho reso del tutto esplicito quanto sia stato pubblicato su questi argomenti. Torniamo ancora a Google Scholar per questo. Le mie recenti ricerche su Google Scholar per “algoritmo dataset Twitter”, “algoritmo dataset YouTube”, e “algoritmo immagini Flickr” hanno restituito centinaia di migliaia di articoli su riviste e paper di conferenze. Utilizzo le parole dataset e algoritmo per limitare i risultati agli articoli che usano metodi computazionali. Non tutte queste pubblicazioni pongono direttamente domande culturali, ma molte lo fanno.

Perché gli informatici lavorano raramente con grandi insiemi di dati storici di qualsiasi tipo? Di solito, giustificano la loro ricerca facendo riferimento ad applicazioni industriali già esistenti – per esempio, sistemi di ricerca o di raccomandazione per contenuti online. Il presupposto generale è che l’informatica creerà algoritmi migliori e altre tecnologie informatiche utili all’industria, al governo, alle ONG e ad altre organizzazioni. L’analisi degli artefatti storici non rientra in questo obiettivo, e di conseguenza non molti informatici lavorano su dati storici (il campo del patrimonio digitale è un’eccezione).

Tuttavia, guardando molti esempi di questi articoli, è evidente che stiano effettivamente ponendo domande tipiche degli studi umanistici o dei media in relazione ai media digitali contemporanei – però usando dati più grandi per rispondere. Prendete, per esempio, i seguenti articoli: “Quantifying Visual Preferences around the World” e “What We Instagram: A First Analysis of Instagram Photo Content and User Types”. Il primo studio analizza le preferenze mondiali per il design dei siti web usando 2,4 milioni di valutazioni di quarantamila persone in 179 paesi. Lo studio dell’estetica e del design faceva parte tradizionalmente delle scienze umane. Il secondo studio analizza i soggetti più frequenti delle foto di Instagram – un argomento che può essere paragonato alle ricerche di storia dei generi artistici nella pittura olandese del XVII secolo.

Un ulteriore esempio è un influente articolo intitolato “What is Twitter, a Social Network or a News Media?”. Pubblicato nel 2010, da allora è stato citato 7480 volte. L’articolo descrive la prima analisi su larga scala del social network di Twitter utilizzando 106 milioni di tweet di 41,7 milioni di utenti. Gli autori hanno esaminato le trending topics, analizzando “in quali categorie sono classificate le trending topics, quanto durano e quanti utenti vi partecipano”. Tale ricerca può essere vista come un aggiornamento del classico lavoro nel campo della comunicazione che risale alle ricerche pionieristiche di Paul F. Lazarsfeld e dei suoi colleghi alla fine degli anni Trenta, che contarono manualmente gli argomenti delle trasmissioni radiofoniche. La grande differenza è che negli anni Trenta queste trasmissioni venivano prodotte da un piccolo numero di stazioni professionali e appartenevano a un ancor più piccolo numero di generi, mentre Twitter può avere numerosi argomenti con diversi livelli di generalità, durata temporale e copertura geografica. Allo stesso tempo, dato che Twitter e altri servizi di microblogging rappresentano una nuova forma di media – come la pittura a olio, i libri stampati e la fotografia prima di loro – la comprensione della particolarità di Twitter come mezzo può anche essere vista come un contributo alle scienze umane.

Facebook data center, Prineville, Oregon, 2019 – Jarik Jongman

IL “REGOLARE” CONTRO IL “PARTICOLARE”

Quando le scienze umane si occupavano di “piccoli dati”, cioè di contenuti creati da singoli autori o piccoli gruppi, la prospettiva sociologica era solo una delle tante opzioni interpretative – a meno che non si fosse un marxista. Ma quando cominciamo a studiare i contenuti e le attività online di milioni di persone, questa prospettiva diventa quasi inevitabile. Osservando i grandi dati culturali, il culturale e il sociale si sovrappongono strettamente. Grandi gruppi di persone di diversi paesi e background socioeconomici (prospettiva sociologica) creano, condividono e interagiscono con immagini, video e testi, e, quando lo fanno, operano certe scelte semantiche ed estetiche (prospettiva umanistica). A causa di tale sovrapposizione, i tipi di questioni indagate nella sociologia della cultura del XX secolo, come mostrato dal ricercatore più influente nel campo, Pierre Bourdieu, sono direttamente rilevanti per la cultural analytics.

Dato che le categorie demografiche sono ormai date per scontate quando pensiamo alla società, sembra oggi naturale raggruppare le persone in queste tassonomie e confrontarle in relazione a indicatori sociali, economici o culturali. Per esempio, il Pew Research Center riporta regolarmente le statistiche sull’uso delle piattaforme sociali popolari negli Stati Uniti, suddividendo il loro campione di utenti in categorie demografiche come genere, etnia, età, istruzione, reddito e luogo di residenza (urbano, suburbano e rurale). Se quindi ci si concentra sui tipi di contenuti e sui comportamenti dei social media, come i tipi di immagini condivise e a cui è stato messo “mi piace”, i filtri utilizzati o le pose dei selfie, è logico studiare le differenze di contenuto e di attività tra persone di diversi città e paesi, etnie, background socioeconomici, livelli di competenza tecnica, istruzione, e così via. La prima ondata di pubblicazioni importanti in ambito informatico nella seconda parte degli anni Duemila questo non l’ha fatto spesso, trattando tutti gli utenti dei social media come un unico pool di umanità indifferenziato. Tuttavia, più tardi alcune pubblicazioni hanno cominciato a suddividere gli utenti in gruppi demografici.

Anche se si tratta di un’ottima mossa, bisogna però fare attenzione. L’analisi umanistica dei fenomeni e dei processi culturali mediante metodi quantitativi non dovrebbe semplicemente ridursi alla sociologia – ossia a considerare le caratteristiche e i comportamenti comuni di gruppi umani definiti usando alcuni criteri scontati, come età, genere, reddito e istruzione. E dato che ora possiamo vedere quotidianamente le scelte culturali di milioni di individui su social network, è ancora necessario dividere le persone in gruppi socioeconomici e cercare le differenze tra le preferenze culturali e i comportamenti di tali gruppi? L’idea che un gruppo o una singola persona avessero comportamenti culturali e gusti coerenti aveva senso nelle società antiche e moderne, ovvero quando il gusto era governato da norme estetiche prescrittive (questa era la società di Kant e di Pierre Bourdieu). Ma con le numerose scelte culturali disponibili oggi, e la capacità di “votare” per questa o quella scelta con un semplice clic, potremmo scoprire che l’idea di un gusto stabile o di una “personalità culturale” stabile è solo un’illusione.

La tradizione sociologica si occupa di trovare e descrivere i modelli generali nel comportamento umano, piuttosto che di analizzare o prevedere i comportamenti di particolari individui. La cultural analytics è interessata anche ai modelli che possono essere derivati dall’analisi di grandi serie di dati culturali. Ma, idealmente, l’analisi dei più ampi modelli culturali dovrebbe anche condurci a particolari casi individuali – cioè ai singoli creatori e alle loro particolari creazioni o comportamenti culturali. (E come ho appena suggerito, un individuo può essere ulteriormente diviso in personalità separate con molti comportamenti e gusti culturali diversi.) Per esempio, l’analisi computazionale di tutti gli scatti fatti da una fotografa durante la sua lunga carriera può condurci agli outlier – le foto che sono più diverse da tutte le altre. Analogamente, possiamo analizzare milioni di immagini Instagram condivise in più città per scoprire le immagini uniche per ogni città e i fotografi locali più originali.

In altre parole, possiamo unire l’attenzione delle scienze sociali, e delle scienze in generale, per il generale e il regolare, e l’attenzione delle scienze umane per l’individuale e il particolare. Gli esempi appena descritti relativi all’analisi di grandi insiemi di dati culturali per individuare outlier unici è un modo semplice di farlo, ma non è l’unico.

LA SCIENZA DELLA CULTURA? LEGGI DETERMINISTICHE, MODELLI STATISTICI, SIMULAZIONE

L’obiettivo della scienza è spiegare i fenomeni e sviluppare modelli matematici compatti che descrivano il funzionamento di tali fenomeni. Le tre leggi della fisica di Newton sono un perfetto esempio di come la scienza classica si avvicini a questo obiettivo. Dalla metà del XIX secolo diversi nuovi settori scientifici hanno adottato un approccio differente, probabilistico, per descrivere la realtà fisica. Il primo esempio di tale nuovo approccio fu la distribuzione statistica che descriveva le probabili velocità delle particelle di gas, presentata dal fisico James Maxwell nel 1860 (ora viene chiamata la Distribuzione di Maxwell-Boltzmann).

E le scienze sociali? Durante il XVIII e il XIX secolo molti pensatori si aspettavano che, in modo simile alla fisica, le leggi quantitative che governavano le società alla fine sarebbero state trovate. Nel suo Essai sur l’application de l’analyse à la probabilité des décisions rendues à la pluralité des voix del 1785, il matematico francese Marie-Jean-Antoine-Nicolas de Caritat, marchese di Condorcet scrive: “Tutto ciò che è necessario per ridurre l’intera Natura a leggi simili a quelle che Newton ha scoperto con l’aiuto del calcolo, è avere un numero sufficiente di osservazioni e una matematica che sia abbastanza complessa”. Nel XIX secolo, il fondatore della sociologia Auguste Comte fa un’affermazione analoga nel Cours de philosophie positive (1830-1842): “Ora che la mente umana ha afferrato la fisica celeste e terrestre, la meccanica e la chimica, la fisica organica, sia vegetale che animale, rimane una sola scienza per riempire la serie delle scienze dell’osservazione – la fisica sociale”.

A ogni modo, questo non è mai successo in modo simile alla fisica classica. Il pensiero sociale del XIX secolo che più si avvicinò a postulare leggi oggettive furono le teorie di Karl Marx. Ma alla fine del xix secolo gli economisti mostrarono che la sua analisi era per lo più sbagliata, e i tentativi del XX secolo di creare nuove società modellate sulle sue teorie finirono tutti in un disastro. Quando invece le scienze sociali quantitative cominciarono a svilupparsi alla fine del XIX e all’inizio del XX secolo, esse adottarono anche un approccio probabilistico. Invece di cercare leggi deterministiche della società, gli scienziati sociali iniziarono a studiare le correlazioni tra caratteristiche misurabili e modellarono le relazioni tra variabili dipendenti e indipendenti usando varie tecniche statistiche.

Dopo i modelli deterministici e probabilistici nella scienza, il paradigma successivo fu la simulazione computazionale – l’esecuzione di modelli su computer per simulare il comportamento dei sistemi. La prima simulazione computerizzata su larga scala fu creata nel 1940 dal Manhattan Project al fine di riprodurre un’esplosione nucleare. In seguito la simulazione è stata adattata in molte scienze dure, e negli anni Novanta è stata utilizzata anche nelle scienze sociali. Le scienze umane del XX secolo sono rimaste lontane dalla ricerca di leggi fisiche della cultura o dalla modellazione probabilistica dei processi culturali. Anche se gli studi letterari, la storia dell’arte e, in seguito, gli studi sul cinema e sui media hanno descritto vari modelli semantici ed estetici nei corpora culturali che hanno esaminato, il conteggio della frequenza con cui tali modelli apparivano in tali corpora e l’interpretazione dei risultati non venivano considerati come qualcosa di cui gli umanisti avrebbero dovuto occuparsi. Quella manciata di persone che hanno prodotto tale analisi quantitativa sono state autentiche eccezioni (per esempio, Boris Jarkho in Russia negli anni Trenta o Barry Salt negli Stati Uniti negli anni Settanta).

L’esplosione dei contenuti culturali digitali e delle interazioni online mediate da software e network all’inizio del XXI secolo ha invece cambiato il funzionamento della cultura. Il volume di questi contenuti e le interazioni degli utenti ci permettono di pensare a una potenziale scienza della cultura. Per esempio, nell’estate del 2015 gli utenti di Facebook hanno condiviso quattrocento milioni di foto e hanno inviato quarantacinque miliardi di messaggi al giorno, e il numero di utenti mensili in tutto il mondo ha raggiunto i 2,5 miliardi alla fine del 2019. Questa scala è ancora molto più piccola di quella degli atomi e delle molecole; per esempio, 1 cm3 di acqua contiene 3,33 × 1022 molecole. Tuttavia, il numero di messaggi settimanali di Facebook è già più grande del numero di neuroni dell’intero sistema nervoso di un cervello di un adulto medio, stimato intorno ai cento miliardi.

Anche se l’idea di una scienza della cultura può terrorizzare alcuni lettori, non bisogna spaventarsi. Come ho spiegato, il concetto di scienza come insieme di leggi rigide è solo uno tra gli altri. Oggi la scienza include almeno tre diversi approcci fondamentali per studiare e comprendere i fenomeni: leggi deterministiche, modelli statistici (e probabilistici) e simulazione. Continuiamo il nostro esperimento di pensiero e chiediamoci quale di questi approcci sarà più utile per un’ipotetica scienza della cultura.

Guardando i documenti degli scienziati informatici che stanno studiando i set di dati dei social media, è chiaro che il loro approccio predefinito sia quello statistico/probabilistico. Essi caratterizzano i dati dei social media e il comportamento degli utenti in termini di probabilità. Spesso creano modelli statistici – equazioni matematiche che specificano le relazioni tra le variabili che possono essere descritte usando distribuzioni di probabilità piuttosto che valori specifici. Molti articoli pubblicati dopo il 2010 utilizzano anche il machine learning supervisionato – un paradigma utile allo scopo di insegnare a un computer a classificare o prevedere i valori di nuovi dati usando esempi già esistenti. Si noti che, in entrambi i casi, un modello può di solito descrivere o classificare correttamente solo alcuni dei dati e non tutti. Questo è tipico dell’approccio statistico.

Gli informatici usano le statistiche in modo diverso dagli scienziati sociali. Questi ultimi vogliono spiegare fenomeni sociali, economici o politici – per esempio, l’effetto del background familiare sul rendimento scolastico dei bambini. Gli scienziati informatici non si preoccupano generalmente di spiegare i modelli che scoprono nei social media o in altri dati culturali facendo riferimento a fattori sociali, economici o tecnologici esterni. Al contrario, di solito analizzano i fenomeni dei social media da soli oppure cercano di prevedere i fenomeni esterni usando le informazioni estratte dai dataset dei social media. Esempi del primo caso sono le misurazioni di rete delle connessioni tra amici in un social network, o un modello statistico che prevede gli effetti dell’uso dei filtri sul numero di visualizzazioni e commenti che una foto su Instagram può ricevere. Un esempio del secondo caso è invece il servizio Google Flu Trends, progettato per prevedere l’attività dell’influenza utilizzando una combinazione dei dati di ricerca di Google e dei dati ufficiali sull’influenza dello us Centers for Disease Control and Prevention (CDC).

La differenza tra leggi deterministiche e modelli non deterministici è che questi ultimi descrivono solo probabilità, non certezze. Le leggi della meccanica classica si applicano a qualsiasi oggetto macroscopico. Al contrario, un modello probabilistico per prevedere il numero di visualizzazioni e commenti per una foto di Instagram in funzione dell’uso del filtro non può prevedere esattamente questi numeri per qualsiasi particolare foto. Esso descrive solo la tendenza generale. Se quindi dobbiamo scegliere tra leggi deterministiche e modelli probabilistici per un’ipotetica scienza della cultura, il secondo approccio è migliore. Se invece iniziamo a postulare leggi deterministiche dell’attività culturale umana, cosa succede all’idea di libero arbitrio? Anche nel caso di comportamenti culturali apparentemente quasi automatici, come le foto sui social media di spiagge perfette o di hotel di lusso che ottengono dei “mi piace”, non vogliamo ridurre gli esseri umani ad automi meccanici che si comportano sempre allo stesso modo quando viene loro presentato uno stimolo appropriato.

L’attenzione attuale ai modelli probabilistici dell’attività online negli studi di informatica sui dati dei social media tralascia il terzo paradigma scientifico: la simulazione. In sociologia, in economia, nella teoria politica e in storia, la simulazione è già in uso da alcuni decenni, e recentemente anche alcuni studiosi di scienze umane digitali hanno mostrato interesse nell’adozione di questo paradigma.

Nel 2009, gli scienziati dell’IBM Research Almaden Center hanno simulato la corteccia visiva umana usando 1,6 miliardi di neuroni virtuali con nove bilioni di sinapsi. Alla luce di questo, perché non potremmo iniziare a pensare a come simulare, per esempio, tutti i contenuti condivisi ogni mese su Instagram? O tutti i contenuti condivisi da tutti gli utenti dei principali social network? Oppure, ancora più interessante, possiamo simulare l’evoluzione dei tipi di contenuti condivisi e delle strategie estetiche nel tempo?

Lo scopo di queste simulazioni non è quello di azzeccare tutto o di prevedere con precisione cosa la gente condividerà l’anno prossimo. Al contrario, possiamo seguire gli autori dell’influente volume Simulation for the Social Scientist, che affermano che uno degli scopi della simulazione è “ottenere una migliore comprensione di alcune caratteristiche del mondo sociale”, e che la simulazione può essere usata come “un metodo per lo sviluppo della teoria”. Poiché la simulazione al computer richiede lo sviluppo di un metodo esplicito e preciso di un fenomeno simulato, pensare a come i processi culturali possano essere simulati può aiutarci a sviluppare teorie più esplicite e dettagliate dei processi culturali.

E che dire dei big data? Rappresentano un nuovo paradigma nella scienza che ci permette di pensare e studiare i fenomeni in modo diverso? Nelle scienze naturali, l’impatto dei big data dipende da un particolare campo. Ma se si sta parlando di metodi e tecniche di ricerca, gli sviluppi nell’hardware dei computer negli anni Duemila, tra cui l’aumento della velocità della CPU e delle dimensioni della RAM e l’uso di GPU e cluster di calcolo, sono stati probabilmente più importanti della disponibilità di dataset più grandi. E anche se l’uso del machine learning supervisionato con grandi dataset di training ha ottenuto notevoli successi in alcuni casi, come si può vedere in applicazioni industriali come il riconoscimento e la sintesi vocale o la categorizzazione del contenuto delle immagini, il suo ruolo nelle scienze è più ambiguo. Se si suppone che l’obiettivo della scienza sia quello di fornire una spiegazione e un modello matematico di alcuni fenomeni naturali o biologici, l’esistenza di un sistema di machine learning efficace che possa classificare correttamente i nuovi input tendenzialmente non fornisce spiegazioni dei fenomeni.

Tuttavia i big data sono certamente di fondamentale importanza per lo studio della cultura. Ma la grandezza di questo impatto ha anche a che fare con il fatto che le scienze umane e la teoria dei media non hanno usato principi e metodi scientifici in precedenza. Così, insieme ai big data, le scienze umane stanno anche scoprendo come il pensiero e le metodologie scientifiche possano essere applicate alle loro discipline. E qui i concetti e i metodi di campionamento, l’estrazione di caratteristiche e l’analisi esplorativa dei dati sono ancora più importanti della dimensione dei dati.


Lev Manovich, professore al Graduate Center, City University of New York (CUNY), e direttore del Cultural Analytics Lab, è un pioniere della cultura digitale. Tra il 1991 e oggi ha pubblicato 15 libri che sono un riferimento obbligatorio per chiunque si occupi di semiotica dei media, media studies, filosofia della comunicazione e informatica. Nel 2014 è stato incluso nella lista delle “50 persone più interessanti che costruiscono il futuro”.

0 comments on “Cos’è la scienza della cultura

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *