Le macchine potranno avere idee migliori di noi grazie al metodo baconiano e sostituirci nella ricerca scientifica?


(Questo testo è la traduzione italiana di un articolo precedentemente uscito su Aeon sotto licenza Creative Commons)

di Ahmed Alkhateeb

Il dovere di chi studia i testi degli scienziati, se il suo obiettivo è quello di apprendere la verità, è di essere il nemico di tutto ciò che legge, e di attaccarlo da ogni punto di vista. Egli, mentre compie questo esame critico, deve anche sospettare di se stesso, in modo da evitare di cadere nei pregiudizi o nell’indulgenza.

– Ibn al-Haytham (965-1040 d.C.)

La scienza è nel bel mezzo di una crisi quantitativa. L’anno scorso ci sono stati più di 1,2 milioni di nuovi articoli pubblicati all’interno delle sole scienze biomediche e il numero totale degli articoli peer-reviewed (cioè valutati da specialisti) pubblicati in questo settore arriva a oltre 26 milioni. Tuttavia lo scienziato medio legge circa 250 documenti all’anno. Nel frattempo, la qualità della letteratura scientifica è in declino. Alcuni recenti studi hanno scoperto che la maggior parte delle osservazioni riportate nei papers biomedici erano irriproducibili.

La doppia problematica di un’eccessiva quantità da un parte e una scarsa qualità dall’altra è fondata nelle limitate capacità della mente umana. Gli scienziati derivano le loro ipotesi da una frazione sempre più piccola della conoscenza collettiva, e, di conseguenza, fanno sempre più domande sbagliate, o rispondono a quesiti cui è già stata data una risposta. Inoltre, la creatività umana sembra dipendere sempre più dalla stocasticità delle precedenti esperienze – eventi particolari della propria vita che permettono a un ricercatore di notare qualcosa che gli altri non hanno percepito. Anche se il caso è sempre stato un fattore determinante nella scoperta scientifica, attualmente gioca un ruolo molto più influente di quanto dovrebbe.

Una strategia promettente per superare questa crisi è di integrare le macchine e l’intelligenza artificiale nel processo scientifico. Le macchine possiedono infatti una maggiore memoria e capacità computazionale rispetto al cervello umano. L’automazione del processo scientifico permetterebbe di aumentare notevolmente il tasso di scoperte; potrebbe persino dare vita a un’altra rivoluzione scientifica. Questa enorme possibilità si basa su una questione altrettanto enorme: la scoperta scientifica può davvero essere automatizzata?

Io credo che possa esserlo, seguendo un approccio che conosciamo da secoli. La risposta a questa domanda si può trovare già nel lavoro di Francesco Bacone, filosofo inglese del 17° secolo e progenitore della scienza moderna.

Le prime reiterazioni del metodo scientifico possono esser fatte risalire a molti secoli prima, a pensatori musulmani come Ibn al-Haytham, che ha sottolineato l’importanza sia dell’empirismo che della sperimentazione. Tuttavia è stato Bacone a formalizzare per primo il metodo scientifico e a farne un oggetto di studio. Nel suo Novum Organum (1620), ha proposto un modello che è ancora noto come metodo baconiano. Lo ha sostenuto in contrasto alla logica sillogistica, che considerava inaffidabile. Ha proposto un approccio in cui le osservazioni pertinenti attorno a un fenomeno specifico sono sistematicamente raccolte, tabulate e oggettivamente analizzate utilizzando la logica induttiva, allo scopo di produrre delle idee generalizzabili. A suo avviso, la verità può essere scoperta solo quando la mente è libera da assiomi incompleti (e dunque falsi).

Il metodo baconiano ha tentato di rimuovere i preconcetti logici dal processo di osservazione e concettualizzazione, delineando le varie fasi della sintesi scientifica e ottimizzandole separatamente. Il desiderio di Bacone era di utilizzare una comunità di osservatori per raccogliere grandi quantità di dati sulla natura, da catalogare in un registro centrale, accessibile all’analisi induttiva. Nel Novum Organum, ha scritto: “Gli empiristi sono come le formiche; accumulano e utilizzano. I razionalisti tessono come ragni. Il metodo migliore è piuttosto quello delle api; una via di mezzo, che consiste nel prendere il materiale esistente e utilizzarlo”.

Il metodo baconiano oggi non è molto utilizzato. Si è dimostrato troppo laborioso e costoso; le sue applicazioni tecnologiche sono poco chiare. All’epoca del suo sviluppo tuttavia, la formalizzazione di un metodo scientifico segnò un progresso rivoluzionario. Prima la scienza era metafisica, accessibile solo a pochi dotti, per lo più di nobili natali. Rifiutando l’autorità degli antichi greci e delineando le fasi di una scoperta, Bacone ha creato un progetto che permette a chiunque, a prescindere dalle origini e dal contesto, di diventare uno scienziato.

Le intuizioni di Bacone hanno anche rivelato un’importante verità: il processo di scoperta è intrinsecamente algoritmico. È il risultato di un numero finito di passi che si ripetono fino a quando viene scoperto un risultato significativo. Bacone ha usato esplicitamente la parola “macchina” nel descrivere il suo metodo. Il suo algoritmo scientifico ha tre componenti essenziali: in primo luogo, le osservazioni devono essere raccolte e integrate nel corpus totale della conoscenza. In secondo luogo, le nuove osservazioni sono utilizzate per generare nuove ipotesi. In terzo luogo, le ipotesi sono testate attraverso degli esperimenti ben progettati.

Se la scienza è algoritmica, è anche potenzialmente automatizzabile. Questo sogno futuristico ha eluso informatici e scienziati della comunicazione per decenni, per lo più perché le tre fasi principali della scoperta scientifica occupano dei piani diversi. L’osservazione è legata ai sensi; la generazione di ipotesi è mentale; la sperimentazione è meccanica. L’automatizzazione del processo scientifico richiede l’incorporazione delle macchine in ogni fase, in modo che si alimentino l’un l’altra senza attriti. Nessuno ha ancora capito come fare.

Recentemente la sperimentazione ha visto progressi più sostanziali. Ad esempio, l’industria farmaceutica utilizza piattaforme automatizzate per la progettazione di nuovi farmaci. Startup come Transcriptic ed Emerald cloud Lab, in California, stanno sviluppando dei sistemi per automatizzare quasi ogni compito pratico degli scienziati biomedici. Gli scienziati possono presentare i loro esperimenti on-line, dove vengono convertiti in codice e inseriti in piattaforme robotiche che svolgono una serie di esperimenti biologici. Queste soluzioni sono più adatte a discipline che richiedono una sperimentazione intensiva, come la biologia molecolare e l’ingegneria chimica, ma dei metodi analoghi possono essere applicati in altri settori in cui i dati rivestono un ruolo importante, o venire persino estese a discipline teoriche.

La generazione automatica di ipotesi non è così avanti nella sperimentazione, ma nel 1980 il lavoro di Don Swanson ha rappresentato un importante passo avanti. Ha dimostrato l’esistenza di legami nascosti tra idee non correlate all’interno della letteratura scientifica; utilizzando un semplice quadro logico deduttivo, ha collegato i documenti provenienti da diversi settori privi di sovrapposizioni testuali. In questo modo, Swanson era in grado di ipotizzare un nuovo legame tra una dieta a base di olio di pesce e la sindrome di Reynaud, senza condurre alcun esperimento e senza essere un esperto di entrambi i campi. Altri approcci più recenti, come quelli di Andrey Rzhetsky presso l’Università di Chicago e di Albert-László Barabási presso la Northeastern University, si basano su modelli matematici e sulla teoria dei grafi. Incorporano grandi serie di dati, in cui la conoscenza è rappresentata come una rete i cui i nodi sono concetti e i collegamenti relazioni tra di loro. Le nuove ipotesi non sarebbero altro che dei collegamenti precedentemente ignoti tra i nodi.

Il passo più difficile nel processo di automazione è raccogliere su larga scala le osservazioni scientifiche affidabili. Non esiste attualmente una banca dati centrale che contiene tutta la conoscenza scientifica dell’umanità a livello osservazionale. Lo studio dell’elaborazione del linguaggio naturale è arrivato al punto di poter estrarre automaticamente dai testi scientifici sia i rapporti che i contesti in cui il materiale scientifico viene prodotto. Tuttavia, i principali editori scientifici hanno posto severe restrizioni al data mining. Inoltre i testi dei documenti sono spesso sbilanciati e contengono pregiudizi (o malintesi) degli scienziati che li stilano, oltre a contenere, in forma sintetica, complessi concetti e metodologie che sono difficili da estrarre e quantificare.

Tuttavia, i recenti progressi nel campo dell’informatica e delle banche dati rendono attuabile il metodo baconiano per la prima volta nella storia. E anche prima di poter automatizzare la scoperta scientifica, l’approccio di Bacone potrebbe rivelarsi prezioso, in un momento in cui il mero riduzionismo sta raggiungendo il limite della sua utilità.

Nell’era dei Big Data, le menti umane non possono trattare in  modo efficiente dei fenomeni naturali molto complessi. Un metodo baconiano moderno, che incorpori idee riduzioniste attraverso il data-mining, ma che poi analizzi le informazioni tramite modelli computazionali induttivi, potrebbe trasformare la nostra comprensione del mondo naturale. Tale approccio ci permetterebbe di generare nuove ipotesi che hanno maggiori probabilità di dimostrarsi veritiere, di testare queste ipotesi e di colmare le nostre lacune conoscitive. Ci aiuterebbe anche a ricordare quel che dovrebbe essere la scienza: una ricerca della verità anti-autoritaria, e senza limiti.


Ahmed Alkhateeb è biologo molecolare presso la Harvard Medical School. Il suo lavoro su concentra sullo sviluppo di piattaforme analitiche per il miglioramento dell’efficienza delle discipline biomediche.
Traduzione di Francesco D’Isa.
Immagine di copertina: Carlo Maria Mariani, Quadro mutilato2003, olio su tela, courtesy Pananti.

Aeon counter – do not remove