di Marco Marcia (EMBL, Grenoble) e Martino Bolognesi (Società Italiana di Biochimica e Biologia Molecolare – SIB).
Gran parte delle proteine adotta una struttura tridimensionale (3D) definita, necessaria per svolgere la loro funzione cellulare. In vivo, la catena polipeptidica delle proteine si ripiega spontaneamente in tale struttura 3D in un processo noto come ‘protein folding’. Determinare con precisione atomica la struttura 3D delle proteine è fondamentale per identificarne le regioni funzionali, capirne i meccanismi di azione, modificarla se necessario, progettare e indirizzare nuovi farmaci.
Oltre 60 anni di biologia strutturale tra esperimenti e predizioni.
Determinare le strutture tridimensionali delle proteine è stato un obiettivo della comunità scientifica fin dalla metà del secolo scorso. Fino ad oggi, gli unici approcci sperimentali per risolvere le strutture proteiche (a risoluzione atomica o quasi) sono stati la cristallografia ai raggi X, la microscopia elettronica (cryoEM) e la risonanza magnetica nucleare (NMR); in ogni caso, metodi che richiedono la disponibilità di apparecchiature molto costose e anche di produrre milligrammi di proteine ad altissimi livelli di purezza e strumentazioni molto sofisticate. Grazie a questi approcci, la biologia strutturale ha prodotto ad oggi circa 170.000 strutture 3D di proteine catalogate e accessibili tramite il database Protein Data Bank (PDB). Considerato il notevole impegno sperimentale posto da queste metodologie, fin dai primi anni ‘70 i ricercatori si sono posti l’obiettivo di predire attraverso approcci computazionali la struttura 3D delle proteine a partire dalla loro sequenza aminoacidica, in pratica, simulare il “protein folding” in silico. Una sfida rimasta incompiuta fino ad oggi per l’eccezionale complessità del problema.
Il nuovo rivoluzionario contributo degli algoritmi di Intelligenza Artificiale.
La sfida è stata vinta nel novembre 2020, quando un software di Intelligenza Artificiale chiamato AlphaFold, allenato usando le strutture 3D sperimentali, e sviluppato da DeepMind, un ramo della società Alphabet legata a Google, era riuscito a predire per la prima volta le strutture di alcune proteine in modo accurato (con un errore medio lungo l’intera catena aminoacidica dell’ordine di 1 Å). Giovedi 22 luglio 2021, come riportato dalla rivista Nature, DeepMind ha reso disponibili a tutta la comunità scientifica l’algoritmo AlphaFold assieme alle predizioni delle strutture 3D di quasi tutti i componenti del proteoma umano e di 20 altri organismi, per un totale di 380.000 proteine. Si tratta di una conquista epocale per le Scienze della Vita, paragonabile a quanto raggiunto con il sequenziamento del genoma umano vent’anni fa.
Una predizione per tutte le proteine, a disposizione dell’umanità.
Le risorse e le infrastrutture necessarie per condividere l’incredibile mole di dati generata da AlphaFold sono state messe a disposizione dal Laboratorio Europeo di Biologia Molecolare (EMBL) tramite la sua sede inglese, l’Istituto Europeo di Bioinformatica (EMBL-EBI), che in collaborazione con DeepMind ha creato l’AlphaFold Protein Structure Database, un database completamente aperto e gratuito, tramite il quale chiunque può visualizzare, scaricare, e utilizzare le predizioni strutturali delle proteine di interesse. Nonostante la notevole dimensione attuale, il database AlphaFold sembra essere solo il germoglio di una risorsa destinata ad aumentare esponenzialmente di volume già nei prossimi mesi, quando le predizioni strutturali di tutte le proteine conosciute saranno rese disponibili, per un totale stimato di 130 milioni di strutture 3D.
Una risorsa con enormi potenzialità e alcuni limiti.
L’AlphaFold Protein Structure Database costituisce (e costituirà in futuro) una risorsa unica, rivoluzionaria, impensabile fino a pochi mesi fa, e punto di partenza per sviluppi futuri, molti dei quali forse difficili da prevedere oggi. Sicuramente potrà aiutare o sostituire già da ora approcci sperimentali all’analisi delle strutture 3D di proteine isolate, fornendo le basi per lo studio di meccanismi molecolari (enzimatici, di riconoscimento, ecc), per applicazioni biotecnologiche, per accelerare la progettazione di farmaci, e per tutta una serie di studi di base legati alla dinamica molecolare. Allo stesso modo, i bioingegneri e gli esperti di scienze dei materiali potranno essere facilitati nella progettazione di proteine artificiali, con nuove funzionalità di interesse industriale, ambientale, o agro-alimentare. Insomma, i prossimi mesi e anni vedranno un’importante accelerazione delle scoperte nei campi della biotecnologia, della medicina, e in generale delle scienze della vita e dell’ambiente.
Al momento, le predizioni strutturali di AlphaFold presentano alcuni limiti, in aree che necessariamente richiedono approcci sperimentali. Ad esempio, non è ancora possibile predire accuratamente come le proteine si assemblino tra loro, e soprattutto con il DNA o l’RNA, per formare complessi molecolari. Anche analizzare il modo in cui le proteine legano piccole molecole, come i cofattori o i farmaci, rimane dominio degli studi sperimentali, per quanto le strutture 3D di AlphaFold potranno indirizzare e facilitare la sperimentazione (docking in silico). Le proteine poi sono altamente dinamiche, e alcune presentano estese regioni prive di struttura ordinata, spesso destinata a strutturarsi nell’interazione con un partner molecolare. Le predizioni di AlphaFold rappresentano con accuratezza le strutture secondarie e terziarie, ma non possono descrivere le regioni intrinsecamente disordinate. Sono queste alcune delle future sfide per DeepMind, e in generale per la comunità di biologi strutturali e computazionali.
La scienza contemporanea, supportata da strumenti di lavoro sempre più sofisticati, procede con accelerazioni crescenti. È significativo che, a soli sei anni dalla “resolution revolution” nella cryoEM, AlphaFold entri come potente ramo di indagine nella Biologia Strutturale. Si può prevedere che, già nei prossimi mesi, l’approccio AlphaFold troverà enorme diffusione nei centri di ricerca legati allo studio (di base o applicativo) delle proteine e del loro ruolo nella cellula e nell’organismo. Un vero “salto quantico” nello sviluppo delle Scienze della Vita.
Riferimenti bibliografici e link utili.
Laboratorio europeo di biologia molecolre (EMBL).