L'iniziativa rBio di Chan Zuckerberg utilizza cellule virtuali per addestrare l'intelligenza artificiale, bypassando il lavoro di laboratorio

Vuoi ricevere informazioni più intelligenti nella tua casella di posta? Iscriviti alle nostre newsletter settimanali per ricevere solo ciò che conta per i leader aziendali in materia di intelligenza artificiale, dati e sicurezza. Iscriviti ora
La Chan Zuckerberg Initiative ha annunciato giovedì il lancio di rBio , il primo modello di intelligenza artificiale addestrato a ragionare sulla biologia cellulare utilizzando simulazioni virtuali anziché richiedere costosi esperimenti di laboratorio: una svolta che potrebbe accelerare notevolmente la ricerca biomedica e la scoperta di farmaci.
Il modello di ragionamento, descritto in dettaglio in un articolo di ricerca pubblicato su bioRxiv , illustra un nuovo approccio chiamato " verifica soft " che utilizza le previsioni dei modelli cellulari virtuali come segnali di addestramento, anziché basarsi esclusivamente sui dati sperimentali. Questo cambio di paradigma potrebbe aiutare i ricercatori a testare computazionalmente le ipotesi biologiche prima di dedicare tempo e risorse a costosi lavori di laboratorio.
"L'idea è di avere a disposizione questi modelli cellulari super potenti e di poterli utilizzare per simulare i risultati, anziché testarli sperimentalmente in laboratorio", ha affermato Ana-Maria Istrate, ricercatrice senior presso il CZI e autrice principale della ricerca, in un'intervista. "Finora il paradigma è stato che il 90% del lavoro in biologia viene testato sperimentalmente in laboratorio, mentre il 10% è computazionale. Con i modelli cellulari virtuali, vogliamo capovolgere questo paradigma".
L'annuncio rappresenta una pietra miliare significativa per l'ambizioso obiettivo di CZI di "curare, prevenire e gestire tutte le malattie entro la fine di questo secolo". Sotto la guida della pediatra Priscilla Chan e del CEO di Meta Mark Zuckerberg, l'iniziativa filantropica da 6 miliardi di dollari ha concentrato sempre più le sue risorse sull'intersezione tra intelligenza artificiale e biologia .
La scalabilità dell'intelligenza artificiale raggiunge i suoi limiti
Limiti di potenza, aumento dei costi dei token e ritardi nelle inferenze stanno rimodellando l'intelligenza artificiale aziendale. Partecipa al nostro esclusivo salone per scoprire come i migliori team stanno:
- Trasformare l'energia in un vantaggio strategico
- Progettazione di inferenze efficienti per reali guadagni di produttività
- Sbloccare il ROI competitivo con sistemi di intelligenza artificiale sostenibili
Assicurati il tuo posto per rimanere in vantaggio : https://bit.ly/4mwGngO
rBio affronta una sfida fondamentale nell'applicazione dell'intelligenza artificiale alla ricerca biologica. Mentre modelli linguistici di grandi dimensioni come ChatGPT eccellono nell'elaborazione del testo, i modelli di base biologici in genere lavorano con dati molecolari complessi che non possono essere facilmente interrogati in linguaggio naturale. Gli scienziati hanno faticato a colmare questo divario tra potenti modelli biologici e interfacce intuitive.
"I modelli fondamentali della biologia, come GREmLN e TranscriptFormer , si basano su modalità di dati biologici, il che significa che non è possibile interagire con essi in linguaggio naturale", ha spiegato Istrate. "Bisogna trovare modi complicati per sollecitarli".
Il nuovo modello risolve questo problema distillando le conoscenze acquisite da TranscriptFormer di CZI, un modello cellulare virtuale addestrato su 112 milioni di cellule provenienti da 12 specie che coprono 1,5 miliardi di anni di evoluzione, in un sistema di intelligenza artificiale conversazionale che i ricercatori possono interrogare in un inglese semplice.
L'innovazione fondamentale risiede nella metodologia di training di rBio . I modelli di ragionamento tradizionali apprendono da domande con risposte univoche, come le equazioni matematiche. Ma le domande biologiche implicano incertezza e risultati probabilistici che non rientrano perfettamente in categorie binarie.
Il team di ricerca di CZI, guidato dal Direttore Senior di AI Theofanis Karaletsos e da Istrate, ha superato questa sfida utilizzando l'apprendimento per rinforzo con ricompense proporzionali. Invece di una semplice verifica sì/no, il modello riceve ricompense proporzionali alla probabilità che le sue previsioni biologiche siano in linea con la realtà, come determinato da simulazioni cellulari virtuali.
"Abbiamo applicato nuovi metodi all'addestramento degli LLM", spiega l' articolo di ricerca . "Utilizzando un modello linguistico standard come struttura portante, il team ha addestrato rBio con l'apprendimento per rinforzo, una tecnica comune in cui il modello viene premiato per le risposte corrette. Ma invece di porre una serie di domande a risposta sì/no, i ricercatori hanno adattato le ricompense in proporzione alla probabilità che le risposte del modello fossero corrette".
Questo approccio consente agli scienziati di porre domande complesse come "La soppressione delle azioni del gene A determinerebbe un aumento dell'attività del gene B?" e di ricevere risposte scientificamente fondate sui cambiamenti cellulari, tra cui il passaggio da stati sani a stati patologici.
Nei test con il benchmark PerturbQA , un set di dati standard per la valutazione della previsione delle perturbazioni geniche, rBio ha dimostrato prestazioni competitive con modelli addestrati su dati sperimentali. Il sistema ha superato i modelli linguistici di base di grandi dimensioni e ha eguagliato le prestazioni dei modelli biologici specializzati in parametri chiave.
Particolarmente degno di nota è il fatto che rBio abbia dimostrato forti capacità di " apprendimento tramite trasferimento ", applicando con successo le conoscenze sui modelli di coespressione genica apprese da TranscriptFormer per fare previsioni accurate sugli effetti della perturbazione genica, un compito biologico completamente diverso.
"Dimostriamo che sul set di dati PerturbQA, i modelli addestrati utilizzando verificatori software imparano a generalizzare su linee cellulari fuori distribuzione, aggirando potenzialmente la necessità di addestrarsi su dati sperimentali specifici della linea cellulare", hanno scritto i ricercatori.
Grazie all'aggiunta di tecniche di stimolazione della catena di pensiero che incoraggiano il ragionamento passo dopo passo, rBio ha raggiunto prestazioni all'avanguardia, superando il precedente modello leader SUMMER .
L'annuncio di rBio arriva in un momento in cui CZI ha subito significativi cambiamenti organizzativi , riorientando i propri sforzi da un'ampia missione filantropica che includeva la giustizia sociale e la riforma dell'istruzione a un'enfasi più mirata sulla ricerca scientifica. Questo cambiamento ha suscitato critiche da parte di alcuni ex dipendenti e beneficiari che hanno visto l'organizzazione abbandonare le cause progressiste.
Tuttavia, per Istrate, che lavora al CZI da sei anni, l'attenzione all'intelligenza artificiale biologica rappresenta una naturale evoluzione di priorità consolidate. "La mia esperienza e il mio lavoro non sono cambiati molto. Faccio parte dell'iniziativa scientifica da quando sono al CZI", ha affermato.
L'attenzione rivolta ai modelli cellulari virtuali si basa su quasi un decennio di lavoro fondamentale. CZI ha investito molto nella creazione di atlanti cellulari – database completi che mostrano quali geni sono attivi nei diversi tipi di cellule in tutte le specie – e nello sviluppo dell'infrastruttura computazionale necessaria per addestrare modelli biologici di grandi dimensioni.
"Sono davvero entusiasta del lavoro che viene svolto presso CZI ormai da anni, perché ci siamo preparati a questo momento", ha osservato Istrate, riferendosi ai precedenti investimenti dell'organizzazione in piattaforme dati e trascrittomica a cellula singola.
Un vantaggio fondamentale dell'approccio di CZI deriva da anni di attenta selezione dei dati. L'organizzazione gestisce CZ CELLxGENE , uno dei più grandi archivi di dati biologici monocellulari, dove le informazioni sono sottoposte a rigorosi processi di controllo qualità.
"Abbiamo generato alcuni degli atlanti iniziali di dati di punta per la trascrittomica, tenendo conto della diversità per ridurre al minimo i pregiudizi in termini di tipi di cellule, ascendenza, tessuti e donatori", ha spiegato Istrate.
Questa attenzione alla qualità dei dati diventa cruciale quando si addestrano modelli di intelligenza artificiale che potrebbero influenzare le decisioni mediche. A differenza di alcuni progetti di intelligenza artificiale commerciale che si basano su set di dati pubblicamente disponibili ma potenzialmente distorti, i modelli di CZI beneficiano di dati biologici attentamente selezionati, progettati per rappresentare diverse popolazioni e tipi cellulari.
L'impegno di CZI nello sviluppo open source la distingue dai concorrenti commerciali come Google DeepMind e dalle aziende farmaceutiche che sviluppano strumenti di intelligenza artificiale proprietari. Tutti i modelli CZI, incluso rBio, sono disponibili gratuitamente tramite la Virtual Cell Platform dell'organizzazione, completa di tutorial eseguibili sui notebook gratuiti di Google Colab.
"Penso che l'open source sia molto importante, perché è un valore fondamentale che abbiamo fin dalla fondazione di CZI", ha affermato Istrate. "Uno degli obiettivi principali del nostro lavoro è accelerare la scienza. Quindi, tutto ciò che facciamo è rendere il software open source esclusivamente per questo scopo".
Questa strategia mira a democratizzare l'accesso a sofisticati strumenti di intelligenza artificiale biologica, potenzialmente a vantaggio di istituti di ricerca più piccoli e startup che non dispongono delle risorse necessarie per sviluppare tali modelli in modo indipendente. L'approccio riflette la missione filantropica di CZI, creando al contempo effetti di rete che potrebbero accelerare il progresso scientifico.
Le potenziali applicazioni vanno ben oltre la ricerca accademica. Consentendo agli scienziati di testare rapidamente ipotesi sulle interazioni geniche e sulle risposte cellulari, rBio potrebbe accelerare significativamente le fasi iniziali della scoperta di nuovi farmaci, un processo che in genere richiede decenni e costa miliardi di dollari.
La capacità del modello di prevedere in che modo le perturbazioni genetiche influenzano il comportamento cellulare potrebbe rivelarsi particolarmente preziosa per comprendere malattie neurodegenerative come l'Alzheimer, in cui i ricercatori devono identificare in che modo specifici cambiamenti genetici contribuiscono alla progressione della malattia.
"Le risposte a queste domande possono plasmare la nostra comprensione delle interazioni genetiche che contribuiscono a malattie neurodegenerative come l'Alzheimer", osserva lo studio. "Tale conoscenza potrebbe portare a interventi più precoci, forse arrestando del tutto queste malattie un giorno".
rBio rappresenta il primo passo nella visione più ampia di CZI di creare "modelli cellulari virtuali universali" che integrino conoscenze provenienti da più domini biologici. Attualmente, i ricercatori devono lavorare con modelli separati per diverse tipologie di dati biologici – trascrittomica, proteomica, imaging – senza disporre di metodi semplici per combinare le conoscenze acquisite.
"Una delle nostre grandi sfide è costruire questi modelli cellulari virtuali e comprendere le cellule, come ho detto nei prossimi due anni, come integrare le conoscenze provenienti da tutti questi potentissimi modelli di biologia", ha detto Istrate. "La sfida principale è: come integrare tutte queste conoscenze in un unico spazio?"
I ricercatori hanno dimostrato questa capacità di integrazione addestrando modelli rBio che combinano più fonti di verifica: TranscriptFormer per i dati di espressione genica, reti neurali specializzate per la previsione delle perturbazioni e database di conoscenza come Gene Ontology . Questi modelli combinati hanno superato significativamente gli approcci a singola fonte.
Nonostante le sue prestazioni promettenti, rBio deve affrontare diverse sfide tecniche. L'attuale competenza del modello si concentra principalmente sulla previsione delle perturbazioni geniche, sebbene i ricercatori indichino che qualsiasi dominio biologico coperto da TranscriptFormer potrebbe teoricamente essere incorporato.
Il team continua a lavorare per migliorare l'esperienza utente e implementare misure di sicurezza appropriate per impedire al modello di fornire risposte al di fuori della sua area di competenza, una sfida comune nell'implementazione di modelli linguistici di grandi dimensioni per domini specializzati.
"Mentre rBio è pronto per la ricerca, il team di ingegneri del modello continua a migliorare l'esperienza utente, perché la risoluzione flessibile dei problemi che rende conversazionali i modelli di ragionamento pone anche una serie di sfide", spiega il documento di ricerca.
Lo sviluppo della rBio avviene nel contesto di una crescente competizione nella scoperta di farmaci basata sull'intelligenza artificiale. Le principali aziende farmaceutiche e tecnologiche stanno investendo miliardi nelle capacità di intelligenza artificiale biologica, riconoscendone il potenziale per trasformare il modo in cui i farmaci vengono scoperti e sviluppati.
L'approccio open source di CZI potrebbe accelerare questa trasformazione rendendo strumenti sofisticati accessibili a una più ampia comunità di ricerca. Ricercatori accademici, startup biotecnologiche e persino aziende farmaceutiche affermate possono ora accedere a funzionalità che altrimenti richiederebbero notevoli sforzi interni di sviluppo dell'intelligenza artificiale.
La tempistica si rivela significativa, poiché l'amministrazione Trump ha proposto tagli sostanziali al bilancio dei National Institutes of Health, potenzialmente a rischio per i finanziamenti pubblici destinati alla ricerca biomedica. Il continuo investimento di CZI nelle infrastrutture di intelligenza artificiale biologica potrebbe contribuire a mantenere lo slancio della ricerca durante i periodi di ridotto sostegno governativo.
Il lancio di rBio segna più di un'ulteriore svolta nell'intelligenza artificiale: rappresenta un cambiamento fondamentale nel modo in cui la ricerca biologica può essere condotta. Dimostrando che le simulazioni virtuali possono addestrare modelli con la stessa efficacia dei costosi esperimenti di laboratorio, CZI ha aperto la strada ai ricercatori di tutto il mondo per accelerare il loro lavoro senza i tradizionali vincoli di tempo, denaro e risorse fisiche.
Mentre CZI si prepara a rendere rBio disponibile gratuitamente attraverso la sua Virtual Cell Platform, l'organizzazione continua ad ampliare le sue capacità di intelligenza artificiale biologica con modelli come GREmLN per la rilevazione del cancro e il lavoro in corso sulle tecnologie di imaging. Il successo dell'approccio di verifica soft potrebbe influenzare il modo in cui altre organizzazioni addestrano l'intelligenza artificiale per applicazioni scientifiche, riducendo potenzialmente la dipendenza dai dati sperimentali pur mantenendo il rigore scientifico.
Per un'organizzazione nata con l'audace obiettivo di curare tutte le malattie entro la fine del secolo, rBio offre qualcosa che è sfuggito a lungo ai ricercatori medici: un modo per porre le domande più difficili della biologia e ottenere risposte scientificamente fondate nel tempo necessario per scrivere una frase. In un campo in cui il progresso è stato tradizionalmente misurato in decenni, questo tipo di velocità potrebbe fare la differenza tra malattie che definiscono generazioni e malattie che diventano ricordi lontani.
Se vuoi fare colpo sul tuo capo, VB Daily ha la soluzione che fa per te. Ti forniamo informazioni privilegiate su ciò che le aziende stanno facendo con l'intelligenza artificiale generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere approfondimenti per massimizzare il ROI.
Leggi la nostra Informativa sulla privacy
Grazie per esserti iscritto. Scopri altre newsletter di VB qui .
Si è verificato un errore.

venturebeat