Salta al contenuto principale
Data notizia
Immagine
Image
Gruppo ricerca DEVIL
Testo notizia

Dieci milioni di cellule analizzate in meno di due ore, con un consumo di memoria circa tre volte inferiore rispetto ai migliori strumenti esistenti e una velocità fino a quaranta volte superiore sui dataset più grandi rispetto ai migliori strumenti esistenti. È questo lo straordinario risultato ottenuto da un gruppo di ricercatori dell’Università degli Studi di Trieste e di Area Science Park, della SISSA e dello Human Technopole che ha sviluppato DEVIL (Differential Expression with Variational Inference Learning), un nuovo strumento di calcolo ad altissime prestazioni. Il lavoro è stato pubblicato su Nature Communications

Capire quali geni sono attivi nelle cellule è una delle chiavi per comprendere le malattie e sviluppare nuove terapie. Oggi le tecnologie più avanzate consentono di misurare l’attività genica in milioni di cellule provenienti da decine o centinaia di pazienti, generando una quantità di dati senza precedenti per la ricerca biomedica. Questa rivoluzione porta però con sé due grandi questioni: da un lato il rischio di errori nell’interpretazione dei dati, dall’altro la difficoltà di analizzare volumi così elevati di informazioni.  

La prima sfida è computazionale: analizzare milioni di cellule richiede una potenza di calcolo enorme. I metodi tradizionali sono troppo lenti e consumano troppa memoria per gestire questi volumi: un collo di bottiglia che rischia di vanificare il vantaggio delle nuove tecnologie di raccolta dati. La seconda sfida è statistica. Le cellule prelevate dallo stesso paziente si somigliano tra loro più di quanto si somiglino le cellule di pazienti diversi perché condividono la stessa biologia individuale, lo stesso ambiente e le stesse caratteristiche individuali. Ignorare questo fatto — come fanno molti degli strumenti attualmente in uso — può portare a conclusioni statistiche distorte, con il rischio di identificare come "significativi" cambiamenti cellulari che in realtà non lo sono, o viceversa di perderne di reali.  

Per tentare di risolvere i due problemi, i ricercatori, grazie a DEVIL, sono riusciti a unire in modo inedito il rigore statistico con la rapidità di calcolo. Sul piano computazionale, DEVIL, che è stato sviluppato anche grazie al sostegno di Fondazione AIRC, è stato progettato per sfruttare in modo efficiente le più moderne architetture di calcolo parallelo tipiche dell’intelligenza artificiale. Inoltre, DEVIL non è solo più rapido, ma utilizza anche meno memoria, un dettaglio non da poco. Infatti, questo significa che analisi prima riservate ai grandi centri di calcolo, diventano ora accessibili ad infrastrutture e a laboratori di ricerca più piccoli. Sul piano statistico, DEVIL risolve il problema con un approccio bayesiano che tiene correttamente conto della struttura dei dati, trattando le cellule di uno stesso paziente come correlate, separando quindi le differenze tra pazienti dalle vere differenze nell’attività cellulare.  

“Questo lavoro non sarebbe stato possibile senza ORFEO, il data center di Area Science Park, recentemente potenziato grazie ai fondi del PNRR – sottolinea Stefano Cozzini, Direttore Istituto Ricerca e Innovazione Tecnologica di Area. La disponibilità di GPU di ultima generazione, caratterizzate da prestazioni di calcolo estremamente elevate, insieme a un’attenta ottimizzazione degli algoritmi su questa architettura, sviluppata dal nostro team, permette ora di usare DEVIL  per affrontare e risolvere problemi su una scala significativamente più ampia. La soddisfazione è grande: non è frequente poter contare su una squadra di così elevata competenza, capace di valorizzare al meglio le risorse acquisite.”. 

”La differential expression, cioè l'analisi statistica che identifica quali geni sono significativamente più o meno attivi tra due o più condizioni biologiche diverse - spiega Giulio Caravagna dell’Università di Trieste - è una tecnologia matura. Tuttavia, il passaggio al single-cell ha introdotto problemi statistici e computazionali che rendono complessa l’analisi integrata di grandi coorti di pazienti. Il nostro lavoro nasce proprio per risolvere questo collo di bottiglia, combinando innovazione metodologica e calcolo ad alte prestazioni per scalare alla possibilità di analizzare milioni di cellule da centinaia di pazienti”. 

“Nello sviluppo di DEVIL, la sinergia di strumenti statistici classici e bayesiani rappresenta un fiore all’occhiello nel panorama della letteratura oncologica di riferimento – sottolinea Leonardo Egidi dell’Università di Trieste – e rende DEVIL un protocollo computazionale efficiente e dalla forte caratterizzazione metodologica. Sviluppi futuri potrebbero coinvolgere modelli spazio-temporali per più pazienti e apportare ulteriori approssimazioni di calcolo basate su alcune proprietà teoriche attualmente oggetto di studio: un bel mix di competenze statistiche, informatiche e biologiche”. 

DEVIL è stato testato su due casi biologici concreti. Nel primo, dedicato all’identificazione di cellule del sistema immunitario, lo strumento si è dimostrato più preciso e specifico nel riconoscere le funzioni biologiche rilevanti. Nel secondo, relativo all’invecchiamento del tessuto muscolare umano, ha individuato in modo più stabile e biologicamente fondato i cambiamenti trascrizionali legati all’età, riducendo il rumore e mettendo in evidenza i processi chiave per le analisi successive. 

DEVIL è stato rilasciato come software libero e gratuito, a disposizione di laboratori e ospedali di tutto il mondo, aprendo la strada a una nuova generazione di analisi genomiche su larga scala per lo studio dei tumori, delle malattie degenerative e per lo sviluppo della medicina personalizzata.