L’Occhio dell’IA che Svela i Segreti Nascosti nelle Cellule Staminali: A Caccia di Strutture “Rod/Ring”
Amici scienziati e appassionati di biologia, quante volte ci siamo trovati di fronte a un mare di immagini al microscopio, sapendo che lì dentro si nascondono risposte cruciali, ma sentendoci sopraffatti dalla mole di dati da analizzare? Beh, oggi voglio raccontarvi di come, nel nostro piccolo, abbiamo cercato di domare questa complessità, tuffandoci nel mondo affascinante delle cellule staminali embrionali di topo e di certe loro bizzarre strutture interne.
Parliamo dell’IMPDH2, un enzima che è un po’ il direttore d’orchestra nella produzione di mattoncini fondamentali per la vita della cellula, i nucleotidi guaninici. Questo enzima non se ne sta sempre buono e tranquillo, distribuito omogeneamente nel citoplasma. A volte, decide di fare gruppo, aggregandosi in complesse strutture macromolecolari che assomigliano a dei bastoncini (rod) o degli anelli (ring). E non pensiate sia una cosa rara: queste formazioni, che chiameremo RR, sono state avvistate in un sacco di organismi, dal lievito di birra fino ai neuroni dei ratti, passando per le cellule tumorali umane. Un vero e proprio club esclusivo di enzimi metabolici, visto che a volte anche altri giocatori come CTPS1 si uniscono alla festa.
Il Mistero delle Strutture Rod/Ring e la Sfida della Quantificazione
Ora, la domanda da un milione di dollari è: perché l’IMPDH2 e i suoi colleghi si mettono a fare queste capriole strutturali? L’ipotesi è che questa organizzazione possa servire a regolare finemente l’attività enzimatica. Ma per capirlo, dobbiamo poterle studiare, classificarle e, soprattutto, contarle. E qui casca l’asino. Nelle cellule staminali embrionali di topo, il nostro modello di studio preferito, la situazione è particolarmente interessante: quando le cellule sono “giovani” e pluripotenti, l’IMPDH2 ama formare queste strutture RR. Ma quando iniziano a differenziarsi, a specializzarsi, puff! Le strutture si disgregano e l’enzima torna a sparpagliarsi.
Analizzare qualche singola struttura RR è fattibile, magari con un po’ di pazienza e qualche software di analisi d’immagine base come ImageJ/FIJI. Ma quando in un singolo campo visivo te ne trovi decine, se non centinaia (guardate la Figura 1 del paper originale, è impressionante!), la conta manuale diventa un incubo, un lavoro da certosino che ti porta via giornate intere per ottenere dati statisticamente significativi. E non basta contarle, dovremmo anche distinguere i “bastoncini” dagli “anelli”, perché potrebbero avere ruoli biologici diversi. Insomma, avevamo un disperato bisogno di un aiuto tecnologico.
Ci serviva uno strumento che fosse:
- Preciso: capace di identificare rod e ring con accuratezza, anche con variazioni di intensità fluorescente o tra esperimenti diversi.
- Automatizzato: con il minimo intervento manuale possibile.
- Veloce: almeno dieci volte più rapido dell’analisi manuale.
- User-friendly: e che esportasse i dati in un formato digeribile da altri software per grafici e analisi.
Visto che queste strutture RR non sono un’esclusiva dell’IMPDH2, ma compaiono anche in altri contesti (come le citoofidie di CTPS1 o i loukoumasomi), una soluzione efficace avrebbe potuto fare comodo a molti altri ricercatori. E così, ci siamo rimboccati le maniche e abbiamo deciso di puntare sull’intelligenza artificiale (IA), in particolare sul deep learning.
L’IA su Misura: Quando i Modelli Generici Non Bastano
Certo, potreste pensare: “Ma non ci sono già millemila strumenti AI per l’analisi di immagini?” E avreste ragione. Esistono modelli potentissimi come SegFormer, Segment Anything (SAM) o Cellpose. Il problema è che i modelli pre-allenati, come SegFormer, sono addestrati su oggetti comuni (cani, persone, treni) e non sanno cosa sia un “rod” o un “ring” cellulare. Altri, come SAM o Cellpose, pur essendo più flessibili e capaci di segmentare strutture nuove basandosi su input dell’utente (i cosiddetti “prompt”), non offrono quella segmentazione completamente automatica che cercavamo. Immaginate di dover “suggerire” all’IA ogni singola struttura in centinaia di immagini: addio velocità! Inoltre, riaddestrare questi colossi dell’IA su dataset relativamente piccoli, come quelli che si ottengono tipicamente in microscopia, spesso porta a risultati deludenti, con il modello che impara a memoria i dati di training (overfitting) ma poi fa cilecca su immagini nuove.
Era chiaro: dovevamo costruire un modello ad hoc, specifico per il nostro problema. Un modello “sartoriale” che, pur essendo meno generalista, sarebbe stato un campione nel riconoscere le nostre amate strutture RR. E così abbiamo fatto, utilizzando un approccio chiamato ensemble di modelli UNet. In pratica, abbiamo addestrato 5 modelli UNet (un’architettura di rete neurale molto usata per la segmentazione di immagini biomediche) e poi abbiamo fatto “votare” i loro output per ottenere una predizione finale più robusta.
Il nostro dataset di addestramento consisteva in 287 immagini, ognuna con la sua maschera di annotazione delle RR fatta da un esperto (un lavoro certosino, ve l’assicuro!). Abbiamo diviso il dataset in 5 parti, addestrando ogni modello su 4 parti e testandolo sull’ultima, garantendo così che ogni immagine venisse usata per il test almeno una volta. L’addestramento è avvenuto su un sistema con una potente GPU NVIDIA GeForce RTX 3090. Dopo l’addestramento, le maschere predette dall’IA venivano usate per estrarre misure biologicamente rilevanti: numero di RR, perimetro medio, area media, rapporto area/perimetro, ecc.
I Risultati: L’IA Messa alla Prova
Ebbene, i risultati sono stati davvero incoraggianti! Sul nostro dataset originale, il modello ha raggiunto punteggi Dice (una metrica di accuratezza della segmentazione) medi di circa 0.806 per i rod e 0.809 per i ring, e punteggi Jaccard (un’altra metrica simile) di 0.639 e 0.658 rispettivamente. Anche l’analisi delle curve ROC, che misura la capacità del modello di distinguere tra pixel appartenenti a una RR e pixel di sfondo, ha dato ottimi risultati, con un’area sotto la curva (AUC) media di 0.8965 per i rod e 0.9063 per i ring. Cosa significa tutto ciò in parole povere? Che il nostro modello era bravo a “vedere” le RR in modo simile a un esperto umano! Soprattutto, c’era una forte correlazione tra il numero di rod e ring contati dall’IA e quelli contati dall’esperto (R2 di 0.7255 e 0.8572).
Ma la vera sfida era vedere come se la cavava il modello su dati “fuori dominio”, cioè immagini che non aveva mai visto durante l’addestramento. Per questo, abbiamo usato due dataset aggiuntivi.
Il primo era un esperimento time-course: abbiamo seguito le cellule staminali mentre passavano da uno stato pluripotente a uno differenziato, osservando la progressiva scomparsa delle strutture RR. Qui il modello ha continuato a performare bene, con punteggi Dice medi di 0.637 per i rod e 0.750 per i ring, e una correlazione ancora più alta nel conteggio delle strutture (R2 di 0.9030 e 0.9544). Questo ci ha dimostrato che l’IA era robusta anche di fronte a cambiamenti morfologici delle RR dovuti a variazioni biologiche.
Il secondo test “fuori dominio” prevedeva l’uso di immagini acquisite con un microscopio confocale diverso da quello usato per il training. Qui abbiamo avuto una lezione importante. Inizialmente, mantenendo costante l’ingrandimento dell’obiettivo ma non la risoluzione effettiva dell’immagine (cioè la dimensione reale di un pixel), i risultati sono stati deludenti. Le metriche di segmentazione erano basse e le immagini predette piene di artefatti. Poi, l’illuminazione: abbiamo provato a pre-processare le immagini in modo da mantenere costante la dimensione reale dei pixel rispetto al dataset di training (ritagliando e ridimensionando). E voilà! Le performance sono schizzate di nuovo in alto, con punteggi Dice intorno a 0.72-0.73 e una forte correlazione con le annotazioni dell’esperto per il conteggio delle RR (R2 intorno a 0.84). Una dritta fondamentale per chiunque voglia applicare modelli simili a dati provenienti da strumenti diversi!
Una WebApp per Tutti e Uno Sguardo al Futuro
Per rendere il tutto più fruibile e per raccogliere feedback preziosi dai biologi, abbiamo anche sviluppato una webapp che permette di utilizzare il modello in modo semplice e intuitivo. Crediamo molto nell’importanza di questi strumenti per la comunità scientifica.
Certo, il nostro lavoro non risponde a tutte le domande. Ad esempio:
- I modelli pre-allenati come SAM e Cellpose, pur potentissimi, non erano la soluzione ideale per la nostra esigenza di automazione completa e specificità.
- Le nostre immagini sono fette 2D di oggetti 3D. Un modello 3D sarebbe più informativo, ma richiederebbe molti più dati per l’addestramento.
- Le metriche di segmentazione possono essere “ballerine” quando ci sono poche strutture RR nell’immagine. A volte, il conteggio finale è corretto anche se la segmentazione pixel per pixel non è perfetta.
- La “verità assoluta” (ground truth) fornita dall’esperto non è esente da possibili bias o piccole inconsistenze. A volte l’IA “vede” strutture che l’esperto potrebbe aver tralasciato!
- La risoluzione delle immagini può limitare la precisione di misure come area e perimetro, specialmente per strutture piccole.
Nonostante queste sfide aperte, siamo entusiasti dei risultati. Abbiamo sviluppato uno strumento IA automatico che non solo identifica e classifica le strutture IMPDH2 RR, ma permette anche di analizzarle quantitativamente nel corso di un esperimento. E dato che queste conformazioni a bastoncino e anello non sono un’esclusiva dell’IMPDH2 né delle cellule di mammifero (si trovano in lieviti, pesci zebra, moscerini della frutta, con enzimi diversi e varie dimensioni), speriamo che il nostro approccio possa essere d’aiuto a molti altri gruppi di ricerca.
Infine, i sistemi biologici sono dinamici. Le strutture RR stesse si formano, si fondono, crescono e si riducono nel tempo. Il nostro modello attuale non traccia queste dinamiche in tempo reale su cellule vive, ma la segmentazione e classificazione sono spesso il collo di bottiglia. Chissà, magari il prossimo passo sarà proprio integrare una capacità di tracking per svelare ancora più a fondo i segreti di queste affascinanti architetture cellulari!
Fonte: Springer