Illustrazione fotorealistica di un esopianeta simile alla Terra in transito davanti alla sua stella ospite, visto da un telescopio spaziale. La luce della stella diminuisce leggermente. Astro photography, telephoto zoom 200mm, sharp focus, high detail.

Cacciatori di Esopianeti AI: Addestro una Rete Neurale per Scovare Nuovi Mondi!

Ciao a tutti! Oggi voglio portarvi con me in un’avventura affascinante ai confini dell’universo conosciuto, un viaggio dove l’astronomia incontra l’intelligenza artificiale. Parleremo di esopianeti – pianeti che orbitano attorno a stelle diverse dal nostro Sole – e di come sto cercando di “insegnare” a un computer a riconoscerli analizzando i dati provenienti dai telescopi spaziali. Sembra fantascienza, vero? Eppure, è proprio quello che stiamo facendo!

La caccia agli esopianeti è una delle frontiere più eccitanti della ricerca scientifica moderna. L’obiettivo? Trovare pianeti simili alla Terra, magari situati in quella che chiamiamo “zona abitabile”, una regione attorno a una stella dove le condizioni potrebbero permettere l’esistenza di acqua liquida in superficie. Scoprire questi mondi non solo ci aiuta a capire come si formano i sistemi planetari, ma alimenta anche la nostra speranza, forse un giorno, di trovare segni di vita altrove nell’universo.

Perché cercare esopianeti?

Beh, le motivazioni sono profonde. Vogliamo capire se siamo soli nell’universo, scoprire nuovi potenziali “porti sicuri” per l’umanità in un futuro lontanissimo e, più in generale, svelare i segreti della formazione cosmica. Pensate a Kepler-452b, il primo esopianeta di dimensioni simili alla Terra scoperto nella zona abitabile di una stella simile al Sole! Ogni scoperta è un piccolo passo verso la comprensione del nostro posto nel cosmo.

Come si scovano questi mondi lontani?

Fin dagli anni ’90, abbiamo sviluppato diverse tecniche ingegnose per individuare questi pianeti nascosti:

  • Velocità Radiale: Misuriamo le minuscole oscillazioni di una stella causate dall’attrazione gravitazionale di un pianeta orbitante. È così che è stato scoperto il primo esopianeta attorno a una stella simile al Sole, 51 Pegasi b!
  • Fotometria di Transito: Questo è il metodo su cui ci concentreremo. Osserviamo la luminosità di una stella e cerchiamo piccoli, regolari cali di luce. Cosa li causa? Un pianeta che passa davanti alla stella, proprio come una mini-eclissi! Il telescopio spaziale Kepler ha usato principalmente questo metodo, scoprendo migliaia di candidati.
  • Imaging Diretto: È difficilissimo, ma a volte riusciamo a “fotografare” direttamente un pianeta bloccando la luce accecante della sua stella.
  • Microlensing Gravitazionale: Sfruttiamo la gravità di una stella (e dei suoi eventuali pianeti) come una lente d’ingrandimento per amplificare la luce di una stella più lontana.
  • Astrometria: Misuriamo i piccolissimi spostamenti della posizione di una stella nel cielo, causati sempre dall’attrazione dei suoi pianeti.

Ad oggi, secondo l’archivio NASA Exoplanet Archive (dati aggiornati a gennaio 2025), il metodo del transito è il re indiscusso, con oltre 4300 pianeti scoperti! Ma analizzare tutti questi dati è un lavoro immane. Le curve di luce – i grafici che mostrano la luminosità di una stella nel tempo – devono essere interpretate con attenzione per distinguere un vero transito planetario da altri fenomeni stellari o rumore strumentale. Ed è qui che entra in gioco il mio “superpotere”…

L’Intelligenza Artificiale entra in gioco

Diciamocelo, analizzare migliaia e migliaia di curve di luce manualmente è un compito titanico e soggetto a errori. Ecco perché ci siamo rivolti all’Intelligenza Artificiale (AI) e, in particolare, al Machine Learning (ML). L’idea è semplice: invece di dare al computer istruzioni precise su come riconoscere un transito, gli diamo tantissimi esempi etichettati (curve di luce che sappiamo corrispondere a pianeti reali e altre che sono falsi positivi) e lasciamo che impari da solo a distinguere i pattern giusti.

Pensate a come il vostro cervello riconosce un volto o un gatto in una foto. Non seguite una lista di regole rigide, ma avete imparato a riconoscere le caratteristiche chiave attraverso l’esperienza. Le reti neurali artificiali, un tipo di algoritmo ML, cercano di imitare questo processo di apprendimento. Ricercatori di Princeton, ad esempio, hanno usato l’AI per predire la stabilità dei sistemi planetari con risultati incredibili! Noi stiamo applicando un approccio simile, ma focalizzato sulla classificazione: questa curva di luce indica un pianeta o no?

Visualizzazione artistica di un telescopio spaziale come Kepler che osserva una stella lontana, con una curva di luce stilizzata sovrapposta che mostra un calo dovuto al transito di un esopianeta. Stile astro photography, wide angle 10mm, long exposure, sharp focus.

Il nostro “campo di addestramento”: il dataset Kepler

Per addestrare il nostro modello AI, abbiamo bisogno di dati. Tanti dati! Fortunatamente, la missione Kepler della NASA ci ha lasciato un’eredità preziosissima: un archivio pubblico con oltre 10.000 curve di luce. Questo dataset è il nostro “campo di addestramento”. Contiene dati etichettati come:

  • CONFIRMED: Transiti confermati come veri esopianeti.
  • FALSE POSITIVE: Segnali che sembravano transiti ma sono dovuti ad altri fenomeni (es. stelle binarie a eclisse).
  • CANDIDATE: Segnali promettenti ma non ancora confermati (questi li abbiamo esclusi per ora, per rendere il compito più chiaro per il modello: distinguere tra “sì, è un pianeta” e “no, non lo è”).

Abbiamo selezionato le colonne di dati che ritenevamo più importanti per descrivere un transito (come il periodo orbitale `koi_period`, la durata del transito `koi_duration`, la profondità del calo di luce `koi_depth`, il raggio stimato del pianeta `koi_prad`, la temperatura `koi_teq`, e alcune caratteristiche della stella ospite). Abbiamo anche dovuto fare un po’ di pulizia: abbiamo eliminato le righe con dati mancanti. Alla fine, siamo rimasti con circa 4600 “eventi” (tra confermati e falsi positivi) descritti da 12 caratteristiche ciascuno, per un totale di oltre 55.000 punti dati su cui far lavorare la nostra rete neurale. Anche se abbiamo rimosso circa metà dei dati originali, è ancora un campione bello sostanzioso!

Costruire il nostro “cacciatore” di pianeti: la Rete Neurale

Abbiamo scelto di usare una Rete Neurale Artificiale (NN), più specificamente un tipo chiamato Multi-Layer Perceptron (MLP) Classifier, disponibile nella libreria Python scikit-learn. Immaginatevela come una serie di strati di “neuroni” artificiali interconnessi. Il primo strato riceve i dati (le 12 caratteristiche della curva di luce), questi dati vengono processati e passati attraverso strati intermedi “nascosti”, e infine l’ultimo strato dà la risposta: “CONFIRMED” o “FALSE POSITIVE”.

All’interno di questi neuroni, abbiamo usato una funzione chiamata ReLU (Rectified Linear Unit), che aiuta la rete a imparare relazioni complesse nei dati, e un ottimizzatore chiamato Adam, bravo a gestire grandi quantità di dati in modo efficiente. La parte cruciale è stata l'”addestramento”: abbiamo mostrato alla rete i nostri 55.000 punti dati, dicendole per ognuno se era un pianeta confermato o un falso positivo. La rete ha aggiustato le connessioni tra i suoi neuroni per cercare di minimizzare gli errori.

Ma come si misura se la rete sta imparando bene? Abbiamo usato alcune metriche chiave:

  • Curva ROC (Receiver Operating Characteristic): Un grafico che mostra quanto è brava la rete a distinguere tra le due classi (pianeti e non-pianeti). Più l’area sotto questa curva (AUC – Area Under the Curve) si avvicina a 1, meglio è.
  • Precisione (Precision): Quanti dei pianeti identificati dalla rete sono effettivamente pianeti reali?
  • Richiamo (Recall): Quanti dei pianeti reali presenti nel dataset la rete è riuscita a trovare?

Il nostro obiettivo non era solo ottenere una buona accuratezza generale (misurata dall’AUC), ma anche capire come bilanciare Precisione e Richiamo, specialmente perché nel dataset ci sono molti più falsi positivi che pianeti confermati (un problema noto come “data imbalance”).

Alla ricerca della configurazione perfetta

Una rete neurale non è una scatola magica predefinita. Bisogna decidere quanti strati nascosti usare e quanti neuroni mettere in ogni strato. Questi sono chiamati “iperparametri”. Cambiare questi numeri può influenzare drasticamente le prestazioni. Così, abbiamo iniziato a sperimentare!

Abbiamo provato diverse architetture: partendo da 2 strati nascosti (es. 50 neuroni nel primo, 50 nel secondo), poi aumentando il numero di neuroni, poi aggiungendo strati (3, 4, fino a 5 strati nascosti) e variando le dimensioni di ciascuno. In totale, abbiamo testato 16 configurazioni diverse, eseguendo ogni test 3 volte per assicurarci che i risultati fossero consistenti. Volevamo trovare la configurazione che desse l’AUC più alto, ma anche valori di Precisione e Richiamo soddisfacenti (ci eravamo posti una soglia minima di 0.6 per entrambi).

Diagramma astratto e luminoso che rappresenta una rete neurale convoluzionale complessa, con nodi collegati e flussi di dati che convergono verso un output binario (pianeta/non pianeta). Macro lens, 60mm, high detail, controlled lighting, sfondo scuro.

I risultati: cosa abbiamo scoperto?

Dopo tutti questi esperimenti, è emersa una configurazione vincente: una rete con 5 strati nascosti, con rispettivamente 300, 200, 200, 100 e 100 neuroni. Questa configurazione (chiamiamola “Trial 15”) ha raggiunto un AUC di 0.91! Un risultato decisamente buono, che indica che il modello è complessivamente efficace nel distinguere i transiti reali dai falsi allarmi. Anche i valori di Precisione e Richiamo hanno superato la nostra soglia di 0.6.

Tuttavia, scavando più a fondo, abbiamo notato delle sfumature interessanti. Il modello era bravissimo a identificare i falsi positivi: ne mancava solo il 5% (un “miss rate” molto basso). Ma era meno bravo con i pianeti confermati: ne mancava ben il 40%! Questo significa che, pur essendo bravo a non dare “falsi allarmi”, rischiava di perdersi una fetta significativa dei pianeti reali. Inoltre, classificava erroneamente il 15% dei pianeti confermati come falsi positivi e il 17% dei falsi positivi come pianeti confermati.

Abbiamo visto che altre configurazioni, ad esempio con 4 strati (come 100, 100, 100, 100), raggiungevano AUC simili (0.9), ma non soddisfacevano i criteri di Precisione/Richiamo. Aumentare troppo il numero di strati o neuroni (come nel Trial 16) sembrava addirittura peggiorare leggermente le cose, forse perché la rete iniziava a imparare il “rumore” nei dati invece dei pattern reali (un fenomeno chiamato “overfitting”).

Limiti e prospettive future: la strada è ancora lunga

Ok, AUC 0.91 è bello, ma quel 40% di pianeti veri mancati è un bel grattacapo. Significa che, se usassimo questo modello da solo per decidere quali candidati osservare più da vicino con telescopi potenti, rischieremmo di ignorare molti mondi potenzialmente interessanti. Per un’automazione affidabile, servirebbero tassi di errore molto più bassi (idealmente, Precisione e Richiamo sopra il 90%).

Da cosa dipendono questi limiti? Probabilmente da diversi fattori:

  • Squilibrio dei dati: C’erano molti più falsi positivi che pianeti confermati nel nostro set di addestramento, e questo può “confondere” il modello.
  • Dati mancanti: Aver rimosso quasi metà delle righe originali potrebbe aver introdotto un bias, se i dati mancanti non erano distribuiti a caso.
  • Overfitting potenziale: Forse la nostra architettura a 5 strati era un po’ troppo complessa per i dati a disposizione.
  • Selezione delle caratteristiche: Abbiamo scelto le 12 caratteristiche manualmente. Metodi automatici (come quelli usati in altri studi, tipo Random Forests) potrebbero identificare combinazioni più predittive.

Confrontando il nostro lavoro con altri studi recenti, vediamo che c’è spazio per migliorare. Ad esempio, lo studio di Jin et al. ha raggiunto accuratezze altissime (fino al 99.79%) usando altri metodi ML sullo stesso dataset Kepler. Altri, come SPOCK o MLCCS, si sono concentrati su aspetti diversi (stabilità orbitale, rilevamento di segnali debolissimi in spettroscopia) ottenendo risultati notevoli nei loro campi specifici. Il nostro contributo sta nell’aver esplorato sistematicamente l’ottimizzazione degli iperparametri per un MLPClassifier applicato direttamente alle curve di luce e nell’aver analizzato le prestazioni per classe specifica, evidenziando sfide pratiche come il tasso di errore sui pianeti confermati.

Cosa fare ora? Sicuramente potremmo provare a incorporare più dati (magari dalla missione TESS), usare tecniche per gestire meglio lo squilibrio dei dati, provare architetture diverse (come le Reti Neurali Convoluzionali – CNN, che sono spesso usate per dati sequenziali come le curve di luce, o i Transformer) e usare metodi automatici per la selezione delle caratteristiche.

Immagine concettuale del telescopio spaziale TESS in orbita attorno alla Terra, con lo sguardo rivolto verso una porzione di cielo ricca di stelle. Astro photography, wide angle 10mm, sharp focus, Via Lattea visibile sullo sfondo.

Uno sguardo al futuro: TESS, PLATO e oltre

Nonostante i limiti, il nostro modello con AUC 0.91 non è da buttare! Potrebbe essere molto utile come strumento di pre-screening. Immaginate le missioni attuali come TESS (Transiting Exoplanet Survey Satellite), che sta scandagliando quasi tutto il cielo. Genera una quantità enorme di dati, impossibile da controllare tutta a mano. Un modello come il nostro potrebbe analizzare rapidamente tutte le curve di luce e segnalare agli astronomi i candidati più promettenti, quelli con la più alta probabilità di essere veri pianeti, ottimizzando l’uso del prezioso tempo dei telescopi più grandi per le osservazioni di follow-up.

E guardando ancora più avanti, la missione PLATO (PLAnetary Transits and Oscillations of stars) dell’ESA, il cui lancio è previsto per il 2026, produrrà un altro dataset gigantesco. Metodi come quello che abbiamo sviluppato, una volta affinati, saranno fondamentali per analizzare questi futuri tesori di dati.

Insomma, l’applicazione dell’intelligenza artificiale all’astronomia è appena iniziata. Combinare la potenza di calcolo e la capacità di apprendimento delle macchine con l’intuizione e l’esperienza umana ci permetterà di accelerare la scoperta di nuovi mondi e, chissà, forse un giorno di rispondere alla domanda fondamentale: siamo soli nell’universo? Io continuo a “mettere le mani in pasta” con i miei algoritmi, sperando di dare il mio piccolo contributo a questa incredibile caccia cosmica!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *