Catturare CO2 dall’Aria: Ho Creato il Dataset Chiave per gli Adsorbenti del Futuro!
Ciao a tutti! Oggi voglio parlarvi di una sfida che mi appassiona da tempo: come possiamo combattere il cambiamento climatico catturando la CO2 direttamente dall’aria che respiriamo? Sembra fantascienza, vero? Eppure, è una delle frontiere più calde della ricerca, nota come Direct Air Capture (DAC). E indovinate un po’? Ho avuto la possibilità di contribuire creando uno strumento che, spero, darà una bella spinta a questo settore: un dataset completo sugli adsorbenti solidi impregnati con ammine.
Forse vi state chiedendo: “Adsorbenti? Ammine? Che roba è?”. Tranquilli, ve lo spiego semplice. Immaginate delle spugne super tecnologiche (gli adsorbenti solidi, spesso materiali porosi come la silice) che vengono “inzuppate” con delle molecole speciali (le ammine) bravissime ad acchiappare la CO2. L’aria passa attraverso queste “spugne” e la CO2 rimane intrappolata. Figo, no?
Il problema è che trovare la combinazione perfetta tra “spugna” e “molecola acchiappa-CO2” è un lavoraccio. Ci sono tantissime variabili: che tipo di ammina usare? Quanto impregnarne? Quale materiale poroso funziona meglio? E come si comportano questi materiali nel tempo, con l’umidità, a diverse temperature?
La Sfida: Mettere Ordine nel Caos dei Dati
Fino ad oggi, le informazioni su questi materiali erano sparse in decine e decine di articoli scientifici. Ognuno usava unità di misura diverse, terminologie a volte ambigue, e spesso mancavano dati cruciali. Un vero incubo per chi, come me, voleva avere un quadro completo o usare questi dati per allenare modelli di intelligenza artificiale (AI) capaci di prevedere quali materiali sarebbero stati i più promettenti.
Pensateci: l’AI potrebbe accelerare enormemente la scoperta di nuovi materiali super efficienti, facendoci risparmiare tempo e risorse preziose in laboratorio. Ma senza dati di qualità, ben organizzati e accessibili, l’AI non può fare magie. Era frustrante vedere tanto potenziale bloccato dalla mancanza di un dataset pubblico e standardizzato, soprattutto per questi materiali “impregnati”, che sono più complessi da studiare rispetto ad altri come i MOF (Metal-Organic Frameworks) che hanno strutture cristalline ben definite.
Costruire il “Mostro”: Come Nasce un Dataset
Così, ci siamo rimboccati le maniche. Armati di pazienza e degli strumenti giusti, abbiamo iniziato una caccia al tesoro digitale. Abbiamo setacciato le principali banche dati scientifiche (Web of Science, Scopus, Google Scholar) usando parole chiave specifiche come “amine”, “direct air capture”, “impregnated”. Sono saltati fuori centinaia di articoli!
Per non impazzire a leggerli tutti uno per uno nel dettaglio, abbiamo usato un aiutino tecnologico: GPT (sì, proprio quel tipo di AI!). Abbiamo “istruito” il modello per aiutarci a fare una prima scrematura, identificando gli articoli più pertinenti in base a titolo, parole chiave e abstract. Non è stato perfetto (qualche errore c’è stato, con un F1 score di 0.81, che non è male!), ma ci ha fatto risparmiare un sacco di tempo.
Alla fine, abbiamo selezionato 52 articoli pubblicati tra il 2011 e il 2024. E qui è iniziato il vero lavoro manuale: spulciare ogni articolo, tabelle, grafici, e persino le informazioni supplementari, per estrarre tutti i dati rilevanti. Parliamo di 1.336 “data points” (righe di dati), ognuno descritto da ben 28 caratteristiche (colonne). In totale, quasi 30.000 singole informazioni!
Abbiamo raccolto dati su:
- Le proprietà chimiche e fisiche degli adsorbenti (tipo di ammina, tipo di supporto poroso, contenuto di azoto, area superficiale, volume dei pori, ecc.).
- Le condizioni sperimentali (temperatura, pressione parziale di CO2 – da quella bassissima dell’aria a concentrazioni più alte tipo fumi industriali, umidità).
- Le performance di cattura (capacità di adsorbimento della CO2, efficienza dell’ammina, velocità di cattura, stabilità dopo cicli di utilizzo).

Domare i Dati: Conversioni, Calcoli e… GPC!
Raccogliere i dati è stata solo metà dell’opera. L’altra metà è stata renderli utilizzabili e coerenti. Come vi dicevo, le unità di misura erano spesso diverse. Ad esempio, la capacità di cattura a volte era in millimoli di CO2 per grammo di adsorbente (mmol/g), altre volte in milligrammi per grammo (mg/g), altre ancora come percentuale in peso (wt%). Abbiamo dovuto convertire tutto in un’unica unità standard (mmol/g per grammo di adsorbente).
Poi c’erano i dati mancanti. A volte mancava il contenuto di azoto (un parametro chiave!), ma se avevamo la capacità di CO2 e l’efficienza dell’ammina, potevamo calcolarlo. Altre volte mancava il diametro medio dei pori del materiale di supporto “vergine”; in alcuni casi (per materiali con pori cilindrici come SBA-15 o MCM-41), siamo riusciti a stimarlo usando l’area superficiale e il volume dei pori riportati.
Un’altra sfida riguardava le ammine polimeriche (poliammine), come il famoso PEI (polietilenimmina). Spesso viene riportato il peso molecolare medio ponderale (Mw), ma per alcuni calcoli (come stimare il contenuto di azoto o capire il grado di polimerizzazione) serve il peso molecolare medio numerico (Mn). Per alcune poliammine commerciali usate in diversi studi, questo dato mancava. E allora? Ci siamo messi al lavoro in laboratorio! Abbiamo preso campioni di queste poliammine e abbiamo misurato noi stessi il Mn usando la cromatografia a permeazione di gel (GPC). Un piccolo sforzo extra per garantire la massima qualità e completezza del dataset.
Abbiamo anche dovuto “tradurre” i nomi delle ammine e dei supporti in etichette standardizzate e abbiamo aggiunto informazioni sulla struttura chimica (ad esempio, la percentuale di ammine primarie, secondarie e terziarie, che influenzano il modo in cui la CO2 viene catturata).
Controllo Qualità: Fidarsi è Bene, Verificare è Meglio!
Un dataset è utile solo se è affidabile. Abbiamo quindi dedicato molto tempo alla validazione.
Prima di tutto, abbiamo usato analisi statistiche per scovare eventuali errori umani di battitura o valori anomali (outliers) che non tornavano. Tre data scientist hanno controllato la “pulizia” e la riutilizzabilità tecnica dei dati.
Poi, abbiamo confrontato i dati estratti dai grafici con quelli riportati nel testo degli articoli, quando disponibili. L’estrazione dai grafici (fatta con un tool chiamato WebplotDigitizer) introduce sempre un piccolo margine di errore, ma verificando su campioni noti abbiamo visto che l’accuratezza era buona (errori percentuali generalmente bassi, tranne per la stima dei pori che è intrinsecamente più incerta).
Per i dati sulla velocità di cattura (cinetica), quando gli articoli riportavano modelli matematici che descrivevano bene i dati sperimentali (con R² alto), abbiamo usato le equazioni di questi modelli per calcolare i tempi di saturazione e li abbiamo confrontati con quelli estratti dai grafici. Anche qui, le discrepanze erano contenute e ci hanno dato fiducia nella qualità dei dati cinetici raccolti.
Infine, abbiamo verificato la coerenza interna del dataset. Ad esempio, abbiamo plottato la capacità di cattura e l’efficienza dell’ammina: come ci si aspetta, tendono ad essere correlate positivamente. Abbiamo anche visto come le performance cambiano al variare della concentrazione di CO2 (bassa per DAC, alta per fumi industriali), confermando tendenze note.

Dentro la Scatola Nera: Cosa C’è nel Dataset?
Il risultato finale è un file Excel bello corposo, disponibile pubblicamente su Figshare (un repository online). Cosa ci trovate dentro?
Una grande varietà di materiali!
- Supporti porosi: Non solo i classici SBA-15 e MCM-41 (che sono i più frequenti), ma ben 31 tipi diversi, classificati in 7 categorie (silici mesoporose ordinate, silice commerciale, zeoliti, carboni, MOF usati come supporti, poliresine, supporti gerarchici).
- Ammine: 31 tipi diversi, dalle piccole molecole alle poliammine lineari o ramificate come PEI e TEPA (tetraetilenepentammina), che sono le più studiate.
- Additivi: 20 tipi di molecole aggiunte a volte per migliorare le performance o la stabilità.
Questa diversità è fondamentale perché permette di esplorare un ampio spettro di combinazioni chimiche e strutturali.
Analizzando il dataset, emergono già alcune tendenze interessanti (anche se vanno prese con le pinze, perché molti fattori interagiscono): per esempio, la presenza di ammine primarie sembra favorire un’alta efficienza, e supporti con pori grandi (>20 nm) e volumi porosi elevati (3-6 cm³/g) sembrano correlati a capacità di cattura maggiori.
Pronti, Partenza, AI! Usare il Dataset per Innovare
Ma il bello viene adesso! Questo dataset non è solo una raccolta di dati passati, è una piattaforma per il futuro. Come può essere usato?
1. Allenare modelli di Machine Learning: Abbiamo già fatto un esperimento! Abbiamo addestrato due modelli (Random Forest e XGBoost) usando le caratteristiche chimiche e operative come input per predire la capacità di cattura della CO2. I risultati sono promettenti (RMSE bassi, comparabili ad altri studi), dimostrando che il dataset è “pronto per l’AI”. Immaginate un chimico che ha un’idea per una nuova combinazione ammina/supporto: potrebbe usare il modello per avere una stima rapida delle performance prima ancora di entrare in laboratorio!
2. Scoprire relazioni struttura-proprietà: Analizzando i dati con tecniche avanzate, si possono scoprire correlazioni nascoste tra la struttura chimica, le proprietà fisiche e le performance di cattura. Questo aiuta a capire perché certi materiali funzionano meglio di altri.
3. Identificare i candidati più promettenti: Si possono usare i dati per filtrare e identificare le combinazioni di ammine e supporti che hanno il potenziale maggiore per applicazioni DAC specifiche.
4. Guidare la ricerca futura: Capire quali dati mancano o sono riportati in modo inconsistente può spingere la comunità scientifica verso una standardizzazione dei metodi e del reporting, rendendo i futuri dati ancora più utili.
5. Offrire un esempio per piccoli dataset: Non servono sempre dataset giganteschi per fare machine learning utile in scienza dei materiali. Questo dataset è un esempio di come anche dati relativamente “piccoli” (rispetto ai big data) ma di alta qualità possano avere un grande impatto.

Uno Sguardo al Futuro (e Qualche Limite)
Ovviamente, nessun lavoro è perfetto e anche questo dataset ha i suoi limiti. Derivando da dati di letteratura, eredita potenziali bias o errori sperimentali presenti negli studi originali (non sempre gli errori di misura erano riportati). Alcune caratteristiche importanti, specialmente quelle legate ai costi energetici della rigenerazione del materiale (un fattore chiave per l’economia del processo DAC), sono poco presenti perché raramente riportate in modo standardizzato.
Inoltre, le 28 caratteristiche che abbiamo scelto, pur essendo tante, potrebbero non catturare tutta la complessità del fenomeno. Modelli AI allenati su questi dati potrebbero essere più bravi a predire performance di materiali simili a quelli già presenti nel dataset, piuttosto che a inventare strutture radicalmente nuove.
Ma questi limiti sono anche opportunità! Indicano dove la ricerca futura dovrebbe concentrarsi: migliorare la standardizzazione dei dati, includere parametri economici ed energetici, esplorare nuovi descrittori molecolari (come le stringhe SMILES) per rappresentare i materiali in modo più “comprensibile” per l’AI.
Credo fermamente che la condivisione aperta dei dati e la collaborazione tra chimici sperimentali, esperti di materiali e data scientist sia la chiave per accelerare l’innovazione nella DAC. Spero che questo dataset sia un piccolo, ma utile, passo in quella direzione. Mettere insieme quasi 30.000 dati è stata una faticaccia, ma se aiuterà anche solo un gruppo di ricerca a trovare più in fretta un materiale migliore per pulire la nostra aria, ne sarà valsa assolutamente la pena!
Fonte: Springer
