Fotografia macro di rizomi secchi di Alismatis Rhizoma, illuminazione controllata, alta definizione, 100mm macro lens, che mostra le differenze di texture e forma usate per l'identificazione con intelligenza artificiale.

L’Intelligenza Artificiale Riconosce le Erbe Cinesi: La Sfida dell’Alisma

Ciao a tutti! Oggi voglio raccontarvi di una sfida affascinante che abbiamo affrontato nel mondo della medicina tradizionale, un campo dove saggezza antica e tecnologia moderna possono davvero fare scintille. Parliamo dell’Alismatis Rhizoma (AR), conosciuto in Cina come “Zexie”. È un’erba medicinale super popolare in molti paesi asiatici, usata da secoli per trattare un sacco di disturbi, dall’edema all’iperglicemia, e pensate, recenti studi suggeriscono persino proprietà antitumorali!

Un’Erba Preziosa, Mille Origini: La Sfida dell’Identificazione

Il problema? L’Alisma non è tutto uguale. In Cina, principale produttore mondiale (parliamo di 10.000 tonnellate all’anno!), ne esistono principalmente due specie botaniche coltivate in quattro regioni diverse: Sichuan, Fujian, Guangxi e Jiangxi. E qui casca l’asino: a seconda della specie e della zona di coltivazione, la qualità e quindi l’efficacia clinica possono cambiare parecchio.

* Chuan Zexie (Sichuan) e Guang Zexie (Guangxi) derivano dalla specie Alisma plantago-aquatica Linn.
* Jian Zexie (Fujian) e Jiang Zexie (Jiangxi) derivano da Alisma orientale (Sam.) Juzep.

Il guaio è che la farmacopea ufficiale cinese non dà criteri specifici per distinguerle basandosi sulla qualità legata all’origine. Quindi, come si fa nel commercio reale? Ci si affida all’occhio esperto dei praticanti di medicina tradizionale e dei periti. Potete immaginare che questo porti spesso a discussioni e incertezze. Certo, ci sono differenze visibili: alcuni studi descrivono variazioni nella forma (ovoidale, subglobulare, ellissoidale) e nel colore (giallo-brunastro, giallo-biancastro, grigio-giallastro), ma queste descrizioni sono spesso qualitative, vaghe e a volte persino contraddittorie. Non proprio il massimo per uno standard oggettivo!

Negli ultimi anni, la scienza ha proposto metodi più “high-tech”: metabolomica, genetica, cromatografia, spettroscopia. Fantastici, precisissimi, ma richiedono strumenti sofisticati, personale specializzato, tempo e, diciamocelo, un bel po’ di soldi. Non proprio pratici per il mercato quotidiano o per controlli rapidi.

L’Occhio Digitale al Lavoro: Immagini e Machine Learning

Ecco dove entriamo in gioco noi, con un’idea: e se usassimo la potenza delle immagini digitali e dell’intelligenza artificiale (IA)? Con i progressi nell’elaborazione delle immagini e negli algoritmi di machine learning, oggi possiamo “digitalizzare” le differenze morfologiche che l’occhio esperto coglie (e anche quelle che sfuggono!). L’obiettivo? Creare un metodo rapido, oggettivo, economico e accurato per identificare specie e origine geografica dell’Alisma.

Abbiamo iniziato raccogliendo un bel po’ di campioni: 400 rizomi secchi dalle quattro principali regioni produttrici cinesi (100 per regione). Poi, abbiamo allestito un piccolo set fotografico super controllato: una light box professionale con luci LED per un’illuminazione uniforme, una fotocamera Nikon D7200 impostata sempre allo stesso modo (stessa apertura, tempo di scatto, ISO, distanza) per garantire la massima coerenza. Abbiamo scattato foto ad alta risoluzione di ogni campione.

Fotografia macro di diversi campioni secchi di Alismatis Rhizoma su sfondo neutro, scattata con obiettivo macro 105mm, illuminazione controllata per massimizzare i dettagli della texture e le sottili variazioni di colore, alta definizione.

Ovviamente, le immagini grezze non bastano. C’è sempre un po’ di “rumore” o sfondi non perfetti. Quindi, via di pre-processing: abbiamo applicato un filtro mediano per eliminare il rumore, convertito le immagini nello spazio colore HSV (che è più intuitivo per descrivere il colore rispetto al classico RGB), isolato il rizoma dallo sfondo rendendolo perfettamente bianco, e voilà! Immagini pulite e pronte per l’analisi.

Estrarre la “Firma” Digitale dell’Alisma

A questo punto, è iniziata la parte divertente: estrarre le caratteristiche, la “firma digitale” di ogni campione. Abbiamo misurato:

* Forma (S): Usando funzioni specifiche in MATLAB, abbiamo calcolato parametri come l’area, il perimetro, la lunghezza degli assi principali e derivato indici come il rapporto d’aspetto, la rettangolarità e la circolarità. Insomma, abbiamo quantificato quanto fosse tondo, allungato, regolare. (3 features)
* Colore (C): Dalle immagini nello spazio HSV, abbiamo estratto i valori medi di Tonalità (Hue) e Saturazione (Saturation). (2 features)
* Texture (T): Questa è una caratteristica super interessante. Descrive la “grana” della superficie. Abbiamo usato un metodo classico ma potente basato sulla Gray-Level Co-occurrence Matrix (GLCM), che analizza come coppie di pixel con certi livelli di grigio compaiono a determinate distanze e angolazioni. Da questa matrice, abbiamo calcolato 12 diversi parametri statistici (come Contrasto, Correlazione, Energia, Entropia) che descrivono quantitativamente la texture. (12 features)

In totale, per ogni immagine, avevamo 17 caratteristiche numeriche. Moltiplicato per 400 campioni, abbiamo ottenuto un bel dataset di 6800 dati!

Addestrare il “Cervello” Artificiale: Alla Ricerca della Combinazione Vincente

Ora, dovevamo dare questi dati in pasto a dei modelli di machine learning per vedere se riuscivano a imparare a distinguere le diverse origini. Abbiamo scelto quattro modelli molto usati:

  • Random Forest (RF): Immaginate un comitato di tanti alberi decisionali che votano; è robusto e performante.
  • Support Vector Machines (SVM): Bravo a trovare il miglior “confine” per separare le classi, anche in situazioni complesse.
  • Back Propagation (BP) Neural Network: Una rete neurale classica, capace di imparare pattern complessi.
  • Extreme Learning Machine (ELM): Una rete neurale più veloce da addestrare.

Abbiamo diviso i dati: 70% per l’addestramento (far imparare i modelli) e 30% per il test (verificare quanto avessero imparato su dati mai visti prima). E non ci siamo accontentati: abbiamo provato a usare le features singolarmente (solo Forma, solo Colore, solo Texture) e in varie combinazioni (Forma+Colore, Forma+Texture, Colore+Texture, e tutte e tre insieme). Volevamo trovare la “ricetta” perfetta!

Visualizzazione grafica astratta di un modello Random Forest, con nodi e rami interconnessi che rappresentano le decisioni basate sulle features (forma, texture) dell'Alisma. Colori high-tech, sfondo scuro.

I risultati sono stati illuminanti! Usare solo le features di Forma (S) o Colore (C) dava risultati così così (accuratezza tra 70% e 87% circa). Ma la Texture (T) da sola era già potentissima, superando il 95% di accuratezza in quasi tutti i modelli! Questo ci ha detto che la “grana” della superficie è un indizio fondamentale.

Quando abbiamo iniziato a combinare le features, le cose si sono fatte ancora più interessanti. La combinazione Forma + Texture (S+T) si è rivelata la migliore in assoluto. E il modello che ha brillato di più con questa combinazione è stato il Random Forest (RF).

Pensate: con la combinazione S+T-RF, abbiamo raggiunto un’accuratezza del 99.17% nell’identificare le due diverse specie di Alisma e un incredibile 96.67% nell’identificare le quattro diverse origini geografiche sul set di test! Praticamente perfetto!

Curiosamente, aggiungere anche il Colore (S+T+C) non sempre migliorava le cose, anzi, a volte peggiorava leggermente le performance. Questo è un classico esempio di come “più” non significhi necessariamente “meglio” nel machine learning: troppe informazioni, se alcune sono ridondanti o poco utili, possono confondere il modello.

Perché Non Solo Deep Learning? Una Scelta Ragionata

Qualcuno potrebbe chiedere: “Ma perché non avete usato il Deep Learning, tipo le reti neurali convoluzionali (CNN), che vanno tanto di moda per le immagini?”. Ottima domanda! Abbiamo fatto anche un confronto con un modello CNN pre-addestrato (AlexNet). I risultati erano buoni, con accuratezze sopra il 95% per l’identificazione geografica, molto vicini a quelli del nostro RF.

Tuttavia, per questo specifico studio, abbiamo preferito concentrarci sui metodi di machine learning “tradizionali” (come RF) per alcuni motivi:

  1. Interpretabilità: Le features che abbiamo estratto (forma, colore, texture) sono direttamente collegabili alle caratteristiche biologiche dell’Alisma. Capiamo *perché* il modello funziona. Il Deep Learning, a volte, è una “scatola nera”.
  2. Dimensione del Dataset: Avevamo 400 immagini. Tante, ma non tantissime per gli standard del Deep Learning, che richiede enormi quantità di dati per dare il meglio e rischia l’overfitting (imparare troppo a memoria i dati di training e non generalizzare bene) su dataset piccoli. I modelli come RF sono più robusti con dati limitati.
  3. Efficienza Computazionale: Estrarre features tradizionali e usare modelli come RF richiede meno risorse computazionali rispetto all’addestramento di una CNN complessa. Questo è importante per sviluppare metodi rapidi e applicabili anche in contesti con risorse limitate (pensiamo ai mercati erboristici).

I nostri risultati mostrano che, per problemi come questo e con dataset di queste dimensioni, un approccio “classico” ben progettato può essere altrettanto efficace, se non più efficiente e interpretabile.

Schermata stilizzata di un software su un tablet che analizza l'immagine di un rizoma di Alisma, mostrando in tempo reale le features estratte (forma, texture) e il risultato della classificazione (Specie: A. plantago-aquatica, Origine: Sichuan). Interfaccia utente pulita, focus sull'efficienza.

Verso il Futuro dell’Identificazione Intelligente

Cosa significa tutto questo? Che abbiamo sviluppato un metodo basato su immagini e machine learning (specificamente, la combinazione S+T-RF) che permette di identificare specie e origine geografica dell’Alismatis Rhizoma in modo oggettivo, rapido, economico ed estremamente accurato. È un passo avanti enorme rispetto all’affidamento esclusivo sull’esperienza soggettiva o ai metodi di laboratorio lenti e costosi.

Questo non solo aiuta a garantire transazioni commerciali più eque e un uso clinico più affidabile dell’Alisma, ma apre anche la strada all’applicazione di queste tecnologie per l’identificazione di tante altre medicine naturali con origini complesse. È un esempio perfetto di come l’IA possa supportare e valorizzare la medicina tradizionale.

Certo, il lavoro non finisce qui. Il prossimo passo sarà ampliare il nostro database di immagini, includendo campioni da ancora più zone, magari anche da nuove aree di coltivazione emergenti. E poi, chissà, sviluppare un’applicazione semplice e intuitiva, magari per smartphone, che permetta a chiunque di identificare rapidamente un campione di Alisma semplicemente scattandogli una foto. Il futuro dell’identificazione delle erbe medicinali potrebbe essere davvero a portata di click!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *