Primo piano macro di onde sonore digitali colorate che si intersecano con una rappresentazione stilizzata 3D delle corde vocali umane, illuminazione drammatica controllata, alta definizione, dettagli precisi, obiettivo macro 100mm, sfondo scuro astratto.

Voce e AI: Il Mio Approccio Ibrido Rivoluziona la Diagnosi dei Disturbi Vocali!

Ciao a tutti! Oggi voglio parlarvi di un campo che mi appassiona tantissimo: l’uso dell’intelligenza artificiale (AI) per analizzare e comprendere la voce umana, in particolare quando qualcosa non va come dovrebbe. Recentemente, abbiamo fatto passi da gigante nell’usare l’AI per processare audio e parlato, ma classificare i disturbi vocali, specialmente quando ce ne sono diversi tipi da distinguere (la cosiddetta classificazione multi-classe), rimane una bella sfida. Ecco perché ho lavorato su un nuovo approccio ibrido, un po’ come mettere insieme il meglio di due mondi, per migliorare drasticamente le performance in questo campo.

La Sfida della Classificazione Vocale

La nostra voce è uno strumento incredibile, prodotto da un sistema complesso che include polmoni, laringe, corde vocali e tratto vocale. Basta un piccolo problema in uno di questi componenti per alterare il timbro, l’intensità o la qualità della voce, portando a quelli che chiamiamo disturbi vocali. Questi possono variare da una leggera raucedine a una perdita completa della voce e possono avere un impatto enorme sulla vita delle persone, causando stress, imbarazzo e persino depressione, specialmente per chi usa la voce per lavoro come insegnanti o cantanti.

Capire esattamente quale disturbo una persona abbia è fondamentale per il trattamento giusto. Tradizionalmente, ci si affida all’orecchio esperto di un logopedista, ma è un metodo soggettivo. L’AI offre una via più oggettiva, analizzando le caratteristiche acustiche del segnale vocale. L’obiettivo? Fornire ai terapisti strumenti automatici, veloci e affidabili per identificare i disturbi.

Negli ultimi anni, molti ricercatori si sono buttati su questo, usando algoritmi di machine learning per riconoscere pattern nei segnali vocali. Spesso, però, ci si concentra su problemi “semplici” (si fa per dire!), come distinguere una voce sana da una patologica (classificazione binaria). Si usano spesso tecniche come l’analisi degli spettrogrammi (immagini che rappresentano il suono) o i coefficienti cepstrali in frequenza Mel (MFCC). Ma la classificazione multi-classe, cioè distinguere tra diversi tipi di disturbi, è ancora un terreno poco esplorato e con risultati spesso non entusiasmanti.

Il Mio Approccio Ibrido: VGGish + Classificatori Potenti

Ecco dove entra in gioco la mia idea. Ho pensato: perché non combinare la potenza del deep learning nell’estrarre caratteristiche complesse dal suono con l’efficacia di classificatori più “tradizionali” ma robusti? Così è nato il mio framework ibrido a due stadi.

Fase 1: Estrazione delle Caratteristiche con VGGish
Prima di tutto, prendiamo i segnali vocali (che abbiamo standardizzato a 1 secondo di durata e 16 kHz di frequenza) e li trasformiamo in spettrogrammi log-mel. Immaginateli come delle “impronte digitali” visive del suono, che catturano informazioni importanti su frequenza e tempo, ispirandosi a come funziona l’orecchio umano. Questi spettrogrammi diventano l’input per un modello pre-allenato chiamato VGGish. VGGish è una rete neurale convoluzionale (CNN), ispirata alla famosa architettura VGG usata per le immagini, ma adattata per l’audio. È stata allenata su un’enorme quantità di dati audio (YouTube-8M), quindi sa già riconoscere una vasta gamma di pattern sonori. Da VGGish, estraiamo delle “feature embeddings” di alto livello, cioè una rappresentazione compatta (128 numeri) ma ricchissima di informazioni sulla voce. Ho scelto VGGish perché, nei miei test, si è rivelato più efficace per i disturbi vocali rispetto ad altri modelli potenti come wav2vec o HuBERT, che pure sono ottimi per compiti generali sul parlato.

Un diagramma di flusso astratto che mostra dati vocali trasformati in spettrogrammi colorati e poi processati da una rete neurale VGGish stilizzata e infine da icone che rappresentano diversi classificatori (SVM, LR, MLP, EC), stile infografica high-tech, colori blu e argento duotone, profondità di campo, obiettivo prime 35mm.

Fase 2: Classificazione con Macchine Intelligenti
Una volta ottenute queste preziose feature embeddings, le diamo in pasto a diversi classificatori di machine learning. Ho testato:

  • Support Vector Machine (SVM): Un classico molto potente, specialmente con dati complessi, che cerca il miglior “confine” per separare le classi. Ho usato un kernel RBF, ottimo per relazioni non lineari.
  • Logistic Regression (LR): Un modello più semplice ma efficace, che calcola la probabilità di appartenenza a una classe.
  • Multi-Layer Perceptron (MLP): Una rete neurale più piccola, con due strati nascosti, capace di imparare pattern complessi.
  • Ensemble Classifier (EC): Il mio “asso nella manica”! Questo non è un singolo modello, ma un team che combina le previsioni di SVM, LR e MLP usando il “soft voting”. In pratica, si fa una media pesata delle probabilità date da ciascun modello. L’idea è che l’unione fa la forza, riducendo il rischio di errori e migliorando l’accuratezza generale, specialmente quando i dati sono sbilanciati (cioè, ci sono molte più voci sane che patologiche, come spesso accade nella realtà).

L’Esperimento: Mettere alla Prova l’Approccio

Per testare il tutto, ho usato un sottoinsieme di un database pubblico molto noto, il Saarbruecken Voice Database (SVD). Ho selezionato tre classi: voci sane, voci con disfonia iperfunzionale e voci con paresi delle corde vocali. Ho fatto attenzione a includere sia uomini che donne (tra i 19 e i 60 anni) perché la voce cambia molto tra i generi, e ho voluto analizzare i risultati separatamente.

Il dataset non era bilanciato (molte più voci sane). Per evitare che i modelli imparassero a classificare solo la classe più numerosa, ho usato una tecnica chiamata oversampling sul set di allenamento: in pratica, ho “duplicato” i campioni delle classi meno numerose fino ad avere un numero uguale per tutte. Ho anche normalizzato le feature (StandardScaler) per metterle tutte sulla stessa scala.

Per valutare le performance in modo robusto, ho usato la cross-validation a 5 fold. Significa dividere i dati in 5 parti, usarne 4 per allenare il modello e 1 per testarlo, ripetendo il processo 5 volte cambiando la parte di test. Ho fatto attenzione che tutte le registrazioni dello stesso individuo finissero nello stesso “fold”, per evitare che il modello imparasse a riconoscere la persona invece del disturbo! Le metriche principali che ho guardato sono state l’accuratezza media, il punteggio F1 (una media armonica tra precisione e recall, utile con dati sbilanciati), e precisione/recall/F1 per ogni singola classe.

Risultati Sorprendenti: Binario e Multi-Classe

E ora, i risultati! Li ho confrontati con quelli di uno studio precedente [45] che usava lo stesso dataset ma altri metodi (MFCC, wav2vec-SVM, HuBERT-SVM).

Classificazione Binaria: Sano vs. Disordinato

  • Uomini: Il mio VGGish-SVM ha spaccato! Accuratezza dell’82.45%, seguito da vicino da VGGish-EC (80.25%). Un bel miglioramento rispetto al miglior risultato precedente (che usava HuBERT-SVM).
  • Donne: Qui, VGGish-EC (l’ensemble) ha fatto meglio, con il 71.54%. Gli altri miei modelli erano vicini. Curiosamente, questo è l’unico caso in cui un metodo precedente (HuBERT-SVM con 74.50%) ha ottenuto un’accuratezza leggermente superiore alla mia migliore.
  • Combinato (Uomini+Donne): VGGish-EC ha vinto di nuovo con il 73.84% di accuratezza.

Primo piano di un monitor di computer che mostra grafici a barre affiancati confrontando l'accuratezza della classificazione binaria (sano vs disordinato) per maschi e femmine, con barre colorate che rappresentano VGGish-SVM, VGGish-EC e altri metodi di baseline, stile visualizzazione dati pulito, obiettivo 50mm, sfondo di laboratorio leggermente sfocato.

Classificazione Binaria: Disfonia Iperfunzionale vs. Paresi Corde Vocali

  • Uomini: Ancora VGGish-SVM in testa con il 75.45% di accuratezza. Nettamente meglio del precedente miglior risultato (71.95% con wav2vec-SVM).
  • Donne: Di nuovo, VGGish-EC ha primeggiato con il 68.42%, superando anche qui il miglior risultato precedente (63.06% con wav2vec-SVM).
  • Combinato (Uomini+Donne): VGGish-SVM ha ottenuto l’accuratezza più alta (68.80%).

Classificazione Multi-Classe: Sano vs. Disfonia vs. Paresi
Questa era la sfida più grande!

  • Uomini: VGGish-SVM ha raggiunto un impressionante 77.81% di accuratezza.
  • Donne: Sempre VGGish-SVM il migliore, con il 63.11%.
  • Combinato (Uomini+Donne): Ancora VGGish-SVM con il 70.53%.

In tutti questi casi multi-classe, il mio approccio ha superato significativamente i metodi di baseline basati su MFCC, wav2vec e HuBERT riportati nello studio [45]. Per darvi un’idea, il miglioramento rispetto alla migliore baseline è stato del +15.04% per gli uomini e del +7.75% per le donne!

Un aspetto interessante: mentre VGGish-SVM dava l’accuratezza generale più alta nella multi-classe, l’Ensemble Classifier (VGGish-EC), pur avendo un’accuratezza totale leggermente inferiore, si è comportato meglio nel riconoscere le classi minoritarie (disfonia e paresi). Questo è importantissimo in ambito medico, dove non vuoi perderti i casi più rari! L’ensemble riesce a bilanciare meglio le performance tra le classi.

Visualizzazione di una matrice di confusione normalizzata su uno schermo digitale, relativa alla classificazione multi-classe dei disturbi vocali. Le caselle sulla diagonale principale sono evidenziate per mostrare le classificazioni corrette, mentre le altre mostrano gli errori, con colori diversi per maschi e femmine. Obiettivo macro 60mm, alta definizione, illuminazione da studio controllata.

Cosa Significa Tutto Questo?

I risultati mi dicono alcune cose importanti:

  1. L’approccio ibrido (modello pre-allenato + classificatori classici/ensemble) funziona alla grande per i disturbi vocali, meglio dei sistemi basati solo su feature tradizionali come MFCC o anche modelli potenti come wav2vec/HuBERT usati direttamente per la classificazione in quel contesto.
  2. Estrarre feature con VGGish sembra particolarmente adatto a catturare le sottili differenze nei disturbi vocali.
  3. Analizzare uomini e donne separatamente è cruciale, perché le performance cambiano (generalmente, ho ottenuto accuratezze più alte per gli uomini).
  4. L’Ensemble Classifier è prezioso, specialmente quando si ha a che fare con dati sbilanciati e classi minoritarie, anche se l’accuratezza totale può essere leggermente inferiore a quella del miglior modello singolo (SVM in questo caso, per la multi-classe).

Certo, c’è ancora lavoro da fare. L’accuratezza per le donne nella classificazione binaria sano/disordinato era leggermente inferiore a un metodo precedente, e le classi minoritarie nella multi-classe rimangono più difficili da classificare perfettamente, nonostante l’oversampling e l’ensemble.

Prossimi Passi: Verso Strumenti Clinici Affidabili

Questo studio mostra la fattibilità e l’efficacia del mio framework ibrido. Ora voglio andare oltre. Un passo fondamentale sarà integrare tecniche di Explainable AI (XAI) come LIME, SHAP o Grad-CAM. Queste ci permetteranno di “aprire la scatola nera” e capire perché il modello prende certe decisioni, quali parti dello spettrogramma sono più importanti. Questo è essenziale per costruire fiducia e facilitare l’adozione clinica.

Inoltre, finora ho lavorato su dati registrati in condizioni controllate. La prossima sfida è ottimizzare il sistema per funzionare in tempo reale, magari su dispositivi portatili (edge computing), e validarlo su dati audio acquisiti durante visite cliniche reali o sessioni di telemedicina.

In conclusione, sono davvero entusiasta dei risultati! Abbiamo dimostrato che combinando VGGish pre-allenato con classificatori ensemble si possono ottenere performance allo stato dell’arte nella classificazione sia binaria che multi-classe dei disturbi vocali, superando approcci precedenti. Spero che questo lavoro possa gettare le basi per strumenti automatici sempre più raffinati, capaci un giorno di supportare i medici e i logopedisti nelle loro valutazioni, rendendo la diagnosi più rapida, oggettiva e accessibile a tutti.

Ritratto di un logopedista sorridente che utilizza un tablet mostrando un'interfaccia con analisi vocale AI (spettrogrammi e risultati di classificazione), luce naturale da finestra, obiettivo prime 35mm, profondità di campo che sfoca leggermente lo sfondo dello studio medico, bianco e nero film.

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *