Onde sonore digitali astratte che si trasformano in note musicali classiche fluttuanti su uno sfondo tecnologico scuro. Mix di antico e moderno, musica e dati. Illuminazione drammatica, stile fotorealistico.

GTZAN: Il Dataset Musicale Nato per Caso che ha Cambiato Tutto (e Non Sempre in Meglio)

Ciao a tutti! Oggi voglio raccontarvi una storia affascinante, un po’ tecnica ma che riguarda tutti noi che ascoltiamo musica nell’era digitale. Parliamo di un “dataset”, un insieme di dati, che forse non avete mai sentito nominare, ma che ha avuto un’influenza enorme, quasi per caso: il GTZAN dataset. Immaginatevi un po’ come il paziente zero di come le macchine hanno imparato a “capire” i generi musicali.

L’Inizio di Tutto: Un Esperimento Accademico

Tutto comincia nel lontano 2002. Un ricercatore, George Tzanetakis, presenta uno studio su come classificare automaticamente i generi musicali partendo dai segnali audio. Sosteneva che il suo modello funzionasse bene quasi quanto un essere umano. E la cosa bella? Rende disponibile il suo dataset, chiamato GTZAN, a chiunque glielo chiedesse. Sembrava un gesto generoso, no? E lo era, ma con conseguenze inaspettate.

Dieci anni dopo, salta fuori che questo dataset era diventato virale nel mondo della ricerca sul Music Genre Recognition (MGR), il riconoscimento automatico dei generi musicali. Pensate: quasi un quarto degli studi sull’argomento usava GTZAN! Uno standard de facto, nato quasi per sbaglio.

Ma C’era un Problema (Anzi, Parecchi)

Il problema è che, a guardarlo bene, questo dataset era un bel casino. Un’analisi più approfondita ha rivelato:

  • Ripetizioni: Gli stessi brani o spezzoni comparivano più volte.
  • Sovra-rappresentazioni: Alcuni artisti o generi erano presenti in modo sproporzionato.
  • File corrotti: Alcuni audio erano distorti al punto da essere inutilizzabili.
  • Nessuno ascoltava davvero: Pochissimi ricercatori si erano presi la briga di ascoltare i file musicali che stavano usando per allenare i loro algoritmi!

Nonostante questi campanelli d’allarme, lanciati già nel 2012/2013 da uno studio di Bob Sturm, GTZAN è rimasto il dataset più usato per l’MGR. Pazzesco, vero?

GTZAN: Uno Sguardo da Vicino (e da Musicologo)

Ma cosa c’era dentro questo famoso GTZAN? Prendiamo un esempio citato nell’articolo originale: `Classical.00029.au`. Se lo ascoltassimo, sentiremmo un estratto dalla Sinfonia “Jupiter” di Mozart, precisamente dal finale. Un pezzo riconoscibile, certo, ma scelto in un punto formalmente ambiguo, una transizione armonica. Un musicologo, dovendo creare un dataset per rappresentare la musica classica, forse avrebbe scelto un punto diverso, più significativo dal punto di vista della forma musicale (tipo l’inizio dello sviluppo o della coda).

Questo piccolo esempio ci fa capire una cosa: la scelta degli spezzoni in GTZAN sembra essere stata fatta un po’ a caso, o comunque senza una profonda riflessione musicologica. E questo conta. Conta perché le decisioni prese nella creazione di un dataset plasmano quello che poi gli algoritmi “imparano”.

Primo piano di uno spartito musicale antico, forse di Mozart, illuminato da una luce soffusa su un tavolo di legno scuro, con accanto delle cuffie moderne. Obiettivo macro 85mm, illuminazione controllata, alta definizione per catturare la texture della carta e dell'inchiostro.

Le “Verità di Base” Sbagliate sulla Musica

Qui entriamo nel cuore del problema. I ricercatori di Music Information Retrieval (MIR), il campo che studia come recuperare informazioni dalla musica, hanno iniziato a trattare la musica non tanto come un’esperienza culturale e sociale complessa, ma come un insieme di caratteristiche statistiche estraibili da un file audio (ritmo, timbro, melodia, ecc.). Il genere musicale, di conseguenza, diventava una combinazione statica di queste caratteristiche, qualcosa che un computer poteva “scoprire” analizzando i numeri.

Queste sono diventate le “ground truths”, le verità di base su cui si fondavano i sistemi:

  1. La musica è riducibile a feature statistiche.
  2. Il genere è una proprietà intrinseca e stabile di queste feature.

Peccato che la musicologia e la teoria dei generi ci dicano tutt’altro! Il genere musicale è un fenomeno sociale, culturale, instabile, che dipende dal contesto, dagli ascoltatori, dall’industria. Pensate a come il concetto di “rock” sia cambiato dagli anni ’60 ad oggi. Non è una categoria fissa definita solo da ritmo e timbro.

GTZAN, con la sua struttura rigida (10 generi, 100 clip da 30 secondi per genere) e le sue etichette fisse, ha cristallizzato questa visione riduttiva. Ha insegnato alle macchine una versione semplificata e, per certi versi, distorta della realtà musicale.

L’Idiosincrasia del Classico (e Non Solo)

Torniamo all’esempio della musica classica in GTZAN. Su 100 brani:

  • Mozart domina (19 clip, soprattutto sinfonie tarde).
  • Vivaldi segue (11 clip, molte dalle “Quattro Stagioni”).
  • J.S. Bach (10 clip, spesso dal Concerto per Oboe BWV 1053).
  • Haydn (9 clip dalle sinfonie).

Quasi metà del dataset “classico” è fatto da questi quattro compositori! E mancano giganti come Beethoven (solo 3 clip dalla “Patetica”, nessuna sinfonia!), Brahms, Schumann. Ci sono poi scelte curiose come canzoni folk britanniche di Percy Grainger, estratti da Gershwin, Bernstein, ma solo un esempio di opera lirica (Verdi).

È una selezione idiosincratica, probabilmente basata sulla collezione personale di Tzanetakis e sulla facilità di accesso ai brani. Ma dato che GTZAN è diventato lo standard, centinaia di sistemi di classificazione hanno “imparato” cosa sia la musica classica da questo campione sbilanciato. E lo stesso vale per gli altri generi. Sturm trovò errori di etichettatura in ogni categoria, confrontando le etichette di GTZAN con i tag usati dagli utenti su piattaforme come last.fm. Ad esempio, brani etichettati come “hip hop” in GTZAN erano classificati come “rnb” dagli utenti.

Visualizzazione astratta di dati digitali corrotti, glitch colorati e frammentati su uno schermo scuro, simboleggiando i difetti del dataset GTZAN. Stile astratto digitale, colori vivaci ma disturbati.

Un Benchmark che Non Era un Benchmark

Sturm nel 2013 arrivò a una conclusione devastante: a causa delle ripetizioni nel dataset e del modo inconsistente in cui i ricercatori lo dividevano per allenare e testare i loro modelli, i risultati pubblicati nei vari studi non erano confrontabili tra loro. Il benchmark, lo strumento che doveva servire a misurare e comparare le performance, era inutile a quello scopo. Un paradosso!

Eppure, l’inerzia della comunità scientifica e la comodità di avere un dataset pronto all’uso hanno fatto sì che GTZAN continuasse a circolare.

L’Eredità Duratura di GTZAN

Qual è il punto di tutta questa storia? È che le decisioni prese all’inizio dell’era della musica digitale, anche quelle apparentemente piccole o casuali come la creazione di un dataset, hanno conseguenze profonde e durature. GTZAN ha contribuito a:

  • Incorporare una visione riduttiva della musica e del genere nei sistemi computazionali. Una visione molto euro-americana, tra l’altro.
  • Creare sistemi MGR con limiti intrinseci (la famosa “accuracy ceiling” intorno al 70%, perché il genere non è solo questione di parametri audio).
  • Influenzare lo sviluppo successivo: La difficoltà con la classificazione di genere “pura” ha spinto verso l’uso di “tag” descrittivi (come “musica triste”, “energizzante”) e verso sistemi di raccomandazione basati sul contesto (cosa ascolti mentre fai sport, a che ora del giorno, ecc.).
  • Perpetuare bias: L’uso continuato di un dataset sbilanciato e con difetti significa che i modelli continuano ad apprendere da dati problematici.

Ancora oggi, come confermato da uno studio presentato nel 2024, GTZAN rimane il dataset pubblico più usato per l’MGR (nel 45% degli studi tra 2013 e 2022). Le idee iniziali di Tzanetakis sulla musica sono diventate, di fatto, infrastruttura.

Un diagramma di Venn complesso e disordinato disegnato a mano su una lavagna, con etichette di generi musicali che si sovrappongono e si confondono, in contrasto con una griglia binaria 0/1 sullo sfondo. Obiettivo 35mm, profondità di campo per mettere a fuoco il caos del diagramma.

Dall’Accademia all’Industria: Un Filo Diretto

E non pensate che questa sia solo una questione accademica. C’è un legame strettissimo tra la ricerca MIR e l’industria musicale tecnologica. Le grandi conferenze come ISMIR sono sponsorizzate da colossi come Google, Adobe, ByteDance, Spotify (indirettamente tramite acquisizioni o personale). Le idee e gli strumenti sviluppati in ambito accademico passano rapidamente al mondo applicativo. Quindi, le fondamenta un po’ traballanti gettate anche grazie (o per colpa) di GTZAN hanno un impatto su quello che ascoltiamo e come ci viene proposto sulle piattaforme di streaming.

Una Morale per l’Era Digitale

La storia di GTZAN è quasi una parabola. Ci ricorda che la tecnologia non è neutra. Dietro le interfacce scintillanti e gli algoritmi che sembrano magici, ci sono storie, scelte, contingenze, pregiudizi e limiti molto umani (e spesso molto occidentali). La musica, forse la prima forma culturale ad essere massicciamente digitalizzata, ha fatto da apripista, nel bene e nel male.

Capire la storia di strumenti come GTZAN ci aiuta a vedere con più chiarezza le fondamenta su cui poggia molta della nostra cultura digitale. Ci mostra come idee nate in un contesto specifico possano diventare standard globali, portandosi dietro tutti i loro bagagli culturali e ideologici. E ci invita a essere un po’ più critici e consapevoli quando interagiamo con questi sistemi che sembrano conoscerci così bene.

Una sala conferenze moderna e affollata durante un evento tech sulla musica (come ISMIR), con loghi di sponsor sullo sfondo e persone che interagiscono davanti a schermi. Obiettivo grandangolare 20mm per catturare l'ampiezza dell'evento e l'interazione tra accademia e industria.

Insomma, la prossima volta che Spotify o YouTube Music vi suggeriscono un brano “perfetto” per voi, ricordatevi che dietro c’è una lunga storia, fatta anche di dataset imperfetti come GTZAN, nati quasi per caso ma che hanno lasciato un’impronta indelebile.

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *