Perché i buoni dati sono più importanti dei modelli fantasiosi
Patrick Dylong, Data Scientist di FIDA Software e ricercatore associato presso l'Università di Jena, spiega in un'intervista perché i dati di alta qualità sono il vero fondamento dei progetti di AI di successo. Parla dei tipici problemi di dati nella pratica, del clamore che circonda i modelli complessi e di ciò che conta davvero se l'IA deve funzionare in un'azienda.
Si sente spesso dire: "Garbage in, garbage out". Perché la qualità e la comprensione dei dati sono più importanti del modello più recente per il successo dei progetti di data science?
La qualità e la comprensione dei dati sono alla base di ogni progetto di data science. Anche gli algoritmi più complessi forniscono risultati validi solo se i dati sottostanti sono preparati correttamente. Dati errati possono portare a modelli distorti, a tassi di errore elevati e quindi a decisioni potenzialmente errate. Per evitare tutto ciò, è importante analizzare la qualità e la quantità dei dati grezzi disponibili fin dalle prime fasi del progetto. In questo modo è possibile riconoscere ed eliminare i potenziali punti deboli in una fase iniziale. Questo non solo facilita la successiva formazione dei modelli, ma in molti casi consente anche di applicare in modo significativo algoritmi e metodi di analisi più complessi.
Molte aziende investono molto nell'ottimizzazione dei modelli, ma trascurano l'ingegneria delle caratteristiche. Perché ritiene che questa fase sia così cruciale?
L'ingegneria delle caratteristiche traduce i dati grezzi in caratteristiche più significative e leggibili dalla macchina. In molti contesti, i dati grezzi esistenti non possono essere utilizzati direttamente o almeno non in modo ottimale per l'addestramento dei modelli perché, ad esempio, non sono disponibili nel formato corretto. Inoltre, tenendo conto della conoscenza del dominio, spesso è possibile combinare o trasformare in altro modo i dati grezzi per adattarli meglio al contenuto e/o agli aspetti tecnici del rispettivo caso d'uso. Ad esempio, è possibile rendere visibili in anticipo le correlazioni nascoste nei dati, che possono essere utilizzate direttamente per l'addestramento dei modelli. L'ingegneria delle caratteristiche supporta quindi l'addestramento dei modelli migliorando in modo specifico il database esistente.
Come si differenziano i progetti con un buon database da quelli con dati incompleti o sporchi, anche in termini di impegno, stabilità e risultati?
I progetti con un database solido possono generalmente iniziare la formazione dei modelli più rapidamente, perché non è necessaria una pulizia dei dati che richiede molto tempo e il team può concentrarsi direttamente sull'analisi dei contenuti e sulla modellazione. I modelli risultanti sono quindi più stabili: si comportano in modo più prevedibile, anche quando vengono aggiunti nuovi dati, poiché gli outlier e le incongruenze nel contenuto dei dati di training sono già stati eliminati in anticipo. Di conseguenza, i progetti con un buon database forniscono spesso risultati più affidabili e cifre chiave migliori. Con dati incompleti e incoerenti, invece, lo sforzo necessario per le correzioni aumenta e le prestazioni del modello possono subire maggiori fluttuazioni.
Che ruolo ha la conoscenza delle aree specialistiche rilevanti quando si tratta di trasformare i dati grezzi in informazioni significative?
La conoscenza del dominio è molto importante quando si tratta di ricavare caratteristiche tematicamente rilevanti dai dati grezzi esistenti e di interpretare correttamente i risultati. La conoscenza del settore fornisce il contesto necessario: ad esempio, spiega le correlazioni specifiche del settore, i tipici outlier nei dati e gli eventuali effetti stagionali. Senza queste conoscenze, c'è il rischio di confondere gli artefatti statistici (cioè le variazioni puramente casuali dei dati) con i modelli reali. Ciò consente inoltre ai data scientist di formulare ipotesi guidate dai dati in modo più preciso e di testare il contenuto dei modelli in modo mirato, soprattutto nel contesto sempre più importante dell'IA spiegabile.
Se dovesse dare un consiglio a un'azienda con risorse limitate: dovrebbe investire prima nella modellazione o nella manutenzione dei dati - e perché?
Nella maggior parte dei casi, investirei prima nella manutenzione dei dati. I modelli più semplici forniscono previsioni affidabili solo se i dati di base sono corretti, completi e disponibili in quantità sufficiente. Gli investimenti nella pulizia dei dati, nei controlli di coerenza e nella documentazione aiutano la formazione e le analisi successive del modello: riducono le fonti di errore, abbassano i costi di manutenzione a lungo termine e rafforzano la fiducia nella validità esterna del modello, ossia nelle sue prestazioni al di fuori della formazione del modello. Solo con un buon database vale la pena investire in approcci di modellazione più complessi, che possono aumentare ulteriormente l'efficienza e le prestazioni dei modelli di base.