Navigation
Blog FIDA
Conoscenza - Storie di successo - Whitepaper
newspaper Panoramica chevron_right Big Data
Ki Roboter
suldev

Perché i buoni dati sono più importanti dei modelli fantasiosi

Patrick Dylong, Data Scientist di FIDA Software e ricercatore associato presso l'Università di Jena, spiega in un'intervista perché i dati di alta qualità sono il vero fondamento dei progetti di AI di successo. Parla dei tipici problemi di dati nella pratica, del clamore che circonda i modelli complessi e di ciò che conta davvero se l'IA deve funzionare in un'azienda.

Si sente spesso dire: "Garbage in, garbage out". Perché la qualità e la comprensione dei dati sono più importanti del modello più recente per il successo dei progetti di data science?

La qualità e la comprensione dei dati sono alla base di ogni progetto di data science. Anche gli algoritmi più complessi forniscono risultati validi solo se i dati sottostanti sono preparati correttamente. Dati errati possono portare a modelli distorti, a tassi di errore elevati e quindi a decisioni potenzialmente errate. Per evitare tutto ciò, è importante analizzare la qualità e la quantità dei dati grezzi disponibili fin dalle prime fasi del progetto. In questo modo è possibile riconoscere ed eliminare i potenziali punti deboli in una fase iniziale. Questo non solo facilita la successiva formazione dei modelli, ma in molti casi consente anche di applicare in modo significativo algoritmi e metodi di analisi più complessi.

Molte aziende investono molto nell'ottimizzazione dei modelli, ma trascurano l'ingegneria delle caratteristiche. Perché ritiene che questa fase sia così cruciale?

L'ingegneria delle caratteristiche traduce i dati grezzi in caratteristiche più significative e leggibili dalla macchina. In molti contesti, i dati grezzi esistenti non possono essere utilizzati direttamente o almeno non in modo ottimale per l'addestramento dei modelli perché, ad esempio, non sono disponibili nel formato corretto. Inoltre, tenendo conto della conoscenza del dominio, spesso è possibile combinare o trasformare in altro modo i dati grezzi per adattarli meglio al contenuto e/o agli aspetti tecnici del rispettivo caso d'uso. Ad esempio, è possibile rendere visibili in anticipo le correlazioni nascoste nei dati, che possono essere utilizzate direttamente per l'addestramento dei modelli. L'ingegneria delle caratteristiche supporta quindi l'addestramento dei modelli migliorando in modo specifico il database esistente.

Come si differenziano i progetti con un buon database da quelli con dati incompleti o sporchi, anche in termini di impegno, stabilità e risultati?

I progetti con un database solido possono generalmente iniziare la formazione dei modelli più rapidamente, perché non è necessaria una pulizia dei dati che richiede molto tempo e il team può concentrarsi direttamente sull'analisi dei contenuti e sulla modellazione. I modelli risultanti sono quindi più stabili: si comportano in modo più prevedibile, anche quando vengono aggiunti nuovi dati, poiché gli outlier e le incongruenze nel contenuto dei dati di training sono già stati eliminati in anticipo. Di conseguenza, i progetti con un buon database forniscono spesso risultati più affidabili e cifre chiave migliori. Con dati incompleti e incoerenti, invece, lo sforzo necessario per le correzioni aumenta e le prestazioni del modello possono subire maggiori fluttuazioni.

Che ruolo ha la conoscenza delle aree specialistiche rilevanti quando si tratta di trasformare i dati grezzi in informazioni significative?

La conoscenza del dominio è molto importante quando si tratta di ricavare caratteristiche tematicamente rilevanti dai dati grezzi esistenti e di interpretare correttamente i risultati. La conoscenza del settore fornisce il contesto necessario: ad esempio, spiega le correlazioni specifiche del settore, i tipici outlier nei dati e gli eventuali effetti stagionali. Senza queste conoscenze, c'è il rischio di confondere gli artefatti statistici (cioè le variazioni puramente casuali dei dati) con i modelli reali. Ciò consente inoltre ai data scientist di formulare ipotesi guidate dai dati in modo più preciso e di testare il contenuto dei modelli in modo mirato, soprattutto nel contesto sempre più importante dell'IA spiegabile.

Se dovesse dare un consiglio a un'azienda con risorse limitate: dovrebbe investire prima nella modellazione o nella manutenzione dei dati - e perché?

Nella maggior parte dei casi, investirei prima nella manutenzione dei dati. I modelli più semplici forniscono previsioni affidabili solo se i dati di base sono corretti, completi e disponibili in quantità sufficiente. Gli investimenti nella pulizia dei dati, nei controlli di coerenza e nella documentazione aiutano la formazione e le analisi successive del modello: riducono le fonti di errore, abbassano i costi di manutenzione a lungo termine e rafforzano la fiducia nella validità esterna del modello, ossia nelle sue prestazioni al di fuori della formazione del modello. Solo con un buon database vale la pena investire in approcci di modellazione più complessi, che possono aumentare ulteriormente l'efficienza e le prestazioni dei modelli di base.

Informazioni sull'autore

Paul Wettstein lenkt bei der FIDA die digitalen Marketingbereiche SEO, SEA und Social Ads in die richtige Spur. Als begeisterter Radsportler kombiniert er Ausdauer, Strategie und den Blick fürs Detail – Qualitäten, die ihn sowohl auf der Straße als auch in der digitalen Welt auszeichnen.

Articoli correlati

Blog
Conformità all'AI: come utilizzare l'intelligenza artificiale in modo sicuro e conforme alla legge nella vostra azienda

L'intelligenza artificiale è arrivata da tempo nella vita aziendale di tutti i giorni. Che si tratti di processi automatizzati, analisi intelligenti o IA generativa, le applicazioni potenziali sono in rapida crescita. Allo stesso tempo, però, aumentano anche i requisiti di protezione dei dati, trasparenza e sicurezza legale. È proprio qui che entra in gioco il tema della compliance dell'IA.

Per saperne di più
Mann vor einem Computer
Blog
Gestione dei requisiti: la chiave del successo dei progetti IT

Il software di successo non inizia con il codice, ma con requisiti chiari. La gestione dei requisiti trasforma le idee in obiettivi concreti e le esigenze in specifiche solide. In questo articolo mostriamo perché un'ingegneria dei requisiti pulita è la chiave del successo di un progetto.

Per saperne di più
EU-Flagge
Obbligo di formazione AI

Regolamento europeo sull'IA: formazione obbligatoria per le aziende. Vi spieghiamo a cosa dovete prestare attenzione nella vostra azienda quando avete a che fare con l'IA e quali sono le normative applicabili!

Per saperne di più