
Warum gute Daten wichtiger sind als fancy Modelle
Patrick Dylong, Data Scientist bei FIDA Software und Associate Researcher an der Universität Jena, erklärt im Interview, warum hochwertige Daten die eigentliche Grundlage erfolgreicher KI-Projekte bilden. Er spricht über typische Datenprobleme in der Praxis, den Hype um komplexe Modelle – und was wirklich zählt, wenn KI im Unternehmen funktionieren soll.
Man hört oft: ‚Garbage in, garbage out.‘ Warum sind Datenqualität und Datenverständnis für den Erfolg von Data-Science-Projekten wichtiger als das neueste Modell?
Datenqualität und -verständnis bilden das Fundament jedes Data-Science-Projekts. Selbst die komplexesten Algorithmen liefern nur dann valide Ergebnisse, wenn die zugrundeliegenden Daten korrekt aufbereitet sind. Fehlerhafte Daten können zu verzerrten Modellen, hohen Fehlerraten und somit potenziell auch zu falschen Entscheidungen führen. Um dies gezielt zu vermeiden, ist es wichtig, sich bereits früh in einem Projekt mit der Qualität und Menge der vorhandenen Rohdaten zu beschäftigen. Das ermöglicht es, potenzielle Schwachstellen bereits frühzeitig zu erkennen und zu bereinigen. Das erleichtert nicht nur das spätere Modelltraining, sondern ermöglicht es in vielen Fällen auch erst, komplexere Algorithmen und Analysemethoden sinnvoll anzuwenden.
Viele Unternehmen investieren viel in Modelloptimierung – aber vernachlässigen das Feature Engineering. Warum ist dieser Schritt aus Deiner Sicht so entscheidend?
Feature Engineering übersetzt Rohdaten in aussagekräftigere, maschinenlesbare Merkmale. In vielen Kontexten können die vorhandenen Rohdaten nicht direkt oder zumindest nicht optimal für das Modelltraining verwendet werden, da sie bspw. nicht im korrekten Format vorliegen. Außerdem bieten sich unter Berücksichtigung von Domänenwissen häufig Möglichkeiten, Rohdaten zu kombinieren oder anderweitig zu transformieren, um inhaltlich und/oder technisch besser auf den jeweiligen Use Case abgestimmt zu sein. So lassen sich z.B. verborgene Zusammenhänge in den Daten vorab sichtbar machen und diese können anschließend direkt für das Modelltraining genutzt werden. Feature Engineering unterstützt somit das Modelltraining, indem es die vorhandene Datenbasis gezielt aufwertet.
Wie unterscheiden sich Projekte mit guter Datenbasis von denen mit lückenhaften oder schmutzigen Daten – auch hinsichtlich des Aufwandes, der Stabilität und den Ergebnissen?
Projekte mit einer soliden Datenbasis können grundsätzlich schneller mit dem Modelltraining beginnen, weil eine aufwändige Datenbereinigung entfällt und das Team sich direkt auf die inhaltliche Analyse und Modellierung konzentrieren kann. Die daraus entstehenden Modelle arbeiten deshalb stabiler: Sie verhalten sich vorhersagbarer, auch wenn neue Daten hinzukommen, da Ausreißer und inhaltliche Inkonsistenzen in den Trainingsdaten bereits im Vorfeld beseitigt wurden. Dadurch liefern Projekte mit guter Datenbasis häufig zuverlässigere Ergebnisse mit besseren Kennzahlen. Bei lückenhaften und inkonsistenten Daten steigt dagegen der Aufwand für Korrekturen und die Modellleistung kann stärker schwanken.
Welche Rolle spielt Wissen über entsprechende Fachbereiche, wenn es darum geht, aus Rohdaten sinnvolle Informationen zu machen?
Fachbereichswissen ist sehr wichtig, um aus vorhandenen Rohdaten thematisch relevante Features abzuleiten und Ergebnisse korrekt zu interpretieren. Domänenwissen liefert dabei den erforderlichen Kontext: Es erklärt z.B. branchenspezifische Zusammenhänge, typische Ausreißer in den Daten und ggf. vorhandene saisonale Effekte. Ohne dieses Wissen besteht die Gefahr, statistische Artefakte (d.h. rein zufällig auftretende Variation in den Daten) für echte Muster zu halten. Außerdem können Data Scientists so datengetriebene Hypothesen präziser formulieren und Modelle gezielt auch inhaltlich testen, gerade im immer wichtiger werdenden Kontext von Explainable AI.
Wenn Du einem Unternehmen mit begrenzten Ressourcen einen Rat geben müssten: Soll es zuerst in Modellierung oder in Datenpflege investieren – und warum?
Ich würde in den meisten Fällen zuerst in die Datenpflege investieren. Einfachere Modelle liefern nur dann zuverlässige Vorhersagen, wenn die Basisdaten inhaltlich korrekt, vollständig und in ausreichender Menge vorhanden sind. Investitionen in Datenbereinigung, Konsistenzprüfungen und Dokumentation helfen beim späteren Modelltraining und Analysen: Sie reduzieren Fehlerquellen, senken langfristig die Wartungskosten und stärken damit das Vertrauen in die externe Validität des Modells, d.h. dessen Performance außerhalb des Modelltrainings. Erst mit einer guten Datenbasis lohnt sich der Aufwand für komplexere Modellierungsansätze, die die Effizienz und Performance der Basismodelle dann anschließend weiter steigern können.