Ihr Modell hat 95 % Accuracy. Glückwunsch — diese Zahl bedeutet ohne Kontext fast nichts. Die Obsession mit Single-Metric-Performance ist eines der häufigsten Failure-Modes in ML-Projekten.
Die Accuracy-Falle
Stellen Sie sich ein Fraud-Detection-Modell vor, bei dem nur 1 % der Transaktionen betrügerisch sind. Ein Modell, das immer „kein Betrug" vorhersagt, erreicht 99 % Accuracy und ist komplett nutzlos.
Das Beispiel ist offensichtlich, doch subtilere Versionen dieser Falle erwischen auch erfahrene Teams. Unbalancierte Klassen, Distribution Shift und Proxy-Metriken klaffen alle zwischen berichteter Performance und realem Wert.
Geschäftsorientierte Metriken
Beginnen Sie mit dem Geschäftsergebnis, nicht mit der technischen Metrik. Wenn Sie ein Recommendation-System bauen, kümmern Sie sich um Umsatzwirkung und Customer Lifetime Value, nicht nur um die Click-Through-Rate.
Rechnen Sie rückwärts in Euro oder Rupien. Was kostet ein False Positive? Ein False Negative? Diese Zahlen sollten Ihre Bewertungskriterien und Schwellenwahl direkt steuern.
Über das Test-Set hinaus
Test-Set-Performance ist notwendig, aber nicht hinreichend. Ein Modell, das in der Evaluation glänzt, kann in Produktion spektakulär scheitern — durch Data Drift, adverse Inputs oder Edge Cases, die nicht im Test-Set sind.
Bauen Sie Monitoring, das Geschäftsergebnisse neben technischen Metriken trackt. Wenn beide auseinanderlaufen, haben Sie ein Frühwarnsystem.
Der menschliche Faktor
Die besten ML-Teams bewahren gesunde Skepsis gegenüber beeindruckenden Zahlen. Sie fragen „was könnte schiefgehen?", bevor sie feiern.
Bauen Sie eine Kultur, in der das Hinterfragen von Metriken gefördert, nicht bestraft wird. Ziel ist Wertlieferung, nicht Dashboard-Eitelkeit.