•   Dr. Toni Fetzer
  •   Donnerstag, 11. Dez 2025
  •   13:00 - 13:45
  •    Plateau 2 | Ebene 1
  • Session

Die rasant fortschreitende Entwicklung von Large Language Models (LLMs) stellt Entwickler:innen und Tester:innen vor neue Herausforderungen:

  • Wie lassen sich nicht-deterministische Outputs verlässlich testen?
  • Welche Kriterien definieren eine „gute“ Antwort?
  • Und wie behebt man Fehler in Systemen, die auf probabilistischen Modellen basieren?

In unserem Beitrag teilen wir Einblicke aus aktuellen Projekten, in denen wir uns diesen Fragen gestellt haben. Wir diskutieren verschiedene Evaluationsmetriken wie F1 Score und ROUGE-n, beleuchten das Konzept „LLM-as-a-Judge“ und zeigen auf, welche Chancen und Grenzen damit verbunden sind. Darüber hinaus demonstrieren wir, wie wir mithilfe der MLOps-Plattform MLflow die Performance eingesetzter Modelle kontinuierlich überwachen.

Wir laden dazu ein, gemeinsam Strategien zu erarbeiten, die den Weg durch den Dschungel der LLM-Evaluation ebnen, und zu reflektieren, welche Methoden sich in der Praxis bewähren.