Hanna Dünschede
Mittwoch, 10. Dez 2025
10:00 - 10:45
tbc
Session

Breites Themenspektrum, 20 Subkonferenzen, über 300 Session
Modernes Kongresscenter, Premium-Catering, Vollverpflegung mit Mittags- und Abendbuffet, Kaffepausen, Getränke, Snacks
Frühbucherrabatt

Retrieval Augmented Generation (RAG) kombiniert Informationsabruf mit generativer KI – doch wie lässt sich die Qualität der Ergebnisse objektiv und effizient bewerten? Der Vortrag beleuchtet mit "LLM-as-a-Judge" einen innovativen Ansatz, bei dem große Sprachmodelle eingesetzt werden, um Antworten nach Kriterien wie Faktizität und Relevanz zu beurteilen.
Im Vergleich zu klassischen Verfahren wie ROUGE oder BLEU überzeugt der Ansatz durch höhere Flexibilität, bessere Skalierbarkeit und eine Bewertung, die näher an der menschlichen Beurteilung liegt. Gleichzeitig wirft er neue Fragen auf, etwa nach Transparenz, Bias und der Verlässlichkeit automatisierter Urteile.

Anhand praktischer Beispiele wird gezeigt, wie dieser Ansatz konkret angewendet werden kann und worauf man bei der Entwicklung eigener Evaluierungsstrategien achten sollte.

zur Programmübersicht