- Hanna Dünschede
- Mittwoch, 10. Dez 2025
- 10:00 - 10:45
- Plateau 2 | Ebene 1
- Session
Retrieval Augmented Generation (RAG) kombiniert Informationsabruf mit generativer KI – doch wie lässt sich die Qualität der Ergebnisse objektiv und effizient bewerten? Der Vortrag beleuchtet mit "LLM-as-a-Judge" einen innovativen Ansatz, bei dem große Sprachmodelle eingesetzt werden, um Antworten nach Kriterien wie Faktizität und Relevanz zu beurteilen.
Im Vergleich zu klassischen Verfahren wie ROUGE oder BLEU überzeugt der Ansatz durch höhere Flexibilität, bessere Skalierbarkeit und eine Bewertung, die näher an der menschlichen Beurteilung liegt. Gleichzeitig wirft er neue Fragen auf, etwa nach Transparenz, Bias und der Verlässlichkeit automatisierter Urteile.
Anhand praktischer Beispiele wird gezeigt, wie dieser Ansatz konkret angewendet werden kann und worauf man bei der Entwicklung eigener Evaluierungsstrategien achten sollte.
