•   Michael Christen
  •   Dienstag, 09. Dez 2025
  •   09:00 - 09:45
  •    Plateau 2 | Ebene 1
  • Session

Ein Erklär-Vortrag in Form einer Zeitreise durch Theorie und Funktionsweise von Sprachmodellen – für alle die tatsächlich ganz genau wissen wollen wie LLMs funktionieren. In diesem Vortrag wird die Funktionsweise von LLMs (Large Language Models) am Beispiel von ChatGPT bis ins kleinste Detail beleuchtet. Wir bleiben dabei nicht auf einer oberflächigen Ebene sondern gehen vollständig ins Detail, bleiben aber allgemein verständlich. Ausgehend von den historischen Wurzeln der KI-Forschung – wie den Arbeiten von Markov (Markov-Ketten für Textgenerierung) und Claude Shannon (Informationstheorie) – wird die Entwicklung moderner Sprachmodelle nachgezeichnet. Der Fokus liegt auf den bahnbrechenden Transformer-Architekturen und deren Schlüsselkomponenten: Embeddings, Attention (Bengio), Self-Attention und Multi-Head-Attention. Es wird gezeigt, wie neuronale Netze durch Backpropagation und Autoencoder (Hinton) lernen, Bedeutungszusammenhänge in hochdimensionalen Vektorräumen abzubilden. Die Rolle von Softmax-Aktivierung, Positional Encoding und Feedforward-Netzen wird ebenso erläutert wie der Übergang von reinen Textgeneratoren (GPT-3) zu dialogfähigen Systemen (ChatGPT) durch Instruct-Tuning und Reinforcement Learning. Ein besonderes Augenmerk gilt der Frage, ob solche Modelle tatsächlich "Verständnis" entwickeln – diskutiert anhand des chinesischen Zimmers (Searle) und der These, dass Intelligenz auf Kompression beruht (Hutter, Hinton). Abschließend wird ein Ausblick auf zukünftige Entwicklungen wie planende KI-Systeme gegeben.