KI-Systeme auf eigener Infrastruktur zu betreiben hat viele Vorteile, wie das Erfüllen von Datenschutz- und Geheimhaltungsanforderungen oder die Reduzierung von Abhängigkeiten von Cloud-Anbietern und deren Kostenstrukturen.
Doch zwischen dem Herunterladen eines Modells und einem stabilen, effizienten Betrieb liegt eine entscheidende Frage: Welche Software stellt das rohe Modell tatsächlich über eine API zur Verfügung und führt die Anfragen aus?

Dieser Vortrag gibt einen praxisorientierten Überblick über die wichtigsten Runtimes für den lokalen Betrieb von LLMs, wie z. B. Ollama oder vLLM. Dabei werden nicht nur technische Unterschiede beleuchtet und an konkreten Beispielen gezeigt, was für die Einrichtung nötig ist, sondern auch die Frage diskutiert, welche Lösung für welches Szenario sinnvoll ist.

Der Vortrag vermittelt das nötige Wissen, um konkrete Entscheidungen für Ihre eigene Infrastruktur und Anforderungen treffen zu können — unabhängig davon, ob Sie selbst Ihr KI-System entwickeln oder die technische Architektur abstecken.