Mensch und Maschine im Dialog: die stille Revolution der Sprach-KI

Während KI-Technologien in vielen Bereichen noch mit Herausforderungen kämpfen, haben sich diese in der natürlichen Sprachverarbeitung (NLP) bereits als äußerst erfolgreich erwiesen. Sprachmodelle wie GPT, llama oder BERT zeigen, dass Maschinen menschliche Sprache erstaunlich gut “verstehen“ und verarbeiten können. Doch warum schreiten die Innovationen in diesem Bereich so rasant voran? In diesem Beitrag beleuchtet Autor Julius Kirschbaum die drei zentralen Erfolgsfaktoren von NLP und zeigt, wie Unternehmen diese Technologien gezielt nutzen können.
 

Warum Natural Language Processing (NLP) besonders erfolgreich ist

Während die Erwartungen an Technologien der künstlichen Intelligenz (KI) in vielen Bereichen unerfüllt bleiben, konnten diese im Bereich der natürlichen Sprachverarbeitung (eng.: Natural Language Processing (NLP)) bereits weitreichende Erfolge erzielen. Obwohl auch in diesem Bereich teilweise überzogene Erwartungshaltungen und falsche Annahmen vorhanden sind. Dennoch kann die Anwendung von KI-Technologien im Bereich NLP bereits als fortgeschrittener betrachtet werden als in anderen Bereichen wie bspw. Zeitreihendaten aus der Produktion. Es sollte daher generell davon abgesehen werden, KI als einen einzigen homogenen Trend zu sehen, da dieser in verschiedenen Industrien, Domänen und Anwendungsfällen sehr unterschiedlichen Einfluss hat. Auf das Phänomen KI lassen sich eher wenige Erkenntnisse generalisieren. Meist betreffen diese lediglich die jeweiligen Arten von Anwendungen in den unterschiedlichen Anwendungsbereichen. Lediglich auf mathematischer und computerwissenschaftlicher Ebene sind Ergebnisse auf manche Arten von KI-Technologien generalisierbar.

Drei Gründe sind besonders dafür verantwortlich, warum es im Bereich NLP eine so schnelle und starke Entwicklung von KI-basierten Lösungen gibt:

  1. Verfügbarkeit von Sprachmodellen: Es gibt nur wenige Bereiche, in denen die jeweiligen KI-Modelle einer beinahe grundsätzlichen Anwendbarkeit unterliegen. Im Bereich NLP ist dies so, weil Sprache fundamental ist. Ein anständig entwickeltes Sprachmodell kann zunächst mit jeglichen Arten von Texten umgehen – im Grunde auch sprachunabhängig. Zudem existieren unzählige spezialisierte und multi-linguale Modelle auf Plattformen wie Huggingface, viele davon mit Open-Source Lizenzen. Dabei kommen diese nicht nur aus den USA, sondern auch aus anderen Ländern wie China, wie jüngst das Start-Up DeepSeek gezeigt hat und ein waschechtes Beben an den weltweiten Aktienmärkten mit Technologieganten ausgelöst hat.
  2. Universelle Anwendbarkeit:  Die aktuellen Generationen von Sprachmodellen (speziell Large Language Models (LLM) und Embedding Modelle) verstehen Sprache erstaunlich gut, können also sehr gut mit Textstruktur umgehen. Herausforderungen entstehen jedoch bei Domänen, Industrien oder auch Organisationen mit sehr spezifischem Vokabular, wie bspw. beim Begriff „Cluster“, dessen Verwendung in manchen Kontexten für ein Sprachmodell unklar ist. In solchen Fällen muss ein Sprachmodell häufig an die besondere Nutzung von Fachvokabular angepasst werden, etwa durch Nachtrainieren oder Fine-Tuning.
  3. Verfügbarkeit komplementärer Technologien: KI-basierte Anwendungen umfassen in der Regel eine Vielzahl an Technologien. Entscheidend für den Erfolg ist die Fähigkeit, diese so zu kombinieren, dass es zu einer langfristig sinnvollen Lösung kommt – ggf. inklusive Geschäftsmodell, sollte es sich um ein Produkt oder Service statt einer internen Lösung handeln. Dabei geht es um Cloud-Services, Edge-Geräte, Vektordatenbanktechnologien, Code-Bibliotheken, Lösungsansätze wie Retrieval-Augmented-Generation (RAG), Integrationsservices, ML-Ops-Lösungen, usw. Im Vergleich zu anderen Anwendungsbereichen ist NLP besonders fortgeschritten, was NLP-Anwendungen vergleichsweise operativ einsetzbar macht.

Im Zertifikatslehrgang „Fachingenieur GenAI Sprachmodelle VDI“ fokussieren wir genau diese Technologien. Wir verdeutlichen am Beispiel des RAG-Ansatzes, wie Nutzer*innen in natürlicher Sprache mit digitalen Daten und Informationen interagieren können. Das kann eine strukturierte Quelle sein, wie ein SAP-System oder eine SQL-Datenbank, oder auch eine weniger strukturierte Quelle, wie eine PDF- oder Textdatei.

Derartige Ansätze revolutionieren die Art und Weise, wie wir zukünftige Interaktionen mit IT-Systemen gestalten, unabhängig der Strukturiertheit der Daten. Damit entstehen nicht nur neue Anforderungen an benötigten Kompetenzen, sondern auch ein Riesenbedarf an Weiterbildungen. Die Vision ist, dass zukünftig auch Personen ohne technische Vorkenntnisse mit komplexen IT-Systemen wie ERP-Systeme interagieren können.
 

Technische Herausforderungen und Lösungen

Damit derartige Visionen realisiert werden können, sind noch einige Weiterentwicklungen nötig. Aus technischer Sicht bedarf es speziell zweier Schritte:

  1. Zum einen muss es Lösungen geben, die Fragen oder Anweisungen von Nutzer*innen in syntaktisch korrekte Anfragen an IT-Systeme umformulieren können (strukturierte Abfrage).
  2. Zum anderen benötigen wir Ansätze, um unstrukturierte Daten systematisch in Vektor- oder Graph-Datenbanken zu speichern, wozu häufig einiges an Vorprozessierung nötig ist.
     

Im Zertifikatslehrgang „Fachingenieur GenAI Sprachmodelle VDI“ schauen wir in diese Bereiche und bauen erste Lösungen, gerne auch mit passenden Anwendungsfällen aus den Unternehmen der Teilnehmenden.

Wir steigern damit die Fähigkeit von Unternehmen, ihre eignen NLP-Lösungen zu entwickeln. Zudem stellen wir sicher, dass dies im Rahmen einer Projektstruktur geschieht, die für derartige datengetriebene Projekte geeignet ist. Wir verorten unseren Lehrgang dabei klar und deutlich im KI-Hype und befähigen die Abstraktion verschiedener KI-Anwendungen und Trends.

Über den Autor:

Julius Kirschbaum, M. Sc. ist gelernter Wirtschaftsingenieur für Werkstoff- & Prozesstechnik (Materialwissenschaften). Nach seinem Studium an der RWTH Aachen wechselt er an die Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU). Dort arbeitet er als wissenschaftlicher Mitarbeiter am Lehrstuhl für Wirtschaftsinformatik, Innovation und Wertschöpfung und promoviert dort zum Thema KI-Innovationsökosysteme mit Fokus auf die natürliche Sprachverarbeitung. Außerdem engagiert er sich ehrenamtlich bei Ingenieure ohne Grenzen e. V. im Bereich Weiterbildung.