Wie gut sind Sprachmodelle im Deutschen?

Wie gut funktionieren Sprachmodelle für die deutsche Sprache, wenn die meisten Modelle mit englischen Texten trainiert und bewertet werden? ontolux hat es getestet.

Große Sprachmodelle (Large Language Models, LLMs) haben sich als führende Modelle in der Verarbeitung natürlicher Sprache etabliert und vereinen viele Fähigkeiten, die bislang spezialisierten Modellen vorbehalten waren. Da aktuelle LLMs hauptsächlich mit englischen Textdaten trainiert wurden, ist ihre Fähigkeit zur Verarbeitung von nicht-englischem Text allerdings noch eingeschränkt. Diesem Problem lässt sich theoretisch leicht Abhilfe verschaffen, da auf großen Datensätzen vortrainierte LLMs auf alle Arten von speziellen Domänen und Aufgaben angepasst werden können (mittels “Finetuning” oder “Continuous Pretraining”), einschließlich der Anpassung auf eine ganze Sprache, in diesem Fall Deutsch. Doch wie können wir die Verbesserung eines solchen angepassten Modells messen, wenn doch die meisten gängigen Evaluationsbenchmarks selbst auf Englisch sind?
Dankenswerterweise haben Forscher von LAION kürzlich mithilfe von GPT3.5 einige der wichtigsten LLM-Benchmarks ins Deutsche übersetzt. Sie berichten über die Leistung ihrer eigenen an das Deutsche angepassten Modelle sowie der entsprechenden Basismodelle auf diese Benchmarks.

Im ersten Teil hat ontolux die Leistung anderer auf Deutsch angepasste Modelle und ihrer Basismodelle getestet, um ein vollständigeres Bild der aktuellen deutschen LLM-Landschaft zu zeichnen.

Im zweiten Teil versuchen sie sich einer Bewertung anzunähern, indem sie die Perplexität, den Grad der “Überraschtheit” des Modells, anhand von aktuellen, deutschen Nachrichtenartikeln berechnen.

Zum Blogbeitrag: Wie gut sind KI-Sprachmodelle im Deutschen?

Wie gut sind Sprachmodelle im Deutschen?

Neues von Neofonie

Composable Architecture: Buzzword oder strategische Notwendigkeit?

CMS, DXP und das große Missverständnis

Multibrand, Multilingual, Multisite - Content skalierbar organisieren

Wie die R+V Versicherung mit dem Vorsorge-Check neue Zielgruppen erschließt

Content Workflows mit dem Magnolia AI Accelerator vereinfachen

Mit Kahneman-Tversky-Optimization (KTO) Chatbots verbessern

CMS-Vergleich | Der Erfolg von Magnolia CMS und AEM

Optimierung von RAG-Systemen durch Selbstreflexion

Multimodale LLMs: Wenn LLMs sehen und hören lernen

Onboarding-Funktionen: Personalmanagement-Tools im Vergleich

Learning to rank: Mit Machine Learning zu besseren Suchergebnissen

Künstliche Intelligenz und Ethik

DORA für Versicherungen: Die Rolle von Agenturen für Compliance und Resilienz

Der European AI-Act und die Folgen für Unternehmen

Content Commerce mit SAP und Contentful

How-to: Multi-Instanzen in TYPO3 erstellen

Herausforderungen für Innovatoren im komplexen E-Health-Markt

Was ist Natural Language Processing

Universal Design: Warum Barrierefreiheit wichtig ist

CMS-Vergleich für Unternehmen | Magnolia vs. AEM

Testmethoden | Testprozesse und Strategien im IT-Qualitätsmanagement

Was sich hinter Headless CMS verbirgt

Elasticsearch & Magnolia Indexing

Wie es B2B Webseiten gelingt, mehr Service zu bieten

Magnolia CMS und commercetools in 5 Schritten integrieren

Enterprise-CMS Auswahl

B2B Storytelling & UX

Hybris + Magnolia CMS

Core Web Vitals und deren Auswirkung auf die Webentwicklung

KI Made in Germany

Kontakt

Über uns

Jobs