Wie gut funktionieren Sprachmodelle für die deutsche Sprache, wenn die meisten Modelle mit englischen Texten trainiert und bewertet werden? ontolux hat es getestet.


Große Sprachmodelle (Large Language Models, LLMs) haben sich als führende Modelle in der Verarbeitung natürlicher Sprache etabliert und vereinen viele Fähigkeiten, die bislang spezialisierten Modellen vorbehalten waren. Da aktuelle LLMs hauptsächlich mit englischen Textdaten trainiert wurden, ist ihre Fähigkeit zur Verarbeitung von nicht-englischem Text allerdings noch eingeschränkt. Diesem Problem lässt sich theoretisch leicht Abhilfe verschaffen, da auf großen Datensätzen vortrainierte LLMs auf alle Arten von speziellen Domänen und Aufgaben angepasst werden können (mittels “Finetuning” oder “Continuous Pretraining”), einschließlich der Anpassung auf eine ganze Sprache, in diesem Fall Deutsch. Doch wie können wir die Verbesserung eines solchen angepassten Modells messen, wenn doch die meisten gängigen Evaluationsbenchmarks selbst auf Englisch sind?
Dankenswerterweise haben Forscher von LAION kürzlich mithilfe von GPT3.5 einige der wichtigsten LLM-Benchmarks ins Deutsche übersetzt. Sie berichten über die Leistung ihrer eigenen an das Deutsche angepassten Modelle sowie der entsprechenden Basismodelle auf diese Benchmarks.

Im ersten Teil hat ontolux die Leistung anderer auf Deutsch angepasste Modelle und ihrer Basismodelle getestet, um ein vollständigeres Bild der aktuellen deutschen LLM-Landschaft zu zeichnen.

Im zweiten Teil versuchen sie sich einer Bewertung anzunähern, indem sie die Perplexität, den Grad der “Überraschtheit” des Modells, anhand von aktuellen, deutschen Nachrichtenartikeln berechnen.

Zum Blogbeitrag: Wie gut sind KI-Sprachmodelle im Deutschen?