Text Mining und NLP-Frameworks im Vergleich

Text Mining und NLP-Frameworks im Vergleich

Das KI-Team der Neofonie hat NLP-Framworks, die auch deutsche Textdaten verarbeiten, untersucht und getestet. Die Ergebnisse, die bei der Suche nach dem passenden NLP-Framework helfen, stellt Cornelia Werk im Blogbeitrag vor.

Die automatisierte Analyse von natürlichsprachlichen Textdaten gewinnt für Unternehmen immer mehr an Bedeutung. So kommt eine automatisierte Textanalyse bei der Verwendung automatischer Sprachassistenten (Chatbots) ebenso zum Einsatz, wie im Rahmen einer intelligenten Suche in Textdaten sowie bei inhaltsbasierten Empfehlungssystemen. Wer deutschsprachige Textdaten analysieren möchte, muss das Rad aber nicht neu erfinden: Denn eine Vielzahl von Firmen entwickeln und optimieren dafür tagtäglich dedizierte Textanalyse-Frameworks, welche in unterschiedlichem Grad die spezifischen Eigenheiten der deutschen Sprache berücksichtigen.

Die Komplexität natürlicher Sprache und die Unterschiede zwischen einzelnen Sprachen stellen dabei große Herausforderungen an die Entwickler, welche gezwungen sind, Schwerpunkte zu setzen. Entsprechend umfangreich ist das Spektrum an Lösungen, die zur Verfügung stehen. So werden beispielsweise auch von großen Firmen wie Google oder Microsoft Textanalyse-Frameworks angeboten, die aber für eine Vielzahl von Sprachen verfügbar sind und daher keinen Fokus auf die Analyse explizit deutschsprachiger Textdaten legen. 

Das KI-Team der Neofonie hat das Anbieterfeld für Textanalyse-Frameworks, die in der Lage sind, auch deutsche Textdaten zu verarbeiten, untersucht und verschiedene Frameworks getestet. Zur Beantwortung der Frage nach dem passenden Text Mining-Framework leisten diese Informationen, die wir in einem ausführlichen Whitepaper zusammengefasst haben, einen wichtigen Beitrag. Eine Kurzfassung der Analyse stellen wir hier vor. 

Die Anbieter für deutsche Textanalyse

Die Auswahl an Text Mining Anbietern ist groß und jeder setzt eigene Schwerpunkte, weshalb ein Vergleich schwierig ist. Dennoch haben wir uns für 17 Anbieter entschieden, die wir als repräsentativ für das Spektrum der deutschen NLP-Frameworks erachten und sich in Anzahl und Art der unterstützten Funktionen ähneln. Unser Fokus lag dabei explizit auf der Verarbeitung deutscher Texte.  Die Auswahl erhebt jedoch keinen Anspruch auf Vollständigkeit.

Unter den Anbietern befinden sich u.a. IBM (Natural Language Understanding), Google (Natural Language), Retresco, Microsoft (Textanalysen), Intrafind, Deepset und Averbis.

Der NLP-Framework-Vergleich

Worin unterscheiden sich die Anbieter und ihre Frameworks und in welchen Bereichen liegen die Unterschiede? Die Verarbeitung natürlichsprachlicher Textdaten (Natural Language Processing, kurz: NLP) kann über ganz verschiedene Ansätze realisiert werden. Für die Analyse der verschiedenen Anbieter haben wir eine Liste an Funktionalitäten erstellt, welche es ermöglichen, den Inhalt von Textdaten durch den Computer sinnvoll abzubilden.

Die Vielzahl von möglichen Funktionalitäten innerhalb eines solchen Frameworks erschwert die Vergleichbarkeit hinsichtlich der Qualität enorm. Um trotzdem einen Überblick über die Performance der einzelnen Frameworks zu erlangen, haben wir drei der am häufigsten unterstützten Funktionalitäten herausgegriffen und für jeden Anbieter Qualitätstests  anhand verschiedener Beispieltexte (News und Reviews) durchgeführt. Es handelt sich um folgende drei Textanalyse-Werkzeuge:

  • Named Entity Recognition & Linking
  • Sentiment-Analyse
  • Textklassifikation

Darüber hinaus sind aber auch Funktionalitäten wie z. B. Spracherkennung, Textvergleiche und -zusammenfassungen sowie Schlüsselworterkennung (Keyword Extraction) in vielen Textanalyse-Frameworks integriert. 

Für jedes der drei oben genannten Werkzeuge haben wir pro Anbieter bewertet, wie hoch der angebotene Funktionsumfang ist und wie gut die eigentliche Analyse funktioniert. Allerdings waren Tests nur für diejenigen Anbieter möglich, die einen Testzugang oder eine Demoversion zur Verfügung stellen. 

Named Entity Recognition & Linking

Unsere Tests haben ergeben, dass im Bereich Named Entity Recognition (NER) & Linking sowohl der Funktionsumfang als auch die Qualität sehr unterschiedlich ausfällt. Den höchsten Umfang bieten Dandelion, Google, die Neofonie, Rosette und Textrazor an. Konkret heißt das, dass die Frameworks dieser Anbieter Entitäten nicht nur extrahieren, sondern auch einer von mindestens 5 Kategorien (wie z.B. Personen, Orten, etc.) zuordnen und ein umfassendes Entity-Linking unterstützen.

Der deutsche Markt für NER (inkl. Entity Linking) nach Tests von Demoversionen bzw.
Testzugängen. Dargestellt wird auf der x-Achse die Qualität, die die Tests gezeigt haben. Je weiter rechts sich ein Anbieter befindet, desto höher war die Qualität der Testergebnisse. Im Verhältnis dazu ist der Funktionsumfang zu sehen, welcher auf der y-Achse gezeigt wird. Je weiter oben ein Anbieter positioniert ist, desto höher war der Funktionsumfang. Anbieter, die nicht getestet werden konnten, sind nicht enthalten. Es zeigt sich, dass Google, die Neofonie und Textrazor derzeit diejenigen Anbieter sind, deren NER und Entity Linking sowohl mit einem hohem Funktionsumfang als auch mit hoher Qualität punkten können.

Sentiment Analyse

Im Bereich Sentiment-Analyse stecken fast alle NLP-Frameworks noch in den Kinderschuhen. Sofern eine Sentiment-Analyse überhaupt unterstützt wird, besteht sie in der Regel schlicht aus einer Angabe eines grundsätzlichen Sentiments (positiv, neutral oder negativ) für den gesamten untersuchten Text.

Textklassifikation

Ganz anders sieht es bei der Textklassifizierung aus, also der Zuordnung eines Textes in einen übergeordneten Themenbereich (ähnlich den Ressorts in Zeitungen). Hier konnten zwar nur fünf Anbieter getestet werden, nämlich IBM, Lexalytics, die Neofonie, Repustate sowie Textrazor. Aber alle fünf Anbieter erbringen bei der Textklassifizierung sinnvolle Resultate. Den Funktionsumfang betreffend sticht hier nur IBM heraus, das eine hierarchische Klassifikation von Texten in Kategorien und Subkategorien ermöglicht.

Fazit

17 Anbieter für deutschsprachige NLP-Frameworks haben wir im Rahmen unseres Whitepapers untersucht: jeder dieser Anbieter setzt einen ganz eigenen Schwerpunkt und zeigt daher Schwächen im einen und Stärken in einem anderen Bereich. Insgesamt ergibt sich also ein sehr diverses Bild. Dennoch ist deutlich geworden, dass es nur auf den konkreten Anwendungsfall ankommt: denn einen Anbieter mit passender Spezialisierung wird man immer finden. Es ist allerdings sinnvoll, sich vorher mit den eigenen Wünschen und Bedürfnissen im Bereich deutschsprachige Textanalyse intensiv auseinanderzusetzen und gegebenenfalls auch eine Beratung in Anspruch zu nehmen.

Einen detaillierten Überblick über die Anforderungen, die Anbieter-Tests sowie die Ergebnisse präsentieren wir in unserem Whitepaper [“Die wichtigsten deutschen NLP-Frameworks unter der Lupe”].  

Veröffentlicht am 04. September 2019, aktualisiert am 17. Oktober 2020

Bildquelle: unsplash, Helloquence

Teilen auf

Cornelia Werk

Cornelia Werk ist bei der Neofonie als Consultant für die Bereiche Data Science und NLP verantwortlich. Als Schnittstelle zwischen unseren Kunden und Entwicklern erarbeitet sie individuelle Lösungen rund um Künstliche Intelligenz. Sie ist studierte Linguistin und hat bereits als Data Analystin fundierte Erfahrungen in den Bereich intelligente Datenanalyse, KI und Qualitätsmanagement sammeln können.

Modellkomimierung_News

KI-Modelle komprimieren und Ressourcen sparen

Viele KI-Modelle haben hohe Trainings- und Betriebskosten und damit sowohl wirtschaftliche als auch ökologische Folgen. Qi Wu von ontolux stellt einige Methoden der Modellkomprimierung vor, die helfen, den CO₂-Fußabdruck, der durch die Verwendung neuronaler Netze entsteht, zu verringern. 

BSI_Grafik_kl

Analyse von Lageinformationen für das BSI

ontolux entwickelt für das Bundesamt für Sicherheit in der Informationstechnik (BSI) eine NLP-Anwendung zur Analyse von Lageinformationen und der Erkennung von Gefahrenmeldungen.

Header_KI_Forschung_ontolux

KI & Forschung 12-2021

Das Jahr 2021 war geprägt von Language Models, aber generell war eine gewisse Stagnation im Bereich KI und NLP zu erkennen. In der aktuellen Dezember-Ausgabe von „KI und Forschung“ stellt Dr. Till Plumbaum erneut die wichtigsten Ereignisse im KI-Umfeld vor.

Kuchenbuch_Michaela

Mobiles Arbeiten bei Neofonie

Seit 2020 arbeitet die Mehrheit der Neofonie Mitarbeiter remote aufgrund der aktuellen Situation – Pandemie. Wie hat sich das Miteinander und das gemeinsame Arbeiten verändert? Wir haben Michaela Kuchenbuch, HR Recruiting, gefragt, was die neue Arbeitskultur bei Neofonie ausmacht und wie sie sich umsetzen lässt.

Künstliche neuronale Netze und Ihre Rechenleistung

Künstliche neuronale Netze (ANN) haben in der Regel eine enorme Größe mit unzähligen Parametern, um komplexe Probleme zu lösen. Dies erzeugt jedoch hohe Rechenleistungen. Unsere KI-Agentur ontolux stellt einige der bekanntesten neuronalen Netze für NLP hinsichtlich ihrer Leistung, Größe und Energieeffizienz vor.

KI & Forschung 11-2021

In der aktuellen November-Ausgabe von „KI und Forschung“ geht es um die Fortschritte in der Informatik, Mathematik und Computertechnik, den freien Zugang zu GPT-3 und um die Ethik von Künstlicher Intelligenz.

Whitepaper zu Text Mining und NLP-Frameworks im Vergleich

ontolux – KI-Agentur der Neofonie gibt im aktualisierten Whitepaper “Die wichtigsten deutschsprachigen NLP-Whitepaper unter der Lupe” einen detaillierten Überblick über Anforderungen, Anbieter-Tests sowie Ergebnisse.

Reibungslose CMS Einführung bei R+V

Auf der Suche nach einer sicheren und einheitlichen technologische Content Plattform für die gesamte R+V, hat sich die R+V Versicherung für Einführung des neuen Content Management Systems Magnolia entschieden. Die Implementierung erfolgte durch Neofonie.

scalye_News_Logo

Neofonie ist Partner für die ABOUT YOU SCAYLE Commerce Engine

Neofonie gehört zu den ersten 14 ausgewählten deutschlandweiten Partnern für das Enterprise Shop Software SCAYLE. Als Partner unterstützt Neofonie vor allem in der Beratung, UX, im Frontend und der Implementierung.

In der aktuellen Oktober-Ausgabe von "KI und Forschung" geht auf das neu erschienene Language Model – MT-NLG von Microsoft und NVIDIA ein, beschäftigt sich mit der neuesten Version der Machine Learning Library PyTorch und der Zukunft der Suche.

KI & Forschung 10-2021

In der aktuellen Oktober-Ausgabe von „KI und Forschung“ geht es um das neu erschienene Language Model – MT-NLG von Microsoft und NVIDIA sowie um die neueste Version der Machine Learning Library PyTorch und die Zukunft der Suche.

Gratis Usability Check mit Grant McGillivray

Ein digitales Produkt, sei es eine Website, ein Onlineshop oder eine digitale Anwendung, soll Usern ein positives Nutzererlebnis verschaffen. Wie kann dieses wichtige Ziel erreicht werden? Wie gut ist das Nutzererlebnis der eigenen Website? ION ONE gibt darauf Antworten mit einem kostenfreien Usability Check.

Digitalisierung der öffentlichen Verwaltung

Im Rahmen der Onlinezugangsgesetzes (OZG) sind Einrichtungen der öffentlichen Hand verpflichtet, ihre Serviceleistungen digital zugänglich zu machen. Hierfür ist die automatisierte Verarbeitung von Texten unumgänglich, um „weniger Papierkram“ zu verursachen.

axel-ionone_news

UX-Sprechstunde mit Axel Hillebrand

Digitale Produkte nutzerzentriert zu gestalten, wirft viele Fragen auf. Mit der UX-Sprechstunde von ION ONE steht Ihnen Axel Hillebrand als UX-Experte für jegliche Fragen zur Verfügung – kostenfrei und ganz individuell.

Noelani_Mac

noelani.de: Der neue Onlineshop für trendbewusste Frauen

Der femininen Schmuck von NOELANI erhält erstmalig eine eigene Onlinepräsenz. Von der Konzeption, über das Design bis zur Entwicklung auf Shopware 6 hat Neofonie den neuen Onlineshop umgesetzt.

KI & Forschung 09-2021

In der September-Ausgabe von „KI und Forschung“ werden die Themen Künstliche Intelligenz als Forschungsgebiet, Arbeiten in der Zukunft und Neuigkeiten von Google aus dem Search On Event vorgestellt.

ION ONE beim Digital Marketing Summit 2021

Der Digital Marketing Summit ist das Event des Jahres 2021 für Themen des digitalen Marketings und UX/UI. Axel Hillebrand von der UX-Agentur ION ONE ist mit einem Vortrag vertreten und zeigt, wie B2B-Websites in Lead-Maschinen verwandelt werden.

Whitepaper: Goldstandard für kundenspezifische Suchlösungen

Eine kontinuierliche Optimierung einer Suche ist unerlässlich. In dem Whitepaper „Goldstandard für kundenspezifische Suchlösungen“ stellt Cornelia Werk, Lead Consultant Search bei ontolux, Konzepte einer goldstandardbasierten Evaluation vor.

Index eines Buches

Neofonie startet Forschungsprojekt mit der HU Berlin

Zusammen mit dem Lehrstuhl der HU Berlin von Professor Alan Akbik, startet Neofonie das ZIM Projekt Semantische Begriffsanalyse für Information Retrieval Aufgaben (SEBIRA).

Header_Crossplan_PM

Crossplan Deutschland und Neofonie Mobile GmbH entwickeln Wrapper SDK für Audio-Apps

Mit dem neuen Wrapper SDK von Crossplan Deutschland stehen Audio-Publishern einfach und effizient alle benötigten SDKs für ein datengetriebenes App Advertising und Audio-Marketing zur Integration in die eigene App-Landschaft zur Verfügung.

Green_IT

Neofonie mit klimaneutraler Website

Neofonie setzt auf Green IT und ist bemüht, Emissionen so weit wie möglich zu reduzieren und Ressourcen umweltschonend einzusetzen. Jeder Klick auf neofonie.de ist klimaneutral. Neofonie unterstützt hierfür zertifizierte Klimaprojekte.

Unser Newsletter „Neo Report“ vermittelt konkretes Praxiswissen, Trends und Know-how für Ihr digitales Business – quartalsweise und kompakt. Jetzt anmelden.