Text Mining und NLP-Frameworks im Vergleich

Text Mining und NLP-Frameworks im Vergleich

Das KI-Team der Neofonie hat NLP-Framworks, die auch deutsche Textdaten verarbeiten, untersucht und getestet. Die Ergebnisse, die bei der Suche nach dem passenden NLP-Framework helfen, stellt Cornelia Werk im Blogbeitrag vor.

Die automatisierte Analyse von natĂŒrlichsprachlichen Textdaten gewinnt fĂŒr Unternehmen immer mehr an Bedeutung. So kommt eine automatisierte Textanalyse bei der Verwendung automatischer Sprachassistenten (Chatbots) ebenso zum Einsatz, wie im Rahmen einer intelligenten Suche in Textdaten sowie bei inhaltsbasierten Empfehlungssystemen. Wer deutschsprachige Textdaten analysieren möchte, muss das Rad aber nicht neu erfinden: Denn eine Vielzahl von Firmen entwickeln und optimieren dafĂŒr tagtĂ€glich dedizierte Textanalyse-Frameworks, welche in unterschiedlichem Grad die spezifischen Eigenheiten der deutschen Sprache berĂŒcksichtigen.

Die KomplexitĂ€t natĂŒrlicher Sprache und die Unterschiede zwischen einzelnen Sprachen stellen dabei große Herausforderungen an die Entwickler, welche gezwungen sind, Schwerpunkte zu setzen. Entsprechend umfangreich ist das Spektrum an Lösungen, die zur VerfĂŒgung stehen. So werden beispielsweise auch von großen Firmen wie Google oder Microsoft Textanalyse-Frameworks angeboten, die aber fĂŒr eine Vielzahl von Sprachen verfĂŒgbar sind und daher keinen Fokus auf die Analyse explizit deutschsprachiger Textdaten legen. 

Das KI-Team der Neofonie hat das Anbieterfeld fĂŒr Textanalyse-Frameworks, die in der Lage sind, auch deutsche Textdaten zu verarbeiten, untersucht und verschiedene Frameworks getestet. Zur Beantwortung der Frage nach dem passenden Text Mining-Framework leisten diese Informationen, die wir in einem ausfĂŒhrlichen Whitepaper zusammengefasst haben, einen wichtigen Beitrag. Eine Kurzfassung der Analyse stellen wir hier vor. 

Die Anbieter fĂŒr deutsche Textanalyse

Die Auswahl an Text Mining Anbietern ist groß und jeder setzt eigene Schwerpunkte, weshalb ein Vergleich schwierig ist. Dennoch haben wir uns fĂŒr 17 Anbieter entschieden, die wir als reprĂ€sentativ fĂŒr das Spektrum der deutschen NLP-Frameworks erachten und sich in Anzahl und Art der unterstĂŒtzten Funktionen Ă€hneln. Unser Fokus lag dabei explizit auf der Verarbeitung deutscher Texte.  Die Auswahl erhebt jedoch keinen Anspruch auf VollstĂ€ndigkeit.

Unter den Anbietern befinden sich u.a. IBM (Natural Language Understanding), Google (Natural Language), Retresco, Microsoft (Textanalysen), Intrafind, Deepset und Averbis.

Der NLP-Framework-Vergleich

Worin unterscheiden sich die Anbieter und ihre Frameworks und in welchen Bereichen liegen die Unterschiede? Die Verarbeitung natĂŒrlichsprachlicher Textdaten (Natural Language Processing, kurz: NLP) kann ĂŒber ganz verschiedene AnsĂ€tze realisiert werden. FĂŒr die Analyse der verschiedenen Anbieter haben wir eine Liste an FunktionalitĂ€ten erstellt, welche es ermöglichen, den Inhalt von Textdaten durch den Computer sinnvoll abzubilden.

Die Vielzahl von möglichen FunktionalitĂ€ten innerhalb eines solchen Frameworks erschwert die Vergleichbarkeit hinsichtlich der QualitĂ€t enorm. Um trotzdem einen Überblick ĂŒber die Performance der einzelnen Frameworks zu erlangen, haben wir drei der am hĂ€ufigsten unterstĂŒtzten FunktionalitĂ€ten herausgegriffen und fĂŒr jeden Anbieter QualitĂ€tstests  anhand verschiedener Beispieltexte (News und Reviews) durchgefĂŒhrt. Es handelt sich um folgende drei Textanalyse-Werkzeuge:

  • Named Entity Recognition & Linking
  • Sentiment-Analyse
  • Textklassifikation

DarĂŒber hinaus sind aber auch FunktionalitĂ€ten wie z. B. Spracherkennung, Textvergleiche und -zusammenfassungen sowie SchlĂŒsselworterkennung (Keyword Extraction) in vielen Textanalyse-Frameworks integriert. 

FĂŒr jedes der drei oben genannten Werkzeuge haben wir pro Anbieter bewertet, wie hoch der angebotene Funktionsumfang ist und wie gut die eigentliche Analyse funktioniert. Allerdings waren Tests nur fĂŒr diejenigen Anbieter möglich, die einen Testzugang oder eine Demoversion zur VerfĂŒgung stellen. 

Named Entity Recognition & Linking

Unsere Tests haben ergeben, dass im Bereich Named Entity Recognition (NER) & Linking sowohl der Funktionsumfang als auch die QualitĂ€t sehr unterschiedlich ausfĂ€llt. Den höchsten Umfang bieten Dandelion, Google, die Neofonie, Rosette und Textrazor an. Konkret heißt das, dass die Frameworks dieser Anbieter EntitĂ€ten nicht nur extrahieren, sondern auch einer von mindestens 5 Kategorien (wie z.B. Personen, Orten, etc.) zuordnen und ein umfassendes Entity-Linking unterstĂŒtzen.

Der deutsche Markt fĂŒr NER (inkl. Entity Linking) nach Tests von Demoversionen bzw.
TestzugÀngen. Dargestellt wird auf der x-Achse die QualitÀt, die die Tests gezeigt haben. Je weiter rechts sich ein Anbieter befindet, desto höher war die QualitÀt der Testergebnisse. Im VerhÀltnis dazu ist der Funktionsumfang zu sehen, welcher auf der y-Achse gezeigt wird. Je weiter oben ein Anbieter positioniert ist, desto höher war der Funktionsumfang. Anbieter, die nicht getestet werden konnten, sind nicht enthalten. Es zeigt sich, dass Google, die Neofonie und Textrazor derzeit diejenigen Anbieter sind, deren NER und Entity Linking sowohl mit einem hohem Funktionsumfang als auch mit hoher QualitÀt punkten können.

Sentiment Analyse

Im Bereich Sentiment-Analyse stecken fast alle NLP-Frameworks noch in den Kinderschuhen. Sofern eine Sentiment-Analyse ĂŒberhaupt unterstĂŒtzt wird, besteht sie in der Regel schlicht aus einer Angabe eines grundsĂ€tzlichen Sentiments (positiv, neutral oder negativ) fĂŒr den gesamten untersuchten Text.

Textklassifikation

Ganz anders sieht es bei der Textklassifizierung aus, also der Zuordnung eines Textes in einen ĂŒbergeordneten Themenbereich (Ă€hnlich den Ressorts in Zeitungen). Hier konnten zwar nur fĂŒnf Anbieter getestet werden, nĂ€mlich IBM, Lexalytics, die Neofonie, Repustate sowie Textrazor. Aber alle fĂŒnf Anbieter erbringen bei der Textklassifizierung sinnvolle Resultate. Den Funktionsumfang betreffend sticht hier nur IBM heraus, das eine hierarchische Klassifikation von Texten in Kategorien und Subkategorien ermöglicht.

Fazit

17 Anbieter fĂŒr deutschsprachige NLP-Frameworks haben wir im Rahmen unseres Whitepapers untersucht: jeder dieser Anbieter setzt einen ganz eigenen Schwerpunkt und zeigt daher SchwĂ€chen im einen und StĂ€rken in einem anderen Bereich. Insgesamt ergibt sich also ein sehr diverses Bild. Dennoch ist deutlich geworden, dass es nur auf den konkreten Anwendungsfall ankommt: denn einen Anbieter mit passender Spezialisierung wird man immer finden. Es ist allerdings sinnvoll, sich vorher mit den eigenen WĂŒnschen und BedĂŒrfnissen im Bereich deutschsprachige Textanalyse intensiv auseinanderzusetzen und gegebenenfalls auch eine Beratung in Anspruch zu nehmen.

Einen detaillierten Überblick ĂŒber die Anforderungen, die Anbieter-Tests sowie die Ergebnisse prĂ€sentieren wir in unserem Whitepaper [“Die wichtigsten deutschen NLP-Frameworks unter der Lupe”].  

Veröffentlicht am 04. September 2019, aktualisiert am 17. Oktober 2020

Bildquelle: unsplash, Helloquence

Teilen auf

Cornelia Werk

Cornelia Werk ist bei der Neofonie als Consultant fĂŒr die Bereiche Data Science und NLP verantwortlich. Als Schnittstelle zwischen unseren Kunden und Entwicklern erarbeitet sie individuelle Lösungen rund um KĂŒnstliche Intelligenz. Sie ist studierte Linguistin und hat bereits als Data Analystin fundierte Erfahrungen in den Bereich intelligente Datenanalyse, KI und QualitĂ€tsmanagement sammeln können.

SAP Silver Partner Logo

Neofonie setzt auf SAP Commerce Cloud

Als Spezialist fĂŒr E-Commerce Lösung hat Neofonie die Partnerschaft mit SAP ausgeweitet und ist nun auch Implementierungspartner fĂŒr die SAP Commerce Plattform.

Illustration von CRM-Systemen

Neofonie hilft mit CRM-Beratung zur 360° Kundensicht

Neofonie unterstĂŒtzt Sie beim Aufbau eines erfolgreichen Customer Relation Managements.

SEO in bunten Buchstaben

Webinar: Relaunch und SEO – So machen Sie es richtig

Am 25.08. zeigt SEO-Experte Anton Littau, wie die richtige Strategie zum richtigen Zeitpunkt hilft.

SAP Silver Partner Logo

Neofonie ist SAP Silver Partner mit TXTWerk

Als SAP Silver Partner stellt Neofonie das Text Mining Framework TXTWerk im SAP App Center ab sofort bereit.

Ibexa-Logo

Neofonie und Ibexa sind Partner

Neofonie und Ibexa vereinbaren Partnerschaft, um Content und Commerce stÀrker miteinander zu verbinden.

Grant McGillivray

Neofonie startet eigenstÀndige UX-Agentur

Das Geheimnis ist nun endgĂŒltig gelĂŒftet: ION ONE nennt sich die neue UX-Agentur von Neofonie!

digital-ratgeber.de auf einen Macbook

Wort und Bild Verlag stellt Digital Ratgeber vor

Mit Neofonie als Partner bringt der Wort & Bild Verlag mit dem „Digital Ratgeber“ eine neue Informationsplattform fĂŒr Apotheken und deren Kunden auf den Markt.

Stadtwerke Oranienburg News

Storytelling-Beratung fĂŒr Stadtwerke Oranienburg

Neofonie unterstĂŒtzt die Stadtwerke Oranienburg in einem kreativen Kommunikationsworkshop, um ihr Online-Ableseportal mit einem Kino-Werbespot zu promoten.

Frau mit Kind im Arm, tröstet das Kind

Spende fĂŒr ein Berliner Kinderhospiz

Mitarbeiter der Neofonie und Neofonie Mobile spenden 1.500 EUR fĂŒr das Berliner Kinderhospiz „Berliner Herz“.

Niedlicher Roboter

Chatbot erstellen in 5 Schritten

Wie ein Chatbot in wenigen Schritten entwickelt werden kann, stellen Bertram SĂ€ndig und Cornelia Werk vor.

Schwarzes Mikrofon

Neofonie Blogcast jetzt auf Google Podcast anhören

Mit der EinfĂŒhrung von Google Podcast in Deutschland, ist jetzt auch der Neofonie Blogcast auf allen Google-GerĂ€ten verfĂŒgbar.

Wann Big Data im Forderungsmanagement sinnvoll ist

Ob Analyseverfahren fĂŒr ein Unternehmen sinnvolle Ergebnisse bringen, kann nicht pauschal beantwortet werden.

Rot-beleuchtete Treppen

FlexibilitÀt als Erfolgsfaktor bei der Shopsystem Auswahl

Welche Punkte Sie bei einer neuen Shoplösung beachten sollten, stellt Michael Vax, VP Product bei Spryker vor.

Jovo Logo

Neofonie Mobile baut Alexa Skills and Google Actions mit Jovo

Neofonie Mobile ist neuer Partner des Entwicklungs-Framework Jovo und erstellt damit Sprachanwendungen fĂŒr Google und Alexa.

Illustration von digitalen Versicherungen

Versicherungen im Vergleich: Apps sind Pflicht

Die aktuelle Marktanalyse des App-Spezialisten Neofonie Mobile belegt Nachholbedarf in der digitalen Transformation unter Versicherern und Krankenkassen.

Text Mining Consulting KI E-Commerce

Wie Onlineshops von KĂŒnstlicher Intelligenz profitieren

Welche Punkte Sie bei einer neuen Shoplösung beachten sollten, stellt Michael Vax, VP Product bei Spryker, vor.

Was eine moderne Suchlösung leisten muss

Eine Suche auf Websites hilft Nutzern, schneller Informationen zu finden. Suchlösungen haben dabei nicht mehr lĂ€nger nur den Anspruch einzelne Begriffe zu finden, sondern relevante Inhalte gezielt auf die BedĂŒrfnisse des Nutzers auszuspielen.

Individual-Commerce: Wie Produktkonfiguratoren Onlineshopper glĂŒcklich machen

Auch Onlineshops können den Kunden mittels smarter Produktkonfiguratoren individuell abholen und ihnen ihr ganz persönliches Shoppingerlebnis ermöglichen.

JĂ€germeister Produktkonfigurator

Wie JĂ€germeister mit neuem Onlineshop mehr Umsatz macht

Das Erfolgsrezept stellt Wiljo Krechting, Manager Public Relations von Shopware, genauer vor.

Mit B2B-Storytelling und UX zu mehr Erfolg

B2B Unternehmen mĂŒssen vom B2C-Nutzererlebnis lernen, um ihre Businesskunden nachhaltig zu begeistern. Dabei stehen User Experience (UX) und Storytelling im Mittelpunkt.

Unser Newsletter „Neo Report“ vermittelt konkretes Praxiswissen, Trends und Know-how fĂŒr Ihr digitales Business – quartalsweise und kompakt. Jetzt anmelden.