Semantische Textanalyse für deutsche Texte

Semantische Textanalyse für deutsche Texte

Unbestritten ist, dass die Menge der produzierten Daten exponentiell wächst. Doch nicht nur das Datenvolumen steigt, auch die Zusammensetzung der Daten ändert sich. Der größte Teil der Daten liegt in unstrukturierter Form vor und zum beträchtlichen Teil handelt es sich hierbei um Texte, zum Beispiel in Form von Artikeln, Dokumenten, E-Mails, Websites, Befragungen, Studien oder Beiträgen. Diese auszuwerten erfordert viel Zeit. Um diesen Daten Herr zu werden, werden spezialisierte Werkzeuge benötigt. Dies ist die Domäne der semantischen Textanalyse. Peter Adolphs, ehemaliger Head of Research der Neofonie, gibt einen Überblick über Anwendungsfelder, Tools und Herausforderungen der automatisierten Textanalyse, um die Bedeutung der Texte auswerten und charakterisieren zu können.

Anwendungsfelder und Nutzen der Textanalyse

Ein frühes Beispiel für die kommerzielle Nutzung von Textanalyse-Verfahren ist Google AdSense. Dieser Dienst platziert textuelle Werbeanzeigen auf Webseiten anhand der thematischen Nähe von Anzeige und Websiteinhalt. Eine wirkliche mediale Aufmerksamkeit erreichte semantische Textanalyse aber erst in diesem Jahrzehnt, und zwar auf dem Gebiet der automatischen Fragebeantwortung. Anfang 2011 trat IBM mit seinem Watson System in der Fernseh-Show Jeopardy gegen zwei Gewinner der Show an und schlug diese um Längen. Im Oktober desselben Jahres stellte Apple sein Siri System als das Haupt-Feature des neuen iPhones vor. Beide Ereignisse sind wichtige Wegmarken für eine Öffnung von semantischen Technologien für die breite Masse.

Semantische Technologien erlauben es, Schlüsselwörter für Texte automatisch zu ermitteln, Personennamen zu erkennen und auch große Mengen von Dokumenten automatisch zu klassifizieren bzw. bestimmten Themenbereichen zuzuordnen. Damit sind diese Technologien für alle Unternehmen und Branchen relevant, die Texte produzieren (etwa Redaktionen und Verlage), Textarchive aufbereiten (Bibliotheken) oder in denen laufend große Textmengen anfallen (zum Beispiel Support-Center). So werden Redakteure durch die automatische Identifikation von Schlüsselwörtern bei der Verschlagwortung ihrer Artikel unterstützt. Ebenso lassen sich mit dieser Technologie Themenseiten (Topic Pages) vollkommen automatisiert erstellen, was nicht zuletzt für die Positionierung der eigenen Seiten bei den großen Suchmaschinen relevant ist.

Getrieben wird der Bereich auch durch die Auswertung von Textbeiträgen in sozialen Medien (soziale Netzwerke, Blogs und Foren), um für den Anwendungsfall Social Media Monitoring Stimmungen und Diskussionen erfassen zu können (siehe Forschungsprojekt News-Stream 3.0). Unternehmen sind daran interessiert, wie die eigene Marke in den sozialen Medien wahrgenommen und diskutiert wird. Auch die Konkurrenz lässt sich mit semantischer Textanalyse beobachten und mit der eigenen Marke, dem eigenen Produkt vergleichen.

Gemüse oder Altbundeskanzler „Kohl“?

Für die Analyse von Personen, Organisationen oder Orten in einem Text, wäre es naheliegend den Text mithilfe von Lexika zu durchsuchen. Allerdings ist dies aus mehreren Gründen nicht ganz so trivial, wie es auf den ersten Blick scheint. Zum einen kann ein Lexikon aller bekannten Personen, Organisationen und Orte sehr groß werden. So listet die Wissensbasis DBPedia etwa 1,4 Millionen Personen für die englische Sprache und immerhin noch 180 Tausend Personen für die deutsche Sprache. Hier müssen entsprechende Technologien (zum Beispiel endliche Automaten) für einen effizienten Lookup verwendet werden. Noch schlimmer ist allerdings das Problem der Mehrdeutigkeit: längst nicht jeder Treffer aus einem Personenlexikon bezeichnet auch eine Person. Das Wort “Kohl” in einem Text kann das Gemüse oder den Altbundeskanzler zum Gegenstand haben. Zudem sind Lexika immer (immer!) unvollständig.

Komponenten von Natural Language Processing

Statt lexikonbasierter Named Entity Recognition (NER) werden daher in der Regel offene NER Systeme eingesetzt, die maschinell gelernt sind und versuchen, Namenserwähnungen anhand des linguistischen Kontexts als solches zu erkennen. Dennoch sind Lexika nicht bedeutungslos. Wissensbasen wie DBPedia oder Freebase sind letztlich digitale Modelle der Welt und bieten eindeutige Bezeichner für Entitäten in der Welt. Wurde die namentliche Erwähnung einer Entität erst einmal identifiziert, ist der nächste Schritt die Referenzauflösung in Bezug auf so eine Wissensbasis. Auch hier stellt sich – wie so oft bei der maschinellen Sprachverarbeitung – das Problem der Mehrdeutigkeit. Handelt es sich bei “Peter Müller” um den deutschen Politiker oder den Skifahrer? Oder wird hier ein weiterer Namensvetter erwähnt, einer, der noch nicht die Popularität erreicht hat, um in einer der Wissensbasen aufgeführt zu werden?

Tools und Werkzeuge

In den letzten Jahren sind etliche Textanalyse-Komponenten als Open Source verfügbar gemacht worden. Projekte wie Apache OpenNLP oder die mate-tools bieten generelle Werkzeuge und die zugehörigen sprachspezifischen Modelle für grundlegende linguistische Textanalysen (Segmentierung, Wortart-Zuweisung, Bestimmung von Wortgrundformen, Syntax-Analyse). Mit GATE und Apache UIMA existieren auch Frameworks für den Aufbau ganzer NLP-Pipelines. ClearTK und DKPro stellen Repositories für UIMA bereit, die konkrete NLP-Werkzeuge und Modelle bündeln und integrieren. Allerdings ist die Lernkurve bei all diesen Tools hoch und es sind noch einige weitere Lücken zu schließen, bevor man zu einer semantischen Repräsentation der Texte gelangt.

Wesentlich einfacher ist die Nutzung von Textanalyse-Diensten aus der Cloud. Führende Anbieter sind hier AlchemyAPI und Semantria aus den USA. Neofonie aus Berlin stellt mit TXTWerk API eine Auswahl wichtiger Textanalyse Dienste speziell für deutschsprachige Texte als JSON REST Service zur Verfügung. Beim „Entity Recognition and Disambiguation Challenge 2014“ von Microsoft und Google belegte Neofonie weltweit den sechsten Platz, in puncto Geschwindigkeit sogar den zweiten.

Wie mit der TXT Werk API ein Movie Game entstand

Ende Oktober fand in der Location AHOY! Berlin ein Event für Entwickler – das TMU Hack – statt. Innerhalb von 32 Stunden konnten die Teilnehmer ihre Ideen umsetzen. Auf Basis des Textanalyse Tools TXT Werk API von Neofonie entwickelte ein Team aus sechs Personen ein Kartenlegespiel für Filmkenner: Movie Match Mastery. Jan Mechtel war im Entwicklerteam, Neofonie hat ihn interviewt.

Was hat dich an der Teilnahme des TMU Hackathon gereizt?

Hackathons sind für mich immer eine tolle Erfahrung – die perfekte Umgebung neue Technologien und Leute kennenzulernen und sich gleichzeitig der Herausforderung zu stellen, etwas „rundes“ in kurzer Zeit auf die Beine zu stellen.

Wie kam das Team zustande?

Unser magisches Team kam wie von selbst zustande und bestand aus Alex Dubovskoy, Matthias Loker (Frontend) und Stefan Hintz, (Design & Frontend) sowie Jeremy Tammik, Daniel Karch und mir (backend). Stefan Hintz und ich haben uns zusammen angemeldet. Wir haben schon vorher zusammen gearbeitet (bei www.veodin.com) und gingen deshalb gemeinsam ins Brainstorming.

Warum habt ihr euch für die TXT Werk API entschieden?

Wir haben erst einmal geschaut, welche Tools zur Verfügung gestellt wurden und überlegt, was wir bauen wollen. Natural Language Processing und semantische Textanalysen sind ein spannendes Feld, in dem sich in den letzten Jahren viel getan hat. Als wir die TXT Werk API gesehen haben, wussten wir, dass wir damit etwas Cooles bauen können. Stefan ist ein guter Designer. Wir wollen, dass unsere Hacks immer toll aussehen sollen. So entstand die Idee für Movie Match Mastery.

Wie seid ihr vorgegangen?

Heiko Ehrig von Neofonie konnte uns am Anfang schnell mit der API vertraut machen und eine Machbarkeitsschätzung abgeben. Anfangs gab es noch Pläne mit den Entitäten (Personen, Orte etc.) von TXT Werk zu arbeiten, aber das haben wir zeitlich nicht geschafft. Zunächst mussten wir Filme und deren Textzusammenfassung besorgen, wobei wir auf imdb.com & wikipedia.de fündig wurden. Die Zusammenfassungen haben wir anschließend durch die TXT Werk API geschleust und damit die Schlüsselwörter extrahiert. Gleichzeitig haben wir eine neue Domain registriert und eine Frontend App mit AngularJS & yeoman aufgesetzt. Im Backend haben wir Firebase eingesetzt.

Wie funktioniert Movie Match Mistery?

Movie Match Mastery ist ein Kartenlegespiel, bei dem Paare gefunden werden müssen. Statt zwei gleicher Karten sollen Filmplakat und Handlungen zusammen gebracht werden. Während auf einer Karte das Cover des Films gezeigt wird, werden auf der anderen Karte die vier Haupt-Keywords der Textzusammenfassung des Films gezeigt. Ermittelt wurden die Schlüsselwörter über die Autotagger-Funktionalität der TXT Werk API. Erschwert wird das Spiel durch eine Zeitbegrenzung. Erforderlich sind mindestens zwei Spieler, die an unterschiedlichen Orten webbasiert gegeneinander spielen können.

Wer es selber mal testen will, am besten mit dem Chrome Browser, kann es unter folgender Domain ausprobieren: https://m3my.github.io/

Textanalyse-Tool – TXT Werk API

Mit TXT Werk können beliebige Texte nach semantischen Gesichtspunkten analysiert und automatisch mit Schlagworten und Metadaten angereichert werden. Die Texte werden thematisch klassifiziert, Schlagworte werden automatisch extrahiert, Daten und Zeiträume sowie Namenserwähnungen von Orten, Personen und Organisationen (Named Entities) werden erkannt und mit URIs aus dem Freebase Knowledge Graph verlinkt. Entwickler sind mit Hilfe der sehr schlanken JSON Rest API in der Lage, in ihren Anwendungen unstrukturierte Texte anzureichern und in die Linked Open Data Welt zu vernetzen.

Entwickler sind eingeladen, auf Basis der API eigene Ideen umzusetzen und können dazu bis zu einem bestimmten Datenvolumen die API kostenfrei nutzen.

Interview-Partner: Jan Mechtel

Jan Mechtel ist Geschäftsführer und Gesellschafter bei Veodin Software, und entwickelt seit 4 Jahren Spezialsoftware für große Unternehmensberatungen, Banken und Wirtschaftsprüfer. Hauptprodukte sind KeyRocket, ein Trainer für Tastaturkürzel, und SlideProof, ein Add-in für PowerPoint zur Endformatierung. Er ist ein Hybrid aus zahlengetriebenem Berater und Softwareentwickler (Autodidakt).


Erfahren Sie mehr über Ursprünge und Entwicklungen, wie konkrete Analyseabfragen aussehen und welche Bedeutung NLP spielt.

Lesen Sie den vollständigen Artikel in unserem Whitepaper: „Textanalyse aus der Wolke“

Veröffentlicht am 10. Juni 2015, aktualisiert am 18. Oktober 2020

Teilen auf
Peter Adolphs

Peter Adolphs

Peter Adolphs hat an der Humboldt-Universität zu Berlin Informatik und Linguistik studiert. Er hat sechs Jahre beim Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) an den Themenbereichen Informationsextraktion und automatische Fragebeantwortung gearbeitet. Er war Head of Research bei Neofonie, wo er unter anderem Big Data und NLP Technologien praxisbezogen zusammenführt.

Noelani_Mac

noelani.de: Der neue Onlineshop für trendbewusste Frauen

Der femininen Schmuck von NOELANI erhält erstmalig eine eigene Onlinepräsenz. Von der Konzeption, über das Design bis zur Entwicklung auf Shopware 6 hat Neofonie den neuen Onlineshop umgesetzt.

KI & Forschung 09-2021

In der September-Ausgabe von „KI und Forschung“ werden die Themen Künstliche Intelligenz als Forschungsgebiet, Arbeiten in der Zukunft und Neuigkeiten von Google aus dem Search On Event vorgestellt.

ION ONE beim Digital Marketing Summit 2021

Der Digital Marketing Summit ist das Event des Jahres 2021 für Themen des digitalen Marketings und UX/UI. Axel Hillebrand von der UX-Agentur ION ONE ist mit einem Vortrag vertreten und zeigt, wie B2B-Websites in Lead-Maschinen verwandelt werden.

Whitepaper: Goldstandard für kundenspezifische Suchlösungen

Eine kontinuierliche Optimierung einer Suche ist unerlässlich. In dem Whitepaper „Goldstandard für kundenspezifische Suchlösungen“ stellt Cornelia Werk, Lead Consultant Search bei ontolux, Konzepte einer goldstandardbasierten Evaluation vor.

Index eines Buches

Neofonie startet Forschungsprojekt mit der HU Berlin

Zusammen mit dem Lehrstuhl der HU Berlin von Professor Alan Akbik, startet Neofonie das ZIM Projekt Semantische Begriffsanalyse für Information Retrieval Aufgaben (SEBIRA).

Header_Crossplan_PM

Crossplan Deutschland und Neofonie Mobile GmbH entwickeln Wrapper SDK für Audio-Apps

Mit dem neuen Wrapper SDK von Crossplan Deutschland stehen Audio-Publishern einfach und effizient alle benötigten SDKs für ein datengetriebenes App Advertising und Audio-Marketing zur Integration in die eigene App-Landschaft zur Verfügung. Radiostationen und Audio-Publisher können damit im Handumdrehen ihre Apps mit Datenmanagement-, Tracking- und Werbefunktionalitäten ausstatten.

Green_IT

Neofonie mit klimaneutraler Website

Neofonie setzt auf Green IT und ist bemüht, Emissionen so weit wie möglich zu reduzieren und Ressourcen umweltschonend einzusetzen. Jeder Klick auf neofonie.de ist klimaneutral. Neofonie unterstützt hierfür zertifizierte Klimaprojekte.

Guided Selling im B2B – digitale Vertriebsoptimierung

ION ONE unterstützt den B2B-Vertrieb, mithilfe von Guided Selling Workshops, um potenzielle Kunden effektiv zu beraten und Kunden vom Kauf zu überzeugen.

Managed Hosting mit mpex für maximale Sicherheit

Die Managed Hosting Lösungen unseres Partner mpex sorgen mit maximaler Sicherheit für beste Ergebnisse im Deployment und Betrieb von Neofonie und unser Kunden.

Core Web Vitals und deren Auswirkung auf die Webentwicklung

Mit der Einführung der Core Web Vitals Mitte Juni 2021 als zusätzliche Rankingfaktoren kommen auf die Webentwicklung neue Herausforderungen zu.

Geburtstagsverlosung bei ION ONE

ION ONE begeistert bereits seit einem Jahr seine Kunden. Feiern Sie das heutige Jubiläum mit und gewinnen Sie einen kostenfreien Workshop Ihrer Wahl.

Fussball_2021

Social Analytics zur UEFA EURO 2020

Wie wird über die spannendsten Ereignisse vor, während und nach den Spielen in den sozialen Netzwerken zur EURO 2020 gesprochen – eine Social Media Analyse von ontolux.

Sinnbild für Online Shopping

Warum eine goldstandard-basierte Evaluation?

Zur diesjährigen MICES trifft sich die E-Commerce-Suchgemeinschaft, um neueste Trends zu diskutieren. Mit dabei sind Cornelia Werk und Bertram Sändig von ontolux, die anhand von Kundenprojekten die Vorteile einer goldstandard-basierten Evaluation vorstellt.

amor_device_700

amor.de auf Shopware 6

Seit über 40 Jahren vertreibt Amor Echtschmuck und ist Europas Marktführer im mittleren Preissegment. Mit der Konzeption und Umsetzung des neuen Onlineshop hat der Schmuckhersteller Neofonie beauftragt.

DigitalHealthcare_Neofonie

Ausbau der Digitalisierung im Gesundheitswesen

Mit dem kürzlich beschlossenen Digitale-Versorgung-und-Pflege-Modernisierungsgesetz (DVPMG) verabschiedet der Bund bereits das dritte Gesetz, um die Digitalisierung im Gesundheitsmarkt voranzutreiben. Für die Vernetzung aller Beteiligten im Markt gestaltet Neofonie die Gesundheitstechnik von morgen aktiv mit und unterstützt Unternehmen, bei der Entwicklung von E-Health Lösungen.

Mit UX-Design die Customer Experience im Onlineshop beeinflussen

In der Videoreihe der media.net berlinbrandenburg zum Thema Customer Experience im E-Commerce, gibt Axel Hillebrand, UX Consultant von ION ONE, wertvolle Tipps, wie eine gute Usability und ein ausgefeiltes UX-Design Nutzer begeistert und so Ihre Conversion positiv beeinflusst.

Digitalen Wandel mit Managed IT-Services gestalten

Die stets an Komplexität gewinnenden Web- und E-Commerce-Projekte erfordern auf allen Ebenen ein Höchstmaß an Leistung, Sicherheit und Zuverlässigkeit. Bei diesen hohen Anforderungen wird Neofonie bereits seit 2004 durch das Berliner Hostingunternehmen mpex in allen Belangen des Betriebs unterstützt.

Digitales Recruiting – mit neuen Strategien gewappnet für die Zukunft

Celina Martin, HR-Managerin bei Neofonie Mobile war bei Digital Bash HR zu Gast und diskutierte mit HR-Experten zum Thema Digitales Recruiting in 2021 und gab Einblicke in HR-Strategien der Neofonie Mobile. Candidate Experience ist besonders wichtig im digitalen Wandel des Recruitings.

Container wird hochgehoben

Docker-Container als ideales Software-Transportmittel

Webprojekte werden immer komplexer und die Halbwertszeit der Technologien, die dabei zum Einsatz kommen, werden immer kürzer. Für die Softwareentwicklung ist die Containertechnologie von Docker ein ideales Transportmittel.

Corona-Reise-Check auf Shortlist für Deutschen Digital Award

In der Kategorie „Digital for Goods“ ist der Corona-Reise-Check des Wort & Bild Verlages für den Deutschen Digital Award 2021 nominiert. Der Bundesverband Digitale Wirtschaft e.V. hat in einer Shortlist die Vorauswahl getroffen.

Unser Newsletter „Neo Report“ vermittelt konkretes Praxiswissen, Trends und Know-how für Ihr digitales Business – quartalsweise und kompakt. Jetzt anmelden.