Semantische Textanalyse für deutsche Texte

Semantische Textanalyse für deutsche Texte

Unbestritten ist, dass die Menge der produzierten Daten exponentiell wächst. Doch nicht nur das Datenvolumen steigt, auch die Zusammensetzung der Daten ändert sich. Der größte Teil der Daten liegt in unstrukturierter Form vor und zum beträchtlichen Teil handelt es sich hierbei um Texte, zum Beispiel in Form von Artikeln, Dokumenten, E-Mails, Websites, Befragungen, Studien oder Beiträgen. Diese auszuwerten erfordert viel Zeit. Um diesen Daten Herr zu werden, werden spezialisierte Werkzeuge benötigt. Dies ist die Domäne der semantischen Textanalyse. Peter Adolphs, ehemaliger Head of Research der Neofonie, gibt einen Überblick über Anwendungsfelder, Tools und Herausforderungen der automatisierten Textanalyse, um die Bedeutung der Texte auswerten und charakterisieren zu können.

Anwendungsfelder und Nutzen der Textanalyse

Ein frühes Beispiel für die kommerzielle Nutzung von Textanalyse-Verfahren ist Google AdSense. Dieser Dienst platziert textuelle Werbeanzeigen auf Webseiten anhand der thematischen Nähe von Anzeige und Websiteinhalt. Eine wirkliche mediale Aufmerksamkeit erreichte semantische Textanalyse aber erst in diesem Jahrzehnt, und zwar auf dem Gebiet der automatischen Fragebeantwortung. Anfang 2011 trat IBM mit seinem Watson System in der Fernseh-Show Jeopardy gegen zwei Gewinner der Show an und schlug diese um Längen. Im Oktober desselben Jahres stellte Apple sein Siri System als das Haupt-Feature des neuen iPhones vor. Beide Ereignisse sind wichtige Wegmarken für eine Öffnung von semantischen Technologien für die breite Masse.

Semantische Technologien erlauben es, Schlüsselwörter für Texte automatisch zu ermitteln, Personennamen zu erkennen und auch große Mengen von Dokumenten automatisch zu klassifizieren bzw. bestimmten Themenbereichen zuzuordnen. Damit sind diese Technologien für alle Unternehmen und Branchen relevant, die Texte produzieren (etwa Redaktionen und Verlage), Textarchive aufbereiten (Bibliotheken) oder in denen laufend große Textmengen anfallen (zum Beispiel Support-Center). So werden Redakteure durch die automatische Identifikation von Schlüsselwörtern bei der Verschlagwortung ihrer Artikel unterstützt. Ebenso lassen sich mit dieser Technologie Themenseiten (Topic Pages) vollkommen automatisiert erstellen, was nicht zuletzt für die Positionierung der eigenen Seiten bei den großen Suchmaschinen relevant ist.

Getrieben wird der Bereich auch durch die Auswertung von Textbeiträgen in sozialen Medien (soziale Netzwerke, Blogs und Foren), um für den Anwendungsfall Social Media Monitoring Stimmungen und Diskussionen erfassen zu können (siehe Forschungsprojekt News-Stream 3.0). Unternehmen sind daran interessiert, wie die eigene Marke in den sozialen Medien wahrgenommen und diskutiert wird. Auch die Konkurrenz lässt sich mit semantischer Textanalyse beobachten und mit der eigenen Marke, dem eigenen Produkt vergleichen.

Gemüse oder Altbundeskanzler „Kohl“?

Für die Analyse von Personen, Organisationen oder Orten in einem Text, wäre es naheliegend den Text mithilfe von Lexika zu durchsuchen. Allerdings ist dies aus mehreren Gründen nicht ganz so trivial, wie es auf den ersten Blick scheint. Zum einen kann ein Lexikon aller bekannten Personen, Organisationen und Orte sehr groß werden. So listet die Wissensbasis DBPedia etwa 1,4 Millionen Personen für die englische Sprache und immerhin noch 180 Tausend Personen für die deutsche Sprache. Hier müssen entsprechende Technologien (zum Beispiel endliche Automaten) für einen effizienten Lookup verwendet werden. Noch schlimmer ist allerdings das Problem der Mehrdeutigkeit: längst nicht jeder Treffer aus einem Personenlexikon bezeichnet auch eine Person. Das Wort “Kohl” in einem Text kann das Gemüse oder den Altbundeskanzler zum Gegenstand haben. Zudem sind Lexika immer (immer!) unvollständig.

Komponenten von Natural Language Processing

Statt lexikonbasierter Named Entity Recognition (NER) werden daher in der Regel offene NER Systeme eingesetzt, die maschinell gelernt sind und versuchen, Namenserwähnungen anhand des linguistischen Kontexts als solches zu erkennen. Dennoch sind Lexika nicht bedeutungslos. Wissensbasen wie DBPedia oder Freebase sind letztlich digitale Modelle der Welt und bieten eindeutige Bezeichner für Entitäten in der Welt. Wurde die namentliche Erwähnung einer Entität erst einmal identifiziert, ist der nächste Schritt die Referenzauflösung in Bezug auf so eine Wissensbasis. Auch hier stellt sich – wie so oft bei der maschinellen Sprachverarbeitung – das Problem der Mehrdeutigkeit. Handelt es sich bei “Peter Müller” um den deutschen Politiker oder den Skifahrer? Oder wird hier ein weiterer Namensvetter erwähnt, einer, der noch nicht die Popularität erreicht hat, um in einer der Wissensbasen aufgeführt zu werden?

Tools und Werkzeuge

In den letzten Jahren sind etliche Textanalyse-Komponenten als Open Source verfügbar gemacht worden. Projekte wie Apache OpenNLP oder die mate-tools bieten generelle Werkzeuge und die zugehörigen sprachspezifischen Modelle für grundlegende linguistische Textanalysen (Segmentierung, Wortart-Zuweisung, Bestimmung von Wortgrundformen, Syntax-Analyse). Mit GATE und Apache UIMA existieren auch Frameworks für den Aufbau ganzer NLP-Pipelines. ClearTK und DKPro stellen Repositories für UIMA bereit, die konkrete NLP-Werkzeuge und Modelle bündeln und integrieren. Allerdings ist die Lernkurve bei all diesen Tools hoch und es sind noch einige weitere Lücken zu schließen, bevor man zu einer semantischen Repräsentation der Texte gelangt.

Wesentlich einfacher ist die Nutzung von Textanalyse-Diensten aus der Cloud. Führende Anbieter sind hier AlchemyAPI und Semantria aus den USA. Neofonie aus Berlin stellt mit TXTWerk API eine Auswahl wichtiger Textanalyse Dienste speziell für deutschsprachige Texte als JSON REST Service zur Verfügung. Beim „Entity Recognition and Disambiguation Challenge 2014“ von Microsoft und Google belegte Neofonie weltweit den sechsten Platz, in puncto Geschwindigkeit sogar den zweiten.

Wie mit der TXT Werk API ein Movie Game entstand

Ende Oktober fand in der Location AHOY! Berlin ein Event für Entwickler – das TMU Hack – statt. Innerhalb von 32 Stunden konnten die Teilnehmer ihre Ideen umsetzen. Auf Basis des Textanalyse Tools TXT Werk API von Neofonie entwickelte ein Team aus sechs Personen ein Kartenlegespiel für Filmkenner: Movie Match Mastery. Jan Mechtel war im Entwicklerteam, Neofonie hat ihn interviewt.

Was hat dich an der Teilnahme des TMU Hackathon gereizt?

Hackathons sind für mich immer eine tolle Erfahrung – die perfekte Umgebung neue Technologien und Leute kennenzulernen und sich gleichzeitig der Herausforderung zu stellen, etwas „rundes“ in kurzer Zeit auf die Beine zu stellen.

Wie kam das Team zustande?

Unser magisches Team kam wie von selbst zustande und bestand aus Alex Dubovskoy, Matthias Loker (Frontend) und Stefan Hintz, (Design & Frontend) sowie Jeremy Tammik, Daniel Karch und mir (backend). Stefan Hintz und ich haben uns zusammen angemeldet. Wir haben schon vorher zusammen gearbeitet (bei www.veodin.com) und gingen deshalb gemeinsam ins Brainstorming.

Warum habt ihr euch für die TXT Werk API entschieden?

Wir haben erst einmal geschaut, welche Tools zur Verfügung gestellt wurden und überlegt, was wir bauen wollen. Natural Language Processing und semantische Textanalysen sind ein spannendes Feld, in dem sich in den letzten Jahren viel getan hat. Als wir die TXT Werk API gesehen haben, wussten wir, dass wir damit etwas Cooles bauen können. Stefan ist ein guter Designer. Wir wollen, dass unsere Hacks immer toll aussehen sollen. So entstand die Idee für Movie Match Mastery.

Wie seid ihr vorgegangen?

Heiko Ehrig von Neofonie konnte uns am Anfang schnell mit der API vertraut machen und eine Machbarkeitsschätzung abgeben. Anfangs gab es noch Pläne mit den Entitäten (Personen, Orte etc.) von TXT Werk zu arbeiten, aber das haben wir zeitlich nicht geschafft. Zunächst mussten wir Filme und deren Textzusammenfassung besorgen, wobei wir auf imdb.com & wikipedia.de fündig wurden. Die Zusammenfassungen haben wir anschließend durch die TXT Werk API geschleust und damit die Schlüsselwörter extrahiert. Gleichzeitig haben wir eine neue Domain registriert und eine Frontend App mit AngularJS & yeoman aufgesetzt. Im Backend haben wir Firebase eingesetzt.

Wie funktioniert Movie Match Mistery?

Movie Match Mastery ist ein Kartenlegespiel, bei dem Paare gefunden werden müssen. Statt zwei gleicher Karten sollen Filmplakat und Handlungen zusammen gebracht werden. Während auf einer Karte das Cover des Films gezeigt wird, werden auf der anderen Karte die vier Haupt-Keywords der Textzusammenfassung des Films gezeigt. Ermittelt wurden die Schlüsselwörter über die Autotagger-Funktionalität der TXT Werk API. Erschwert wird das Spiel durch eine Zeitbegrenzung. Erforderlich sind mindestens zwei Spieler, die an unterschiedlichen Orten webbasiert gegeneinander spielen können.

Wer es selber mal testen will, am besten mit dem Chrome Browser, kann es unter folgender Domain ausprobieren: https://m3my.github.io/

Textanalyse-Tool – TXT Werk API

Mit TXT Werk können beliebige Texte nach semantischen Gesichtspunkten analysiert und automatisch mit Schlagworten und Metadaten angereichert werden. Die Texte werden thematisch klassifiziert, Schlagworte werden automatisch extrahiert, Daten und Zeiträume sowie Namenserwähnungen von Orten, Personen und Organisationen (Named Entities) werden erkannt und mit URIs aus dem Freebase Knowledge Graph verlinkt. Entwickler sind mit Hilfe der sehr schlanken JSON Rest API in der Lage, in ihren Anwendungen unstrukturierte Texte anzureichern und in die Linked Open Data Welt zu vernetzen.

Entwickler sind eingeladen, auf Basis der API eigene Ideen umzusetzen und können dazu bis zu einem bestimmten Datenvolumen die API kostenfrei nutzen.

Interview-Partner: Jan Mechtel

Jan Mechtel ist Geschäftsführer und Gesellschafter bei Veodin Software, und entwickelt seit 4 Jahren Spezialsoftware für große Unternehmensberatungen, Banken und Wirtschaftsprüfer. Hauptprodukte sind KeyRocket, ein Trainer für Tastaturkürzel, und SlideProof, ein Add-in für PowerPoint zur Endformatierung. Er ist ein Hybrid aus zahlengetriebenem Berater und Softwareentwickler (Autodidakt).


Erfahren Sie mehr über Ursprünge und Entwicklungen, wie konkrete Analyseabfragen aussehen und welche Bedeutung NLP spielt.

Lesen Sie den vollständigen Artikel in unserem Whitepaper: „Textanalyse aus der Wolke“

Veröffentlicht am 10. Juni 2015, aktualisiert am 18. Oktober 2020

Teilen auf
Peter Adolphs

Peter Adolphs

Peter Adolphs hat an der Humboldt-Universität zu Berlin Informatik und Linguistik studiert. Er hat sechs Jahre beim Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) an den Themenbereichen Informationsextraktion und automatische Fragebeantwortung gearbeitet. Er war Head of Research bei Neofonie, wo er unter anderem Big Data und NLP Technologien praxisbezogen zusammenführt.

Digitales in guten Händen – Markenwerte und Branding bei Neofonie

Was bedeutet der Slogan „Digitales in guten Händen“? Anja Unterberger-Schneck, Teamlead Marketing bei Neofonie, gibt Einblicke ins Branding.

axel-ionone

Neofonie beim BVDVA-Kongress 2022

Axel Hillebrand, UX Consultant stellt im Vortrag Methoden zur Gewinn- und Imageoptimierung mittels User Experience beim BVDVA-Kongress 2022 online vor.

QuratorConference_News

ontolux auf der Qurator-Konferenz in Berlin

Auf der Qurator-Konferenz in Berlin versammeln sich KI-Experten, um über digitale Kuratierungsmethoden im Einsatz für Unternehmen zu diskutieren. Dr. Till Plumbaum von ontolux moderiert das Q&A Panel.

newsbox-shopwareLizenzen

Neue Lizenzmodelle bei Shopware

Shopware ändert seine Lizenzmodelle. Mit Rise, Evolve und Beyond werden die bisherigen Professional- und Enterprise-Pakete abgelöst. Mehr… 

ION ONE bei der CX1 World Conference

Grant McGillivray und Björn Andresen von ION ONE richten einen Roundtable zum Thema Nutzerzentrierung für KMUs bei der CX1 World Conference 2022 aus, einem der größten Online-Branchenevents.

Newsbox_dmexco22

Neofonie auf der DMEXCO

Die größte Digitalmesse Deutschlands öffnet in wenigen Tagen die Tore. Neofonie ist vor Ort und berät unabhängig zu Content Management- und E-Commerce-Systemen und zeigt Praxislösungen für den Mittelstand auf.

Füchse_App_Header_Case

Füchse Berlin stellen neue Fan-App vor

Die Füchse Berlin präsentieren ihre neue Fan-App, die durch eine hohe Performance, neue Features und ein ganz neues Nutzererlebnis überzeugt.

Header_KI_Forschung_ontolux_christopher-burns-Kj2SaNHG-hg-unsplash_08_22 (1)

KI & Forschung 08-2022

Die neue Ausgabe der „KI & Forschung“ unserer KI-Agentur ontolux ist da: Dieses Mal hinterfragen sie die Gefahr von KI und thematisieren Deepfakes und Dall-E 2.

Digitale Technologien im Wandel bei Neofonie

Digitale Technologien haben ein enormes Wachstumspotenzial. Im Interview mit Ender Özgür, Head of Software Factories bei Neofonie, beleuchten wir den Wandel.

gartner_quadrant_DigitalCommerce

Neuer Gartner Magic Quadrant Digital Commerce 2022

Gartner veröffentlich jährlich den Magic Quadrant für Digital Commerce. Mit dabei in 2022 sind alle Commerce Partner von Neofonie.

KI & Forschung 07-2022

Die Juli-Ausgabe von KI und Forschung von ontolux gibt Tipps, wie die Sommerzeit genutzt werden kann, um sich näher mit KI und NLP zu beschäftigen.

Neofonie – Aufräumen mit Vorannahmen über den Agenturalltag

Wir räumen mit den Vorurteilen gegenüber dem Agenturleben auf. Interview zum Arbeitsleben in der Digitalagentur Neofonie mit Tim Priwe und André Hirsinger.

ontolux - Qi Wu - hält Vortrag bei der Berlin Buzzwords 2022

ontolux bei der M3 und Berlin Buzzwords – Rückblick

ontolux stellte Methoden für ressourcensparende KI-Modelle bei der Minds Mastering Machines und Berlin Buzzwords im Juni 2022 vor. Ein Rückblick

TextMining_Illustration

Neues Forschungsprojekt Text2Tech

Ziel ist die Erforschung und Entwicklung automatisierter Methoden zur Technologiebeobachtung am Beispiel der Automobilbranche.

Work-Life-Balance-Maßnahme Sabbatical bei Neofonie

Sabbatical als ein Work-Life-Balance-Instrument kann eine Auszeit vom Job ermöglichen und Träume erfüllen. Markus von Neofonie schildert seine ganz persönlichen Erfahrungen zum Thema.

Header_Fuechse

Neofonie Mobile ist offizieller Partner der Füchse Berlin 

Der Handball-Bundesligist Füchse Berlin erneuert sein digitales Angebot und holt sich Neofonie Mobil als offizieller App-Partner der Füchse Berlin an Board.

Google Analytics 4 kommt – Was jetzt zu tun ist

Das Webanalyse-Tool Google Analytics, Universal Analytics (GA3) wird am 01. Juli 2023 komplett auf Google Analytics 4 (GA4) umgestellt. Ivo Stechow – SEO-Experte bei Neofonie sagt wie die Umstellung gelingt.

KI und Forschung 6-2022

KI & Forschung 06-2022

Die Diskussion, ob Sprachmodelle gefährlich werden und KI den Menschen überflügeln und selbständig werden, ist wieder entfacht. In unserer monatlichen „KI und Forschung“-Serien gibt Dr. Till Plumbaum Einblicke.

Header_KI_Forschung_ontolux_christopher-burns-Kj2SaNHG-hg-unsplash_05_22

KI & Forschung 05-2022

Wie kann künstliche Intelligenz in der Justiz unterstützen? Diese und weitere Themen stellt Dr. Till Plumbaum in der aktuellen „KI und Forschung“- Reihe vor.

Sofia Lisiza im Interview bei Neofonie_betriebliche Weiterbildung

Betriebliche Weiterbildung bei Neofonie – ein Erfahrungsbericht

Lebenslanges Lernen ist der Schlüssel zum beruflichen Erfolg und dem persönlichen Karriereweg. Sofia Lisiza berichtet im Interview von ihren ganz persönlichen Erfahrungen mit dem Thema betriebliche Weiterbildung bei Neofonie.

Unser Newsletter „Neo Report“ vermittelt konkretes Praxiswissen, Trends und Know-how für Ihr digitales Business – quartalsweise und kompakt. Jetzt anmelden.