Spider Information

Herzlich willkommen auf der Informationsseite der Neofonie GmbH zu von uns eingesetzten Spidern.

Wir sind einer der führenden Anbieter für die Entwicklung anspruchsvoller Internetlösungen und mobiler Apps. Im Auftrag unserer Kunden durchsuchen unsere Spider das World Wide Web (WWW) gezielt nach Inhalten zur Weiterverarbeitung.

Sollten Sie Probleme mit einem unserer Spider haben, bieten wir Ihnen hier Informationen zur Lösung Ihres Problems. Sie finden die wichtigsten Informationen rund um unsere Spider sowie Lösungsansätze für am häufigsten auftretende Probleme. Selbstverständlich können Sie auch jederzeit persönlich mit uns in Kontakt treten und uns Ihr Anliegen per E-Mail unter der Adresse spider-l@neofonie.de schildern.

Informationen für erfahrene Webseiten-Betreiber

Haben Sie als Webseiten-Betreiber bereits Erfahrungen mit Eintragungen in der robots.txt, nutzen Sie bitte die folgende User-Agent-Kennung zur Steuerung unserer Spider auf Ihrer Webseite. Anderenfalls bitten wir Sie, zunächst die in den FAQs weiter unten zu findende detaillierte Anleitung zu lesen.

Die User-Agent-Kennungen für die Spider der Neofonie GmbH lauten: search:robot oder neofonie

Die häufigsten Fragen

Wozu spidert die Neofonie GmbH die Webseiten?

Die Neofonie GmbH realisiert als Dienstleister für Ihre Kunden anspruchsvolle Internetlösungen. Als Begründer der ersten deutschsprachigen Suchmaschine besitzt sie insbesondere im Bereich der Suchtechnologien eine jahrzehntelange Erfahrung. Im Zuge der Realisation von Kundenprojekten und wissenschaftlichen Forschungsprojekten wird meist das deutschsprachige Netz nach Daten durchsucht, welche dann mit wissenschaftlichen Methoden analysiert und mit daraus gewonnenen Informationen angereichert werden. Hierzu wird ausschließlich das öffentlich zugängliche Netz als Grundlage genommen und es werden strikt alle Datenschutzrichtlinien eingehalten. Wie von Suchmaschinen allgemein bekannt, werden Originalinhalte ausschließlich über Links referenziert. Da die neu erschlossenen Inhalte meist einer viel breiteren Öffentlichkeit zugänglich gemacht werden, ist der resultierende Nutzen für einzelne Webseitenbetreiber enorm, da Ihre Seiten über neue geschaffene Zusammenhänge auffindbar geworden sind.

In Zusammenarbeit mit renommierten Unternehmen aus der Wirtschaft realisieren wir Lösungen für Portale, deren Nutzen allgemein anerkannt sind und bereits zum Standard einer breiten Öffentlichkeit geworden sind.

Unsere hervorragenden Referenzen in der Wirtschaft und unsere Projekte können Sie hier einsehen.

Was ist bzw. was macht ein Spider?

Die allgemeinen Grundsätze zum Spidern von Internetseiten bringen den guten Willen der Betreiber zum Ausdruck, im Internet verantwortlich zu handeln. Alle von der Neofonie GmbH eingesetzten Spider möchten auch den Interessen der Betreiber von Webseiten gerecht werden und Inhalte von Webseiten möglichst ohne jegliche Beeinträchtigung von Webservern abholen.

Trotzdem sollen Sie als Betreiber einer Webseite in der Lage sein, den Zugriff auf Ihre Seiten zu steuern und zu entscheiden, was sie der Öffentlichkeit zugänglich machen möchten und was nicht.

Hierfür wurde das sogenannte „Robot-Exclusion-Standard-Protokoll“ (http://de.wikipedia.org/wiki/Robots_Exclusion_Standard) geschaffen. Dabei ist festgelegt, dass ein Spider beim Besuch eines Webservers zunächst eine Datei namens „robots.txt“ im Wurzelverzeichnis des Servers sucht, herunterlädt und auswertet. Über die darin enthaltenen Regeln kann ein Spider von bestimmten Webseitenbereichen ferngehalten oder sogar ganz ausgesperrt werden. Außerdem kann in dieser Datei dem Spider mitgeteilt werden, dass der Spider eine Sitemap-Datei (http://de.wikipedia.org/wiki/Sitemaps) benutzen könnte. Was Sie konkret tun müssen, um den Zugriff für einen Spider der Neofonie zu beschränken, wird weiter unten detailliert beschrieben.

Zusätzlich oder alternativ zur beschriebenen Vorgehensweise können Sie für einzelne Seiten das HTML-Meta-Tag „robots“ (http://de.selfhtml.org/html/kopfdaten/meta.htm) benutzen, um die Indexierung beziehungsweise das Weiterverfolgen enthaltener Links zu steuern.

 

Wie kann ich für einen Spider der Neofonie GmbH mit der „robots.txt“ den Zugriff beschränken?

Um den aktuellen Inhalt Ihrer robots.txt-Datei anzusehen, können Sie der URL Ihrer Webpräsenz einfach ein „/robots.txt“ anhängen, um sich den Inhalt in einem Browser, falls vorhanden, anzeigen zu lassen.

Um einem unserer Spider den Zugriff auf bestimmte Bereiche Ihrer Webpräsenz zu untersagen, können Sie beispielsweise folgende Zeilen in Ihre Datei robots.txt im Wurzelverzeichnis Ihres Webservers eintragen:

# Spider der Neofonie GmbH darf nicht aus Ordnern /pictures und /personal herunterladen

User-agent: search:robot
Disallow: /pictures/
Disallow: /personal/

Durch diese Beschränkungen darf der Spider mit der User-Agent-Kennung „search:robot“ alle gefundenen Links von Ihrer Seite herunterladen, außer den Dateien, deren Pfad die Ordner /pictures oder /personal enthält.

Alternativ können Sie auch die User-Agent-Kennung „neofonie“ benutzen.

# Spider der Neofonie GmbH darf nicht aus Ordnern /pictures und /personal herunterladen

 

Ich kenne mich mit Serverkonfigurationen nicht aus. Was kann ich tun?

Falls Ihnen die oben angegebenen Einträge in die Datei robot.txt nicht weiterhelfen sollten, können Sie unserem Service gerne eine Email zukommen lassen. Wir werden dann versuchen mit Ihnen die Probleme zu lösen oder unseren Spider so zu konfigurieren, damit die Zugriffe auf Ihren Webserver für Sie zufriedenstellend sind.

 

Was kann ich tun, wenn der Spider meine Seite zu häufig anfragt?

Falls Ihnen der Spider der Neofonie GmbH zu häufig bei Ihrer Webseite anfragt, dann teilen Sie uns auch dies bitte mit! Wir können den Spider ganz individuell anpassen und entsprechend konfigurieren. Sie können uns über die oben angegebene Mailadresse kontaktieren. Vielen Dank!

 

Kann ich die User-Agent-Kennung des Spiders überprüfen?

Um herauszufinden, mit welcher Kennung ein Spider auf Ihre Seiten zugreift, können Sie in der Zugriffsdatei für Ihren Webserver die angefragten Seiten einsehen. Darin sollte bei normaler Konfiguration die Kennung des anfragenden User-Agent mitgeloggt werden.

 

Ich habe eine User-Agent-Kennung in robots.txt eingetragen, aber meine Seiten werden trotzdem besucht?

Sollte trotz der oben angegebenen Einträge in der robots.txt einer unserer Spider weiterhin Seiten besuchen, die Sie als gesperrt gekennzeichnet haben, dann überprüfen Sie bitte zunächst die Konformität Ihrer robot.txt-Datei. Ist die Ursache eines Schreibfehlers oder ähnliches ausgeschlossen, überprüfen Sie bitte in der Zugriffsdatei für Ihren Server, mit welcher Kennung sich der anfragende Spider ausweist. Ein Beispiel für die User-Agent-Kennung eines Spiders von Neofonie GmbH ist „nachtschatten, neofonie search:robot (http://spider.neofonie.de)“. Ausgehend von diesem Log-Eintrag könnten Sie als User-Agent-Kennung entweder „ nachtschatten“ oder „neofonie“ oder „search:robot“ in die robots.txt-Datei eintragen, um unseren Spider damit anzusprechen.

Sollten Sie trotz einer korrekt erstellten robots.txt-Datei regelwidrig von einem unserer Spider besucht werden, so bitten wir Sie uns zu kontaktieren und uns dies mit der ermittelten User-Agent-Kennung unverzüglich mitzuteilen, damit wir den fraglichen Spider sofort überprüfen können. Wir danken!

 

Hat der Spider aus dem Projekt MIA mit der User-Agent-Kennung „MIADev“ etwas mit der Neofonie GmbH zu tun?

Im Forschungsprojekt „MIA – ein Marktplatz für Informationen und Analysen“ setzt die Neofonie GmbH in Zusammenarbeit mit dem Bundeswirtschaftsministerium und der TU Berlin einen Spider mit der Kennung „MiaDev“ ein. Dieser Spider arbeitet vollständig im Rahmen dieses Forschungsprojektes und besitzt deshalb eine eigene Kennung, die nicht dem sonst verwendeten Schema der Neofonie GmbH entspricht. Bitte konsultieren Sie für nähere Informationen zum Projekt und insbesondere zum verwendeten Spider die Projektbeschreibung unter http://www.mia-marktplatz.de.