Spider Information

Herzlich willkommen auf der Informationsseite der Neofonie GmbH zu von uns eingesetzten Spidern.

Wir sind einer der fĂŒhrenden Anbieter fĂŒr die Entwicklung anspruchsvoller Internetlösungen und mobiler Apps. Im Auftrag unserer Kunden durchsuchen unsere Spider das World Wide Web (WWW) gezielt nach Inhalten zur Weiterverarbeitung.

Sollten Sie Probleme mit einem unserer Spider haben, bieten wir Ihnen hier Informationen zur Lösung Ihres Problems. Sie finden die wichtigsten Informationen rund um unsere Spider sowie LösungsansĂ€tze fĂŒr am hĂ€ufigsten auftretende Probleme. SelbstverstĂ€ndlich können Sie auch jederzeit persönlich mit uns in Kontakt treten und uns Ihr Anliegen per E-Mail unter der Adresse spider-l@neofonie.de schildern.

Informationen fĂŒr erfahrene Webseiten-Betreiber

Haben Sie als Webseiten-Betreiber bereits Erfahrungen mit Eintragungen in der robots.txt, nutzen Sie bitte die folgende User-Agent-Kennung zur Steuerung unserer Spider auf Ihrer Webseite. Anderenfalls bitten wir Sie, zunÀchst die in den FAQs weiter unten zu findende detaillierte Anleitung zu lesen.

Die User-Agent-Kennungen fĂŒr die Spider der Neofonie GmbH lauten: search:robot oder neofonie

Die hÀufigsten Fragen

Wozu spidert die Neofonie GmbH die Webseiten?

Die Neofonie GmbH realisiert als Dienstleister fĂŒr Ihre Kunden anspruchsvolle Internetlösungen. Als BegrĂŒnder der ersten deutschsprachigen Suchmaschine besitzt sie insbesondere im Bereich der Suchtechnologien eine jahrzehntelange Erfahrung. Im Zuge der Realisation von Kundenprojekten und wissenschaftlichen Forschungsprojekten wird meist das deutschsprachige Netz nach Daten durchsucht, welche dann mit wissenschaftlichen Methoden analysiert und mit daraus gewonnenen Informationen angereichert werden. Hierzu wird ausschließlich das öffentlich zugĂ€ngliche Netz als Grundlage genommen und es werden strikt alle Datenschutzrichtlinien eingehalten. Wie von Suchmaschinen allgemein bekannt, werden Originalinhalte ausschließlich ĂŒber Links referenziert. Da die neu erschlossenen Inhalte meist einer viel breiteren Öffentlichkeit zugĂ€nglich gemacht werden, ist der resultierende Nutzen fĂŒr einzelne Webseitenbetreiber enorm, da Ihre Seiten ĂŒber neue geschaffene ZusammenhĂ€nge auffindbar geworden sind.

In Zusammenarbeit mit renommierten Unternehmen aus der Wirtschaft realisieren wir Lösungen fĂŒr Portale, deren Nutzen allgemein anerkannt sind und bereits zum Standard einer breiten Öffentlichkeit geworden sind.

Unsere hervorragenden Referenzen in der Wirtschaft und unsere Projekte können Sie hier einsehen.

Was ist bzw. was macht ein Spider?

Die allgemeinen GrundsÀtze zum Spidern von Internetseiten bringen den guten Willen der Betreiber zum Ausdruck, im Internet verantwortlich zu handeln. Alle von der Neofonie GmbH eingesetzten Spider möchten auch den Interessen der Betreiber von Webseiten gerecht werden und Inhalte von Webseiten möglichst ohne jegliche BeeintrÀchtigung von Webservern abholen.

Trotzdem sollen Sie als Betreiber einer Webseite in der Lage sein, den Zugriff auf Ihre Seiten zu steuern und zu entscheiden, was sie der Öffentlichkeit zugĂ€nglich machen möchten und was nicht.

HierfĂŒr wurde das sogenannte „Robot-Exclusion-Standard-Protokoll“ (http://de.wikipedia.org/wiki/Robots_Exclusion_Standard) geschaffen. Dabei ist festgelegt, dass ein Spider beim Besuch eines Webservers zunĂ€chst eine Datei namens „robots.txt“ im Wurzelverzeichnis des Servers sucht, herunterlĂ€dt und auswertet. Über die darin enthaltenen Regeln kann ein Spider von bestimmten Webseitenbereichen ferngehalten oder sogar ganz ausgesperrt werden. Außerdem kann in dieser Datei dem Spider mitgeteilt werden, dass der Spider eine Sitemap-Datei (http://de.wikipedia.org/wiki/Sitemaps) benutzen könnte. Was Sie konkret tun mĂŒssen, um den Zugriff fĂŒr einen Spider der Neofonie zu beschrĂ€nken, wird weiter unten detailliert beschrieben.

ZusĂ€tzlich oder alternativ zur beschriebenen Vorgehensweise können Sie fĂŒr einzelne Seiten das HTML-Meta-Tag „robots“ (http://de.selfhtml.org/html/kopfdaten/meta.htm) benutzen, um die Indexierung beziehungsweise das Weiterverfolgen enthaltener Links zu steuern.

 

Wie kann ich fĂŒr einen Spider der Neofonie GmbH mit der „robots.txt“ den Zugriff beschrĂ€nken?

Um den aktuellen Inhalt Ihrer robots.txt-Datei anzusehen, können Sie der URL Ihrer WebprĂ€senz einfach ein „/robots.txt“ anhĂ€ngen, um sich den Inhalt in einem Browser, falls vorhanden, anzeigen zu lassen.

Um einem unserer Spider den Zugriff auf bestimmte Bereiche Ihrer WebprÀsenz zu untersagen, können Sie beispielsweise folgende Zeilen in Ihre Datei robots.txt im Wurzelverzeichnis Ihres Webservers eintragen:

# Spider der Neofonie GmbH darf nicht aus Ordnern /pictures und /personal herunterladen

User-agent: search:robot
Disallow: /pictures/
Disallow: /personal/

Durch diese BeschrĂ€nkungen darf der Spider mit der User-Agent-Kennung „search:robot“ alle gefundenen Links von Ihrer Seite herunterladen, außer den Dateien, deren Pfad die Ordner /pictures oder /personal enthĂ€lt.

Alternativ können Sie auch die User-Agent-Kennung „neofonie“ benutzen.

# Spider der Neofonie GmbH darf nicht aus Ordnern /pictures und /personal herunterladen

 

Ich kenne mich mit Serverkonfigurationen nicht aus. Was kann ich tun?

Falls Ihnen die oben angegebenen EintrĂ€ge in die Datei robot.txt nicht weiterhelfen sollten, können Sie unserem Service gerne eine Email zukommen lassen. Wir werden dann versuchen mit Ihnen die Probleme zu lösen oder unseren Spider so zu konfigurieren, damit die Zugriffe auf Ihren Webserver fĂŒr Sie zufriedenstellend sind.

 

Was kann ich tun, wenn der Spider meine Seite zu hÀufig anfragt?

Falls Ihnen der Spider der Neofonie GmbH zu hĂ€ufig bei Ihrer Webseite anfragt, dann teilen Sie uns auch dies bitte mit! Wir können den Spider ganz individuell anpassen und entsprechend konfigurieren. Sie können uns ĂŒber die oben angegebene Mailadresse kontaktieren. Vielen Dank!

 

Kann ich die User-Agent-Kennung des Spiders ĂŒberprĂŒfen?

Um herauszufinden, mit welcher Kennung ein Spider auf Ihre Seiten zugreift, können Sie in der Zugriffsdatei fĂŒr Ihren Webserver die angefragten Seiten einsehen. Darin sollte bei normaler Konfiguration die Kennung des anfragenden User-Agent mitgeloggt werden.

 

Ich habe eine User-Agent-Kennung in robots.txt eingetragen, aber meine Seiten werden trotzdem besucht?

Sollte trotz der oben angegebenen EintrĂ€ge in der robots.txt einer unserer Spider weiterhin Seiten besuchen, die Sie als gesperrt gekennzeichnet haben, dann ĂŒberprĂŒfen Sie bitte zunĂ€chst die KonformitĂ€t Ihrer robot.txt-Datei. Ist die Ursache eines Schreibfehlers oder Ă€hnliches ausgeschlossen, ĂŒberprĂŒfen Sie bitte in der Zugriffsdatei fĂŒr Ihren Server, mit welcher Kennung sich der anfragende Spider ausweist. Die User-Agent-Kennung des Spiders von Neofonie GmbH ist „neofonie search:robot (https://www.neofonie.de/spider)“. Ausgehend von diesem Log-Eintrag könnten Sie als User-Agent-Kennung entweder „neofonie“ oder „search:robot“ in die robots.txt-Datei eintragen, um unseren Spider damit anzusprechen.

Sollten Sie trotz einer korrekt erstellten robots.txt-Datei regelwidrig von einem unserer Spider besucht werden, so bitten wir Sie uns zu kontaktieren und uns dies mit der ermittelten User-Agent-Kennung unverzĂŒglich mitzuteilen, damit wir den fraglichen Spider sofort ĂŒberprĂŒfen können. Wir danken!