Herzlich Willkommen auf der Spider-Informationsseite der Neofonie GmbH – einem der führenden IT-Anbieter für innovative Technologien, spezialisiert auf die Bereiche „Suche“, „Portale“, „Web 2.0 Communities“ und „mobile Anwendungen“. Nähere Informationen entnehmen Sie auch unserer Website http://www.neofonie.de.
Im Auftrag unserer Kunden durchsuchen unsere Spider das Internet gezielt nach Inhalten zur Weiterverarbeitung. Sollten Sie Probleme mit einem unserer Spider haben, bietet Ihnen diese Webseite die nötige Hilfe zur Lösung Ihres Problems: In unseren FAQ’s finden Sie die wichtigsten Informationen rund um unseren Spider und Lösungsansätze zu den am häufigsten auftretenden Problemen. Selbstverständlich können Sie auch jederzeit persönlich mit uns in Kontakt treten und uns Ihr Anliegen per E-Mail schildern. Nutzen Sie hierzu bitte das Kontaktformular.
Was ist bzw. macht ein Webcrawler?
Wie steuern Sie die Zugriffe von Spidern auf Ihrer Webseite?
Was ist ein User Agent und wo finden Sie ihn?
Die Neofonie Crawler: welchen Zweck haben sie und an welche Standards halten sie sich?
Sie vermuten eine Hacker- oder DoS-Attacke?
Es passieren allerhand ungeplante Dinge auf Ihrer Webseite?
Ihre Daten sind verschwunden?
Kann der Neofonie Spider eine Schadsoftware enthalten?
Ein Webcrawler (auch kurz Crawler, Spider oder Robot genannt) ist ein Computerprogramm, welches automatisch das World Wide Web nach Webseiten durchsucht. Der Crawler gelangt dabei über sog. Hyperlinks von einer Webseite zur nächsten. Findet der Crawler auf einer Webseite weitere Hyperlinks zu noch nicht von ihm besuchten Webseiten, so werden diese Links gespeichert und zu einem späteren Zeitpunkt zum Besuch der Webseiten verwendet.
Um Hyperlinks aus den Webseiten zu extrahieren, werden diese auf den Host des Crawlers heruntergeladen. Neben den Links werden meistens die in den Webseiten enthaltenen Inhalte (Texte, Bilder, etc.) extrahiert und über Suchmaschinen durchsuchbar gemacht, was den eigentlich Zweck des Betriebs von Crawlern darstellt.
Über den Quasi-Standard „Robot-Exclusion-Standard“ ist es jedem Webseiten-Betreiber möglich, den Zugriff eines Crawlers auf die eigenen Webseiten zu steuern. Dabei ist festgelegt, dass ein Crawler als erstes die Datei „robots.txt“ von einem Webserver lädt und auswertet. Über die darin enthaltenen Regeln kann ein Crawler von bestimmten Webseiten-Bereichen ferngehalten oder sogar ganz ausgesperrt werden.
Eine Steuerung des Crawlers auf Seitenebene ist durch den Meta-Tag „robot“ möglich.
Eine genauere Erklärung des Quasi-Standards, der Datei „robots.txt“, des Meta-Tags und Beispiele finden Sie unter wikipedia: Robots Exclusion Standard. Auf Motoricerca.info können Sie Ihre robots.txt-Datei auf Konformität mit dem Quasi-Standard kostenlos überprüfen lassen.
Die Anweisungen in „robots.txt“ oder die Meta-Tags stellen keinen garantierten Schutz einer Webseite vor dem Zugriff von Crawlern dar, weil diese nicht verpflichtet sind, sich an die Anweisungen zu halten.
Möchte man die komplette Webseite oder Teile davon sicher vor Crawlern schützen, bleibt nur der Schutz der Seite durch User-Kennung und Passwort übrig oder das Aufnehmen der IP-Adresse, von welcher aus der Crawler zugreift in eine Blacklist.
Unter einem User Agent versteht man ein Client-Programm, welches mit einem Netzwerkdienst verwendet werden kann, z. B. ist ein Crawler genau solch ein Client-Programm, welches Seiten von einem Webserver herunterladen und anschließen weiter verarbeitet.
Solche Client-Programme übertragen in den meisten Fällen ihren Namen bei einer Anfrage mit an den angefragten Server.
Sie finden die User-Agent-Kennung in den Logfiles Ihres Webservers, z.B. beim Apache Webserver steht er im access – Logfile. Eine Zeile aus dem Logfile könnte folgendes Aussehen haben: 34.143.48.109 -- [26/Aug/2010:00:00:24 +0200] "GET /index.html HTTP/1.1" 200 129089 http://www.google.de/search?q=foobar “Mozilla/5.0 (Windows; U; Windows NT 6.0; de; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 (.NET CLR 3.5.30729)" 940717
Die Neofonie GmbH und ihre Tochterfirmen gehören zu den führenden Anbietern innovativer Technologien und konvergenter Anwendungen, spezialisiert auf die Bereiche Suche, Social Media, mobile Applikationen und ePublishing. Als IT-Fullservice-Dienstleister betreibt Neofonie sowohl im Auftrag von Kunden als auch in eigener Verantwortung verschiedene Crawler, um Daten für verschiedene Suchmaschinen aus dem World Wide Web zu sammeln.
Unsere Crawler versorgen verschiedene Nachrichten-Dienste mit den allerneusten Nachrichten von mehr als 1000 verschiedenen Quellen des deutsch- und englisch-sprachigen Internets.
Es ist möglich, dass Ihr Webserver durch den Zugriff unseres Crawlers überlastet wird und nicht mehr in der Lage ist, weitere Anfragen zu beantworten. Das kommt einer DoS-Attacke (Denial-of-Service-Attacke) gleich, ist von uns aber nicht beabsichtigt. Bitte füllen Sie das Formular aus, wir werden den Crawler so schnell wie möglich von Ihrer Seite nehmen.
Ein „Hacken“ Ihre Seite, d. h. das Einbrechen in eigentlich Passwort-geschützte Bereiche Ihrer Webseite ist unserem Crawler nicht möglich. Ein Zugriff auf vermeintlich geschützte Seiten durch unseren Crawler deutet darauf hin, dass es einen direkten, nicht Passwort-geschützten Link auf diesen Bereich gibt, über welchen unsere Crawler Zugang gefunden hat.
Sie werden mit leeren Kommentaren in Ihrem Gästebuch überschwemmt? Es werden große Warenkörbe gefüllt oder leere Bestellungen ausgelöst?
Formulare werden unausgefüllt abgeschickt?
Bitte denken Sie daran, daß der Spider nur Links verfolgt. Eine echte Interaktion mit Ihrer Webanwendung findet nicht statt.
Sollte durch das einfache Verfolgen von Links obiges oder ähnliches passieren, dann ist das ein Zeichen für Schwächen Ihrer Webanwendung. Ein leeres Formular sollte z.B. nicht ohne weiteres abgeschickt werden können und Aktionen wie das Versenden von Emails auslösen.Eventuell entstandene Unannehmlichkeiten Ihrerseits tun uns sehr leid und sind von uns in keinster Weise beabsichtigt.
Genau wie beim vorherigen Punkt können solche Phänomene von unserem Crawler nur dann ausgelöst werden, wenn Ihre Webanwendung es zulässt bzw. nicht ausreichend abgesichert ist. Das einfache Verfolgen eines Links auf Ihrer Webseite sollte auf keinen Fall zu einer Löschung von Daten führen können.
Wir weisen Sie darauf hin, dass eine nicht ausreichend abgesicherte Webanwendung auch für jeden Besucher auf Ihrer Seite die Möglichkeit der Datenmanipulation bietet. Es handelt sich in dem Sinne um eine Sicherheitslücke Ihrer Webseite, die Sie in Ihrem eigenen Interesse schnell beseitigen sollten.
Nein, unsere Crawler sind nicht in der Lage, auf Ihren Servern irgendeine Art von Schadsoftware zu installieren. Datenverlust und ähnliches resultiert höchstens aus den in den vorherigen beiden Punkten beschriebenen Problemen.