Haben Sie Fragen zu den Web Crawlern unserer Suchmaschinen?
Herzlich Willkommen auf der Spider-Informationsseite der neofonie Technologieentwicklung und Informationsmanagement GmbH – einem der führenden IT-Anbieter für innovative Technologien, spezialisiert auf die Bereiche „Suche“, „Portale“, „Web 2.0 Communities“ und „mobile Anwendungen“. Nähere Informationen entnehmen Sie auch unserer Website http://www.neofonie.de.Im Auftrag unserer Kunden durchsuchen unsere Spider das Internet gezielt nach Inhalten zur Weiterverarbeitung. Sollten Sie Probleme mit einem unserer Spider haben, bietet Ihnen diese Website die nötige Hilfe zur Lösung Ihres Problems: In unseren FAQ’s finden Sie die wichtigsten Informationen rund um unseren Spider und Lösungsansätze zu den am häufigsten auftretenden Problemen. Selbstverständlich können Sie auch jederzeit persönlich mit uns in Kontakt treten und uns Ihr Anliegen per E-Mail schildern. Nutzen Sie hierzu bitte unser unten stehendes Kontaktformular.
Die häufigsten Fragen
Was ist bzw. macht ein Webcrawler?Wie steuern Sie die Zugriffe von Spidern auf Ihrer Webseite?
Die neofonie Crawler: welchen Zweck haben sie und an welche Standards halten sie sich?
Sie vermuten eine Hacker- oder DoS-Attacke?
Es passieren allerhand ungeplante Dinge auf Ihrer Webseite?
Ihre Daten sind verschwunden?
Kann der neofonie Spider eine Schadsoftware enthalten?
Lesen Sie die FAQ
oder schildern Sie uns Ihr Problem!
|
Vorname* |
||
|
Nachname* |
||
|
Email* |
||
|
Telefon |
||
|
Bitte erklären Sie uns Ihr Problem* |
||
|
|
||
|
User Agent* |
||
|
Server URL* |
||
|
Ihre betroffene Webseite |
||
|
|
||
FAQ
Was ist bzw. macht ein Webcrawler?
Ein Webcrawler (auch kurz Crawler, Spider oder Robot genannt) ist ein Computerprogramm, welches automatisch das World Wide Web nach Webseiten durchsucht. Der Crawler gelangt dabei über sog. Hyperlinks von einer Webseite zur nächsten. Findet der Crawler auf einer Webseite weitere Hyperlinks zu noch nicht von ihm besuchten Webseiten, so werden diese Links gespeichert und zu einem späteren Zeitpunkt zum Besuch der Webseiten verwendet.
Um Hyperlinks aus den Webseiten zu extrahieren, werden diese auf den Host des Crawlers heruntergeladen. Neben den Links werden meistens die in den Webseiten enthaltenen Inhalte (Texte, Bilder, etc.) extrahiert und über Suchmaschinen wie z.B. http://www.newexpress.de durchsuchbar gemacht, was den eigentlich Zweck des Betriebs von Crawlern darstellt.
Wie steuern Sie die Zugriffe von Spidern auf Ihrer Webseite?
Über den Quasi-Standard „Robot-Exclusion-Standard“ ist es jedem Webseiten-Betreiber möglich, den Zugriff eines Crawlers auf die eigenen Webseiten zu steuern. Dabei ist festgelegt, dass ein Crawler als erstes die Datei „robots.txt“ von einem Webserver lädt und auswertet. Über die darin enthaltenen Regeln kann ein Crawler von bestimmten Webseiten-Bereichen ferngehalten oder sogar ganz ausgesperrt werden.
Eine Steuerung des Crawlers auf Seitenebene ist durch den Meta-Tag „robot“ möglich.
Eine genauere Erklärung des Quasi-Standards, der Datei „robots.txt“, des Meta-Tags und Beispiele finden Sie unterhttp://de.wikipedia.org/wiki/Robots_Exclusion_Standard. Auf http://tool.motoricerca.info/robots-checker.phtml können Sie Ihre robots.txt-Datei auf Konformität mit dem Quasi-Standard kostenlos überprüfen lassen.
Die Anweisungen in „robots.txt“ oder die Meta-Tags stellen keinen garantierten Schutz einer Webseite vor dem Zugriff von Crawlern dar, weil diese nicht verpflichtet sind, sich an die Anweisungen zu halten.
Möchte man die komplette Webseite oder Teile davon sicher vor Crawlern schützen, bleibt nur der Schutz der Seite durch User-Kennung und Passwort übrig oder das Aufnehmen der IP-Adresse, von welcher aus der Crawler zugreift in eine Blacklist.
Was ist ein User Agent und wo finden Sie ihn?
Unter einem User Agent versteht man ein Client-Programm, welches mit einem Netzwerkdienst verwendet werden kann, z.B. ist ein Crawler genau solch ein Client-Programm, welches Seiten von einem Webserver herunterladen und anschließen weiter verarbeitet.
v Solche Client-Programme übertragen in den meisten Fällen ihren Namen bei einer Anfrage mit an den angefragten Server.
Sie finden die User-Agent-Kennung in den Logfiles Ihres Webservers, z.B. beim Apache Webserver steht er im access – Logfile. Eine Zeile aus dem Logfile könnte folgendes Aussehen haben:
Die neofonie Crawler: welchen Zweck haben sie und an welche Standards halten sie sich?
Die neofonie Technologieentwicklung und Informationsmanagement GmbH gehört zu den führenden Full-Service-IT-Anbietern für innovative Technologien, spezialisiert auf die Bereiche „Suche“, „Portale“, „Web 2.0 Communities“ und „mobile Anwendungen“ und betreibt sowohl im Auftrag von Kunden als auch in eigener Verantwortung verschiedene Crawler, um Daten für verschiedene Suchmaschinen aus dem World Wide Web zu sammeln.
Unsere Crawler versorgen z.B. den Nachrichten-Dienst http://www.newsexpress.de mit den allerneusten Nachrichten von mehr als 1000 verschiedenen Quellen des deutsch- und englisch-sprachigen Internets. Auch sind sie im Auftrag unserer Suchexpress-Kunden unterwegs und füllen die Kunden-Indizies auf http://www.suchexpress.demit Daten.
Alle unsere Crawler halten sich sowohl an die Regeln einer korrekten Datei „robots.txt“ als auch an die Anweisungen im Meta-Tag „robot“.
Sie vermuten eine Hacker- oder DoS-Attacke?
Es ist möglich, dass Ihr Webserver durch den Zugriff unseres Crawlers überlastet wird und nicht mehr in der Lage ist, weitere Anfragen zu beantworten. Das kommt einer DoS-Attacke (Denial-of-Service-Attacke) gleich, ist von uns aber nicht beabsichtigt. Bitte füllen Sie das Formular aus, wir werden den Crawler so schnell wie möglich von Ihrer Seite nehmen.
Ein „Hacken“ Ihre Seite, d.h. das Einbrechen in eigentlich Passwort-geschützte Bereiche Ihrer Webseite ist unserem Crawler nicht möglich. Ein Zugriff auf vermeintlich geschützte Seiten durch unseren Crawler deutet darauf hin, dass es einen direkten, nicht Passwort-geschützten Link auf diesen Bereich gibt, über welchen unsere Crawler Zugang gefunden hat.
Es passieren allerhand ungeplante Dinge auf Ihrer Webseite?
Sie werden mit leeren Kommentaren in Ihrem Gästebuch überschwemmt? Es werden große Warenkörbe gefüllt oder leere Bestellungen ausgelöst?
Formulare werden unausgefüllt abgeschickt?
Bitte denken Sie daran, daß der Spider nur Links verfolgt. Eine echte Interaktion mit Ihrer Webanwendung findet nicht statt.
Sollte durch das einfache Verfolgen von Links obiges oder ähnliches passieren, dann ist das ein Zeichen für Schwächen Ihrer Webanwendung. Ein leeres Formular sollte z.B. nicht ohne weiteres abgeschickt werden können und Aktionen wie das Versenden von Emails auslösen.Eventuell entstandene Unannehmlichkeiten Ihrerseits tun uns sehr leid und sind von uns in keinster Weise beabsichtigt.
Ihre Daten sind verschwunden?
Genau wie beim vorherigen Punkt können solche Phänomene von unserem Crawler nur dann ausgelöst werden, wenn Ihre Webanwendung es zulässt bzw. nicht ausreichend abgesichert ist. Das einfache Verfolgen eines Links auf Ihrer Webseite sollte auf keinen Fall zu einer Löschung von Daten führen können.
Wir weisen Sie darauf hin, dass eine nicht ausreichend abgesicherte Webanwendung auch für jeden Besucher auf Ihrer Seite die Möglichkeit der Datenmanipulation bietet. Es handelt sich in dem Sinne um eine Sicherheitslücke Ihrer Webseite, die Sie in Ihrem eigenen Interesse schnell beseitigen sollten.
Kann der neofonie Spider eine Schadsoftware enthalten?
Nein, unsere Crawler sind nicht in der Lage, auf Ihren Servern irgendeine Art von Schadsoftware zu installieren. Datenverlust und ähnliches resultiert höchstens aus den in den vorherigen beiden Punkten beschriebenen Problemen.
Datenschutz
