Jun 16
Limitierungen der automatisierten Abfragen der Suchergebnisse bei Yahoo und Google
Das automatisierte Abfragen der Suchergebnisse von Google und Yahoo ist dank der gut dokumentierten Schnittstellen kein Problem. Man bekommt leicht zu parsenden XML oder JSON Code zurück und kann dann die Daten weiterverarbeiten ohne den HTML Code parsen zu müssen. Klingt also vielversprechend.
Bei einem ersten Test habe ich dann aber festgestellt, dass sowohl Google als auch Yahoo einige Limitierungen bezüglich der API haben und es nicht ohne weiteres möglich ist, einem Skript eine Liste von Suchbegriffen hinzuwerfen und dann mit Hilfe der API den Index bei Google und Yahoo auszulesen. Schade, aber das war ja auch zu erwarten.
So bekommt man von Google nach eine gewissen Anzahl von Request nur noch den folgenden JSON String zurück:
{”responseData”: null, “responseDetails”: “Suspected Terms of Service Abuse. Please see http://code.google.com/apis/errors”, “responseStatus”: 403}
und Yahoo gibt statt der erwarteten XML Daten einfach ein HTML Dokument mit dem Error 999 zurück. Ein Blick in diese HTML Datei zeigt, dass Yahoo nicht mehr auf meine Anfragen antwortet. Yahoo Error “Unable to process request at this time — error 999″.
OK, verwunderlich ist die Tatsache, dass hier ein Riegel vorgeschoben werden muss nicht, aber so viele Requests habe ich doch gar nicht gemacht und auch wenn ich gegen die TOS verstoße, hätte ich mir gewünscht, dass die API nach ein paar Stunden wieder erreichbar ist. Schließlich habe ich keine DoS (Denial of Service) Attacke gestartet, oder hunderte Requests pro Sekunde ausgeführt. Im Internet habe ich dann aber gelesen, dass man bei Yahoo eine Sperre für die IP Adresse bekommt, die zwischen 2 und 24 Stunden dauern kann. Also kann ich davon ausgehen, dass ich morgen noch mal testen kann um die Anzahl der Requests herauszufinden. Alternativ kann ich auch versuchen über einen oder mehrere Proxy Server zu gehen um meine IP Adresse zu verschleiern, aber ich glaube nicht, dass ich so weit gehen möchte. Das grenzt schon an kriminelle Handlungen und es ist eine Sache mal die TOSs nicht eingehalten zu haben, als gleich alle technischen Möglichkeiten auszuschöpfen um die Begrenzungen zu umgehen.
Offen bleibt nun noch die Frage, ob/wann mein IP Adresse wieder freigeschaltet wird und ob sich einer der beiden Suchmaschinen die Mühe macht meinen Provider darüber zu informieren und mich quasi als Schwarzes Schaf in eine Blacklist einträgt.