Sesam öffne Dich Marc Ruef | 08.12.2008 Als ich noch ein Kind war, hat mir meine Mutter immer Geschichten und Märchen vorgelesen. Besonders mochte ich jene aus "Tausendundeiner Nacht". Irgendwie war es immerwieder spannend zu hören, was die Helden in fernen Ländern so alles erleben durften. Und im Gegensatz zu heute hat es mich damals auch gar nicht gestört, eine Geschichte mehr als einmal anzuhören. Besonders angetan hat es mir "Ali Baba und die 40 Räuber". Einerseits war es mir ein Rätsel, wie sich 40 verruchte Räuber finden konnten. Ja, in meiner Naivität nahm ich an, dass es wohl nicht mal weltweit mehr als 10 böse Menschen geben könnte (einer davon war in meiner Spielgruppe!). Andererseits war ich fasziniert davon, dass sich mit der simplen Zauberformel "Sesam öffne Dich" die geheime Schatzkammer zugänglich machen liess! Schon damals fragte ich mich, wie eine Höhle aus Stein die Stimmen erkennen und sich selber verformen könnte. Heutzutage weiss ich, dass soetwas natürlich durchaus mit Voice Recognition und feinster Mechanik möglich ist. Später habe ich begriffen, dass - wie so oft in der Literatur - das geschriebene Wort nur eine Metapher bilden sollte: Kennt man die richtigen Worte, sollte einem keine Tür auf dieser Welt versperrt bleiben. Wissen und Diplomatie sind wahrscheinlich eben jene Dinge, die die Feder erst mächtiger als das Schwert werden lassen. Regelmässig schaue ich die Logdaten meiner Webserver durch. Mitunter deswegen, weil ich das Verhalten meiner Besucher studieren und mich auf dieses einstellen möchte. Welche Keywords beschreiben die Themen von heute? Welche Blogs und Foren definieren die Trends von morgen? Das Auswerten der Referer, also der letztbesuchten Webseiten, wird damit zu einem wichtigen Werkzeug. Immerwieder werden gewisse Dinge auf computec.ch auf anderen Seiten, vorwiegend Webforen, diskutiert. Will ich denn auf diese zugreifen, um mich mit dem Geschriebenen auseinanderzusetzen, erhalte ich oft eine Signup-Meldung: Man solle sich doch zuerst registrieren, bevor man die Seite besuchen kann. Nein, das entspricht mir nicht - Ganz besonders dann, wenn ich nur kurz vorbeigucken will. Informiert man sich über solch semi-öffentlichen Foren mittels Google, so fällt auf, dass diese dennoch von der weltweit grössten Suchmaschine indiziert werden können. Google muss also etwas haben, was mir bis dato nicht bekannt ist ... Einen Spruch wie "Sesam öffne Dich"! Firefox ist (leider!) noch immer mein Standardbrowser und so ist es ein Leichtes mittels einem Plugin die Ausgabe des Agents zu verändern. Dieser wird durch den Webbrowser übergeben, damit der Webserver zum Beispiel anhand von PHPs $_SERVER'HTTP_USER_AGENT' den Browser identifizieren kann. Dies ist wichtig, um browserspezifische Elemente anpassen zu können (Es halten sich halt noch immer nicht alle an die Vorgaben des W3C!). Aus eigener Erfahrung weiss ich, dass der Googlebot, welcher für das Crawling zuständig ist, sich selbst mitunter wie folgt als Agent ausweist: commandGooglebot/2.1 (+http://www.google.com/bot.html) /command Durch den User Agent Switcher (https://addons.mozilla.org/en-US/firefox/addon/59) kann ich mich nun mit einem Knopfdruck als Googlebot ausgeben lassen. Und siehe da: Die meisten zuvor gesperrten Seiten sind plötzlich zugänglich! Was ist da passiert? Die Entwickler und Administratoren entsprechender Seiten möchten natürlich weiterhin auf Google gelistet werden, um den eigenen PageRank zu optimieren. Indem man den User-Agent ausliest und jenachdem dem Googlebot den temporären Zugriff gewährt, kann man natürlich eine Indizierung zulassen. Alle anderen müssen sich zuerst anmelden. Es erstaunt, dass sich viele Betreiber auf eine so leicht zu manipulierende Information des Clients verlassen. Es wäre viel gescheiter, würde man zum Beispiel einen Reverse-Lookup der IP-Adresse durchführen und die damit generierte Zeichenkette auf den regulären Ausdruck (http://www.regular-expressions.info/examples.html) command^crawl-\b(?:\d{1,3}\-) {3}\d{1,3}\b.googlebot.com$/command hin abzusuchen. Doch die meisten denken sich, dass der Ressourcenverbrauch und damit die Belastung zu hoch sind. Wer ein Risiko akzeptiert, der muss halt damit leben können, wenn das Unerwünschte auch tatsächlich eintrifft.