Wie kann ich erreichen, dass Google veraltete URLs auf meiner Homepage auch nicht als “Supplemental Results” ausgibt? Meine Webseite existiert in einer neuen Version, alle alten URLs befinden sich jedoch noch in Googles »Supplemental Index«, obwohl sie schon seit langem nur zu einem »Error 404: Page not found« führen.

Für Inhalte, die sich nun an anderer Stelle befinden, gebe man »301 Moved Permanently« zurück. Googlebot versteht das, Google schlägt es sogar selbst so vor. Quelle: http://www.geocities.com/googlepubsupgenfaq/?20055#newversionredirect301 .

Für Inhalte, die es nicht mehr gibt, gebe man »410 Gone« zurück. Googlebot versteht das: die entsprechende URI wird aus Googles Index entfernt und auch nicht mehr neu darin aufgenommen. Quelle: http://www.webmasterworld.com/forum30/27921.htm .

Um noch existierende Inhalte aus dem Google Index zu entfernen, verwende man das Robots Exclusion Protocol in robots.txt oder META-Tags (siehe http://www.robotstxt.org und http://hacks.oreilly.com/pub/h/220 ).

Hat man eines dieser Mittel angewandt, kann man entweder warten bis Googlebot wieder vorbeikommt und die Seite indexiert (dauert bis 8 Wochen). Schneller geht es, indem man die URIs, unter denen jetzt die Error Codes zurückgegeben werden, bei Googles urlconsole removal tool ( http://services.google.com:8882/urlconsole/controller ) registriert (dauert zwischen 24 Stunden und (erfahrungsgemäß) 6 Tagen). Quelle: http://www.webmasterworld.com/forum30/27921.htm . Das funktioniert jedoch nur bei URLs, unter denen »410 Gone« oder »404 Not Found« zurückgegeben wird. Wird »310 Moved Permanently« zurückgegeben, weist Googles urlconsole die Anforderung zurück mit der Meldung »Die Seite scheint nach wie vor im Web zu existieren.«. In diesem Fall muss man warten, bis Googlebot vorbeikommt.

Interessanterweise wird also über urlconsole eine URI gelöscht, unter dem »404 Not Found« zurückgegeben wird. Dieselbe URI kann aber problemlos Jahre in Googles Supplemental Index bleiben (ob Googlebot sie in dieser Zeit überhaupt besucht hat war in diesem Fall nicht festzustellen).

Weitere Informationen um Inhalte aus Google’s Websuche, Bildersuche und Google Groups zu entfernen: http://www.google.com/remove.html#exclude_pages und http://hacks.oreilly.com/pub/h/220 .

Das beste Verfahren, um den Google Index (inkl. Supplemental index) für eine eigene Domain zu bereinigen, ist also: alle URIs die zu »404 Not Found« führen bei Googles urlconsole eintragen. Nachdem sie aus dem Index entfernt sind, herausfinden welche Seiten immer noch abgerufen werden, trotz dass sie »404 Not Found« zurückgeben (es sind Seiten, auf die Links existieren die nicht von Google kommen). Diese Seiten in der
.htaccess mit besseren Fehlercodes versehen, um den Nutzern zu helfen: »301 Moved Permanently« und »410 Gone«. Für Google ist das nicht nötig, weil die Seite ja ohnehin bald neu indexiert wird.

Wie konfiguriert man nun die Rückgabe der Error Codes 301 und 410? Am einfachsten verwendet man dazu die .htaccess Datei (siehe http://httpd.apache.org/docs/mod/mod_alias.html.en#redirectperm ). Zum Beispiel:

Redirect permanent /dir1/file.html http://www.example.com/dir2/file.html
Redirect gone /dir2/file.html

Wenn man mit PHP arbeit will oder muss, funktioniert dies so: Ein »301 Moved Permanently« wird zusammen mit einem »Location«-Redirect ausgegeben. Letzterer informiert die User Agents über den neuen Ort der angeforderten Seite. In PHP:

header("Status: 301 Moved Permanently");
header("Location: http://www.example.com/dir/page.html");

Der User Agent darf (außer bei GET- und HEAD-Requests) nicht automatisch zur neuen Seite weiterleiten, d.h. der Inhalt der Seite sollte eine kurze HTML-Notiz enthalten mit einem Hyperlink zur neuen URI.


Posted

in

,

by

Tags:

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.