Crawler

 

Ein (Web-)Crawler ist ein Programm, das automatisiert Websites besucht, deren Inhalte erfasst und in einer Bibliothek (Index) speichert. Durch die Nutzung dieser Crawler bauen sich Suchmaschinen einen riesigen Index auf, der bei Google mittlerweile mehr als eine Billionen Seiten enthält.

Crawler werden oft auch Bots, Robots oder Spider genannt und machen in der Masse etwa 40% des gesamten Internettraffics aus. Jede Suchmaschine hat ihre eigenen Crawler, genau wie Facebook und viele andere Plattformen auch.

Dank der Arbeit von Crawlern können Suchmaschinen bei jeder Suchanfrage ihren Index durchsuchen und (mehr oder weniger) präzise nur die Seiten ausgeben, die zu der Suchanfrage passen. Du kannst dir einen Crawler vorstellen wie einen Bibliothekar, der die Bücher einer Bibliothek durchschaut und daraus eine Liste mit den vorhandenen Büchern und ihren Themen und Inhalten zusammenstellt.

Steuerung von Crawlern

Die Crawler bewegen sich mit der Hilfe von Links durch das Internet. Sie nutzen also interne und externe Links als Wegweiser und folgen ihnen auf die nächste Seite.

Du kannst Crawler steuern und ihnen vorgeben, ob eine Seite indexiert werden darf oder nicht und kannst ihnen verbieten, Links auf deiner Seite zu folgen. Diese Steuerung geschieht über die robots.txt Datei und Meta Tags in dem Head Bereich des Quellcodes einer Seite.

Dank Plugins wie Yoast SEO kannst du diese Vorgaben ganz bequem für jeden Artikel und jede Seite einstellen, mehr dazu erfährst du hier. Normalerweise lässt man die Indexierung und das Folgen von Links zu, da man mit seiner Website in den SERPs auftauchen und von Nutzern gefunden werden möchte.

Diese Steuerung der Crawler kann entweder global für die gesamte Website vorgenommen werden, oder individuell für die einzelnen Unterseiten. Zudem kannst du steuern, welche Crawler deine Vorgaben betreffen sollen oder ob es alle betrifft.

Noindex

Damit eine Seite nicht in den Index aufgenommen wird, muss der folgende Meta Tag in den Head Bereich einer Seite eingetragen werden:

<meta name="robots" content="noindex">
Crawler noindex yoast seo
Die Indexierung einer Seite per „noindex“ mit der Hilfe von Yoast SEO verhindern.

Du kannst eine Seite auch mit der Hilfe der Yoast SEO Box (wenn installiert) auf noindex stellen. Dafür klickst du einfach auf das unterste Icon (Zahnrad) auf der linken Seite der Box, und stellst „Meta robots index“ auf „noindex“.

Wenn die gesamte Website nicht indexiert werden soll, kannst du das folgende in die robots.txt Datei eintragen, die im Hauptverzeichnis liegen muss:

User-agent: *
Disallow: /

Nofollow

Um zu verhindern, dass die Crawler den Links auf deiner Seite folgen, musst du ebenfalls einen Meta Tag in den Head Bereich der Seite eintragen.

<meta name="robots" content="nofollow">
Crawler nofollow yoast seo box
Nofollow per Yoast SEO Box einstellen, um das Folgen von Links durch Crawler zu verhindern.

Auch diese Vorgabe kannst du per Yoast SEO Box einstellen, wodurch das Yoast Plugin diesen Code automatisch einfügt. Klicke wieder auf das untere Icon (Zahnrad) auf der linken Seite der Box und stelle „Meta robots follow“ auf „nofollow“.

 

 

 


0/5


(0 Reviews)

0/5 (0 Reviews)