Crawling– Definition, Funktion & Tipps

Inhaltsverzeichnis

Beiträge und Seiteninhalte müssen suchmaschinenoptimiert werden, damit ein hohes
Ranking zwischen allen Suchergebnissen (SERPs) erzielt werden kann. Aber auf welche
Weise wird überhaupt erkannt, ob Content optimiert worden ist? An dieser Stelle
kommt das Crawling ins Spiel. Der Beitrag gibt Aufschluss darüber, worum es sich dabei
eigentlich handelt, wie es funktioniert und was Websitebetreibende in diesem Rahmen
für Steuerungsmöglichkeiten haben.

Definition

Crawling leitet sich aus dem Englischen ab und könnte grob mit „kriechen“ oder „krabbeln“ übersetzt werden. In der praktischen Anwendung des Onlinemarketings geht es
dabei um den Prozess, in dem Online- oder Domain Crawler einer Suchmaschine eine
Website durchsuchen und auf relevante Inhalte prüfen, um diese je nach Indexierung
hoch oder niedrig zu ranken. Bei diesen Prozessen handelt es sich um automatisierte
Programmierungen oder Bots, die den jeweiligen Content genau untersuchen.

Funktion

Das Crawling ist ein wichtiges Werkzeug, damit Websites überhaupt von der Indexierung aufgegriffen werden können. Online Crawler beginnen dabei bei einer Website
via Hyperlinks, arbeiten sich gewissermaßen durch diese hindurch und folgen allen beinhalteten Links. Das macht deutlich, dass sowohl interne Linktstrukturen wie auch
Backlinks für das Crawling besonders wichtig sind. Sie erstellen sich dabei eine Art spinnenähnliches Netz – was ihnen auch ihren eindrücklichen Namen verleiht.

Dabei analysieren und bewerten sie mitunter auch die Keywords bzw. ermitteln, welche Schlagwörter genutzt werden, um Inhalte auch thematisch einordnen und indexieren zu können.

Der Web Crawler speichert demnach all diese gesammelten Informationen und sorgt
dabei für eine entsprechende Indexierung. Werden nur spezifische Suchanfragen gestellt, kann auf ebendiese Informationen zurückgegriffen und ein passendes Ranking
erstellt werden.

Deutlich wird demnach auch, wie wichtig es ist, dass Inhalte vollumfänglich ersichtlich
sind, um vom Crawling erfasst werden zu können.

laptop-grafik-mit-einem-error

Problem

Dabei gibt es ein bestimmtes Crawl-Budget, das von der Suchmaschine selbst vorgegeben wird. Das bedeutet, dass festgelegt ist, wie viele Unterseiten einer Website wann
und wie oft tatsächlich gecrawlt werden.

Aus diesem Crawl-Budget resultiert unweigerlich auch, dass besonders große Plattformen nicht vollumfänglich vom URL Crawler erfasst und ausgewertet werden können.

Für die Suchmaschinenoptimierung bedeutet das, dass flache Hierarchien der
Linkstrukturen ratsam sind, die lieber weniger als mehr URLs vorgeben, denen gefolgt werden sollte.

Crawling und SEO

An dieser Stelle kann die Frage aufkommen, warum ein Web- oder Domain Crawler
auch für die Suchmaschinenoptimierung von Wichtigkeit ist. Es sollte im Sinne aller
Websitebetreibenden liegen, dass die eigenen Inhalte reibungslos beim Crawling erfasst werden können, denn erst dieses ermöglicht wie eingangs beschrieben das hohe
Ranking über die Suchmaschinen.

Alle Optimierungsarbeit ist vergebens, wenn die gewünschten Inhalte dabei nicht vom
Bot aufgegriffen und bewertet werden können. Nur auf diese Weise wird es möglich,
von der Indexierung berücksichtigt zu werden.

Die Rede ist hier bewusst von „gewünschten Inhalten,“ da nicht jeder Content auf den
eigenen Seiten beim Crawling erfasst werden sollte. Was wirklich relevant ist und was
nicht, wird in folgenden Abschnitten noch genauer erläutert.

An dieser Stelle soll aber bereits darauf hingewiesen werden, dass es möglich ist, sich
stellenweise diesen Untersuchungsprozessen zu entziehen. Es ist beispielsweise eine
Option, durch den kleinen Eintrag „noindex“ im HTML Bereich des Backends des entsprechenden Beitrags von der Untersuchung und Bewertung für die Auflistung befreit
zu werden.

priority-grafik-google-crawling

Relevante Domains

Nun muss geklärt werden, welche Seiten denn überhaupt relevant genug sind, dass sie
vom Online Crawler erfasst werden sollten, und welche dabei besser auszusparen sind.

Kurzgefasst könnte festgehalten werden, dass all jene Seiten geprüft werden sollten,
die auch für die Suchmaschinenoptimierung wichtig sind. Dafür kommt zunächst der
gesamte Content einer Seite in Frage, der vollumfänglich optimiert sein sollte, um weit
oben ausgespielt zu werden. In der Praxis ist diese Eingrenzung allerdings etwas enger
gefasst. Zumeist geht es dabei um Beiträge, die viel Text, viele Informationen oder Einstiege und Überblicke liefern. Ebendiese sind es auch, die beim Crawling zu erfassen
sind.

Zusammengefasst geht es demzufolge meist um Einstiegsseiten, Seiten zu Produkten,
Waren, Dienstleistungen oder gesamter Marken, Zielseiten, Blogs, Ratgeber etc. Also
all das, was viel qualitativen Inhalt erwartbar macht.

Sonderfall: Pagination

Unter Pagination (engl. Seitennummerierung) sind in der Praxis vor allem nummerierte
Artikel- oder Produktseiten gefasst, die auf mehreren Seiten wie in Onlineshops ein
diverses Angebotsspektrum sichtbar machen.

Es ist äußerst selten und zumeist auch nicht gewollt, dass diese ein hohes Ranking innerhalb von Suchergebnissen erzielen. Sie bieten inhaltlich wenig Mehrwert und sind
zunächst für Nutzende nicht von großer Relevanz. Durch die bloße Auflistung von Einzelprodukten sind sie auch für die Suchmaschinenoptimierung nicht so wichtig wie beispielsweise Blogartikel.

Nichtsdestotrotz sollten auch diese Seiten vom Domain Crawler berücksichtigt werden.
Ihre Wichtigkeit erhalten sie durch ihre komplexe interne Linkstruktur, über die auch
der Bot zu den weiteren Beitrags- bzw. Produktseiten gelangt, deren Platzierung in den
SERPs wiederum relevant ist.

Das bedeutet, wenn auch diese Pagination für die Suchmaschinenoptimierung selbst
zweitrangig ist, ist sie für den Vorgang des Crawlings umso wichtiger.

Irrelevante Domains

Neben diesen breitgefächerten Seitenteilen, die im vorliegenden Rahmen Berücksichtigung finden sollten, gibt es auch Bereiche, die sowohl für das Ranking als auch für den
URL Crawler irrelevant sind.

Nennenswerte Beispiele für diese Fälle finden sich etwa in Registrierseiten oder Anmeldebereichen. Weder für das Crawling noch für SEO haben diese Seiten eine Relevanz und können mit dem „noindex“ im Backendbereich versehen werden.

aktenordner-grafik

Indexierung

Die Indexierung ist bereits in vorangegangenen Abschnitten angesprochen worden.
Diese ist gewissermaßen die Grundvoraussetzung für eine hohe Position in den SERPs
– Suchmaschinen zeigen nur jene Beiträge an, die auch indexiert sind.

„Noindex“ ist dabei als Steuerungstool oben erläutert worden. Darüber hinaus gibt es
aber auch die Möglichkeit der Lenkung über sogenannte Canonical Tags.

Canonical Tags & Duplicate Content

Dieses Werkzeug ist besonders dann relevant, wenn es um den sogenannten Duplicate
Content, also die identische Doppelung von Beitragsinhalten, geht. Der Domain Crawler erkennt, wenn sich Inhalte verschiedener URLs gleichen und straft durch die Entfernung aus dem Index ab.

Es gibt aber immer wieder Fälle, in denen diese Deckungsgleichheit unumgänglich
wird. Zu diesem Zweck werden Canonical Tags verwendet. Sie sind im Backend im
HTML-Bereich im Header zu platzieren und machen deutlich, dass die inhaltliche
Gleichheit gewollt ist und verweisen damit auf die hauptsächliche Quell-URL. Bei dem
Ursprungslink sollte es sich um diejenige Beitragsseite handeln, die bereits suchmaschinenoptimiert ist und die beste Position erzielen kann.

arbeitende-menschen-laptop-grafik

Abgesehen von den Seiten, deren inhaltliche Doppelung unausweichlich ist, sollte genau aus diesem beschriebenen Grund immer auf das Kopieren fremder Inhalte verzichtet werden. Wie deutlich geworden ist, straft etwa Google dieses Vorgehen streng ab
und im schlimmsten Fall verliert die kopierende Seite auf diese Weise ihre Indexierung
und damit ebenso ihre Möglichkeit auf ein (hohes) Ranking.

Arten

Diese Web Crawler werden immer von den entsprechenden Suchmaschinen – zumeist
geht es dabei um Google – selbst gestellt, da sie für die suchmaschineneigene Indexierung Analysen und Bewertungen der Inhalte vornehmen.

Daher ist es nur logisch, dass jede Suchmaschine auch ein eigenes Crawling bzw. einen
eigenen Bot besitzt. Die bekanntesten finden sich dabei etwa im Googlebot oder im
Bingbot.

Neben diesen lassen sich aber noch weitere Crawling-Arten auflisten wie etwa das Personal-Website-Crawling oder das Kommerzielle-Website-Crawling.

Fazit

Das Crawling lässt sich in seinem Ursprung nicht beeinflussen, sondern arbeitet, wie es
die jeweiligen Anbieter vorgeben. Sie leisten dabei die wichtige Tätigkeit, die für das
hohe Ranking, das als Ziel gilt, essenziell ist. Websitebetreibende haben dabei zwar
keinen Einfluss auf das Crawlbudget, können aber durchaus den Prozess durch Mittel
wie „noindex“ oder Canonical Tags steuern.

FAQ zum Theme Crawling

Wie funktioniert Crawling?

Beim Crawling wird durch Bots über einen Hyperlink begonnen, Seiten zu analysieren
und sie in Hinblick auf verschiedene Faktoren zu bewerten und zu indexieren. Dabei
folgt ebendieser Bot allen angegebenen Links und baut sich so ein eigenes AnalyseNetz auf. Auf diese Weise erhalten Seiten bei entsprechenden Suchanfragen ihr Ranking.

Was macht der Webcrawler?

Der Webcrawler durchläuft netzartig Websites und folgt dabei allen angegebenen
Links im Rahmen des Crawlbudgets. Dabei sollen Inhalte analysiert und bewertet werden, um sie in der Indexierung aufzunehmen.

Was ist Crawling SEO?

Crawling ist der Prozess, bei dem Suchmaschinen über eigene Bots Websites und ihre
Inhalte durchlaufen, analysieren und indexieren, damit ihnen ein Ranking bei entsprechende Suchanfrage zugeschrieben werden kann.

Wie oft läuft der Google Crawler?

Crawling lässt sich zwar anfragen, die exakte Angabe, wie oft, lang und umfänglich das
tatsächlich geschieht, ist dabei aber nicht exakt einzusehen. Als grobe Faustregel kann
allgemein ein mehrfaches Crawling pro Tag angenommen werden.

 

Sie mögen den artikel?

Share on facebook
Auf Facebook teilen
Share on twitter
Auf Twitter teilen
Share on linkedin
Auf Linkedin teilen
Share on pinterest
Auf Pinterest teilen
Ronald Wendel

Ronald Wendel