Beiträge und Seiteninhalte müssen suchmaschinenoptimiert werden, damit ein hohes Ranking zwischen allen Suchergebnissen (SERPs) erzielt werden kann. Aber auf welche Weise wird überhaupt erkannt, ob Content optimiert worden ist? An dieser Stelle kommt das Crawling ins Spiel. Der Beitrag gibt Aufschluss darüber, worum es sich dabei eigentlich handelt, wie es funktioniert und was Websitebetreibende in diesem Rahmen für Steuerungsmöglichkeiten haben.
Definition
Crawling leitet sich aus dem Englischen ab und könnte grob mit „kriechen“ oder „krabbeln“ übersetzt werden. In der praktischen Anwendung des Onlinemarketings geht es dabei um den Prozess, in dem Online- oder Domain Crawler einer Suchmaschine eine Website durchsuchen und auf relevante Inhalte prüfen, um diese je nach Indexierung hoch oder niedrig zu ranken. Bei diesen Prozessen handelt es sich um automatisierte Programmierungen oder Bots, die den jeweiligen Content genau untersuchen.
Funktion
Das Crawling ist ein wichtiges Werkzeug, damit Websites überhaupt von der Indexierung aufgegriffen werden können. Online Crawler beginnen dabei bei einer Website via Hyperlinks, arbeiten sich gewissermaßen durch diese hindurch und folgen allen beinhalteten Links. Das macht deutlich, dass sowohl interne Linktstrukturen wie auch Backlinks für das Crawling besonders wichtig sind. Sie erstellen sich dabei eine Art spinnenähnliches Netz – was ihnen auch ihren eindrücklichen Namen verleiht.
Dabei analysieren und bewerten sie mitunter auch die Keywords bzw. ermitteln, welche Schlagwörter genutzt werden, um Inhalte auch thematisch einordnen und indexieren zu können.
Der Web Crawler speichert demnach all diese gesammelten Informationen und sorgt dabei für eine entsprechende Indexierung. Werden nur spezifische Suchanfragen gestellt, kann auf ebendiese Informationen zurückgegriffen und ein passendes Ranking erstellt werden.
Deutlich wird demnach auch, wie wichtig es ist, dass Inhalte vollumfänglich ersichtlich sind, um vom Crawling erfasst werden zu können.
Problem
Dabei gibt es ein bestimmtes Crawl-Budget, das von der Suchmaschine selbst vorgegeben wird. Das bedeutet, dass festgelegt ist, wie viele Unterseiten einer Website wann und wie oft tatsächlich gecrawlt werden.
Aus diesem Crawl-Budget resultiert unweigerlich auch, dass besonders große Plattformen nicht vollumfänglich vom URL Crawler erfasst und ausgewertet werden können.
Für die Suchmaschinenoptimierung bedeutet das, dass flache Hierarchien der Linkstrukturen ratsam sind, die lieber weniger als mehr URLs vorgeben, denen gefolgt werden sollte.
Crawling und SEO
An dieser Stelle kann die Frage aufkommen, warum ein Web- oder Domain Crawler auch für die Suchmaschinenoptimierung von Wichtigkeit ist. Es sollte im Sinne aller Websitebetreibenden liegen, dass die eigenen Inhalte reibungslos beim Crawling erfasst werden können, denn erst dieses ermöglicht wie eingangs beschrieben das hohe Ranking über die Suchmaschinen.
Alle Optimierungsarbeit ist vergebens, wenn die gewünschten Inhalte dabei nicht vom Bot aufgegriffen und bewertet werden können. Nur auf diese Weise wird es möglich, von der Indexierung berücksichtigt zu werden.
Die Rede ist hier bewusst von „gewünschten Inhalten,“ da nicht jeder Content auf den eigenen Seiten beim Crawling erfasst werden sollte. Was wirklich relevant ist und was nicht, wird in folgenden Abschnitten noch genauer erläutert.
An dieser Stelle soll aber bereits darauf hingewiesen werden, dass es möglich ist, sich stellenweise diesen Untersuchungsprozessen zu entziehen. Es ist beispielsweise eine Option, durch den kleinen Eintrag „noindex“ im HTML Bereich des Backends des entsprechenden Beitrags von der Untersuchung und Bewertung für die Auflistung befreit zu werden.
Relevante Domains
Nun muss geklärt werden, welche Seiten denn überhaupt relevant genug sind, dass sie vom Online Crawler erfasst werden sollten, und welche dabei besser auszusparen sind.
Kurzgefasst könnte festgehalten werden, dass all jene Seiten geprüft werden sollten, die auch für die Suchmaschinenoptimierung wichtig sind. Dafür kommt zunächst der gesamte Content einer Seite in Frage, der vollumfänglich optimiert sein sollte, um weioben ausgespielt zu werden. In der Praxis ist diese Eingrenzung allerdings etwas enger gefasst. Zumeist geht es dabei um Beiträge, die viel Text, viele Informationen oder Einstiege und Überblicke liefern. Ebendiese sind es auch, die beim Crawling zu erfassen sind.
Zusammengefasst geht es demzufolge meist um Einstiegsseiten, Seiten zu Produkten, Waren, Dienstleistungen oder gesamter Marken, Zielseiten, Blogs, Ratgeber etc. Also all das, was viel qualitativen Inhalt erwartbar macht.
Sonderfall: Pagination
Unter Pagination (engl. Seitennummerierung) sind in der Praxis vor allem nummerierte Artikel- oder Produktseiten gefasst, die auf mehreren Seiten wie in Onlineshops ein diverses Angebotsspektrum sichtbar machen.
Es ist äußerst selten und zumeist auch nicht gewollt, dass diese ein hohes Ranking innerhalb von Suchergebnissen erzielen. Sie bieten inhaltlich wenig Mehrwert und sind zunächst für Nutzende nicht von großer Relevanz. Durch die bloße Auflistung von Einzelprodukten sind sie auch für die Suchmaschinenoptimierung nicht so wichtig wie beispielsweise Blogartikel.Nichtsdestotrotz sollten auch diese Seiten vom Domain Crawler berücksichtigt werden.
Ihre Wichtigkeit erhalten sie durch ihre komplexe interne Linkstruktur, über die auch der Bot zu den weiteren Beitrags- bzw. Produktseiten gelangt, deren Platzierung in den SERPs wiederum relevant ist.
Das bedeutet, wenn auch diese Pagination für die Suchmaschinenoptimierung selbst zweitrangig ist, ist sie für den Vorgang des Crawlings umso wichtiger.
Irrelevante Domains
Neben diesen breitgefächerten Seitenteilen, die im vorliegenden Rahmen Berücksichtigung finden sollten, gibt es auch Bereiche, die sowohl für das Ranking als auch für den URL Crawler irrelevant sind.
Nennenswerte Beispiele für diese Fälle finden sich etwa in Registrierseiten oder Anmeldebereichen. Weder für das Crawling noch für SEO haben diese Seiten eine Relevanz und können mit dem „noindex“ im Backendbereich versehen werden.
Indexierung
Die Indexierung ist bereits in vorangegangenen Abschnitten angesprochen worden. Diese ist gewissermaßen die Grundvoraussetzung für eine hohe Position in den SERPs – Suchmaschinen zeigen nur jene Beiträge an, die auch indexiert sind.
„Noindex“ ist dabei als Steuerungstool oben erläutert worden. Darüber hinaus gibt es aber auch die Möglichkeit der Lenkung über sogenannte Canonical Tags.
Canonical Tags & Duplicate Content
Dieses Werkzeug ist besonders dann relevant, wenn es um den sogenannten Duplicate Content, also die identische Doppelung von Beitragsinhalten, geht. Der Domain Crawler erkennt, wenn sich Inhalte verschiedener URLs gleichen und straft durch die Entfernung aus dem Index ab.
Es gibt aber immer wieder Fälle, in denen diese Deckungsgleichheit unumgänglich wird. Zu diesem Zweck werden Canonical Tags verwendet. Sie sind im Backend im HTML-Bereich im Header zu platzieren und machen deutlich, dass die inhaltliche Gleichheit gewollt ist und verweisen damit auf die hauptsächliche Quell-URL. Bei dem Ursprungslink sollte es sich um diejenige Beitragsseite handeln, die bereits suchmaschinenoptimiert ist und die beste Position erzielen kann.
Abgesehen von den Seiten, deren inhaltliche Doppelung unausweichlich ist, sollte genau aus diesem beschriebenen Grund immer auf das Kopieren fremder Inhalte verzichtet werden. Wie deutlich geworden ist, straft etwa Google dieses Vorgehen streng ab und im schlimmsten Fall verliert die kopierende Seite auf diese Weise ihre Indexierung und damit ebenso ihre Möglichkeit auf ein (hohes) Ranking.
Arten
Diese Web Crawler werden immer von den entsprechenden Suchmaschinen – zumeist geht es dabei um Google – selbst gestellt, da sie für die suchmaschineneigene Indexierung Analysen und Bewertungen der Inhalte vornehmen.
Daher ist es nur logisch, dass jede Suchmaschine auch ein eigenes Crawling bzw. einen eigenen Bot besitzt. Die bekanntesten finden sich dabei etwa im Googlebot oder im Bingbot. Neben diesen lassen sich aber noch weitere Crawling-Arten auflisten wie etwa das Personal-Website-Crawling oder das Kommerzielle-Website-Crawling.
Fazit
Das Crawling lässt sich in seinem Ursprung nicht beeinflussen, sondern arbeitet, wie es die jeweiligen Anbieter vorgeben. Sie leisten dabei die wichtige Tätigkeit, die für das hohe Ranking, das als Ziel gilt, essenziell ist. Websitebetreibende haben dabei zwar keinen Einfluss auf das Crawlbudget, können aber durchaus den Prozess durch Mittel wie „noindex“ oder Canonical Tags steuern.
FAQ zum Theme Crawling
Wie funktioniert Crawling?
Beim Crawling wird durch Bots über einen Hyperlink begonnen, Seiten zu analysieren
und sie in Hinblick auf verschiedene Faktoren zu bewerten und zu indexieren. Dabei
folgt ebendieser Bot allen angegebenen Links und baut sich so ein eigenes AnalyseNetz auf. Auf diese Weise erhalten Seiten bei entsprechenden Suchanfragen ihr Ranking.
Was macht der Webcrawler?
Der Webcrawler durchläuft netzartig Websites und folgt dabei allen angegebenen
Links im Rahmen des Crawlbudgets. Dabei sollen Inhalte analysiert und bewertet werden, um sie in der Indexierung aufzunehmen.
Was ist Crawling SEO?
Crawling ist der Prozess, bei dem Suchmaschinen über eigene Bots Websites und ihre
Inhalte durchlaufen, analysieren und indexieren, damit ihnen ein Ranking bei entsprechende Suchanfrage zugeschrieben werden kann.
Wie oft läuft der Google Crawler?
Crawling lässt sich zwar anfragen, die exakte Angabe, wie oft, lang und umfänglich das
tatsächlich geschieht, ist dabei aber nicht exakt einzusehen. Als grobe Faustregel kann
allgemein ein mehrfaches Crawling pro Tag angenommen werden.
Ähnliche Beiträge
💡 Online-Marketing: Grundlagen
💡 SEA – Definition, Vorteile, Tipps
💡 Die AIDA Formel im Onlinemarketing