Methoden zur Identifikation von Unique Content

24. Januar 2012 Aus Von admin

Wer bei seinen eigenen Webprojekten Duplicate Content vermeiden möchte, sollte sich zunächst mit diesem Begriff und mit der Funktionsweise der als Gegenmmaßnahme implementierten Content Filter vertraut machen. Der einfachste Ansatz zur Erkennung von Duplikaten ist, für jedes HTML-Dokument eine Prüfsumme zu berechnen, eine Art digitalen Fingerabdruck, der die Gesamtheit der im Dokument vorkommenden Zeichen repräsentiert. Falls dann die Fingerabdrücke von zwei Seiten identisch sind, testen wir weiter, ob die Seiten selbst tatsächlich auch gleich sind und wenn ja, wird eine von ihnen als Kopie der anderen markiert. Dieser vereinfachende Ansatz wirkt jedoch nicht bei einer inzwischen weit verbreiteten Methode der Replikation von Unique Content: Sogenannte „Beinahe-Kopien“, bei denen der Originalinhalt unwesentlich verändert wurde. In vielen Fällen sind die Inhalte einer Webseite identisch mit denen einer anderen, lediglich ein paar wenige Zeichen – etwa Notation von Datum und der Uhrzeit der letzten Änderung – sind verschieden.

Shingling-Algorithmen: Auffällige Ähnlichkeiten und Scraping Duplikate effizient erkennen

Eine effizientere Lösung für das Problem bei der Erkennung von Beinahe-Duplikat Webseiten ist das von Suchmaschinen eingesetzte sogenannte Shingling-Verfahren. „Shingle“ bedeutet übersetzt Schindel, ein aufgrund gewisser Analogien der Dachdeckerei entlehnter Begriff. Ein Shingling Algorithmus ist eine Methode, die Dokumente in einzelne Segmente unterteilt. Diese Algorithmen suchen nach Quelltext-Abschnitten, die auf einer Webseite nicht regelmäßig wiederkehren und gleichzeitig nach Abschnitten mit bestimmten, wünschenswerten Eigenschaften. Bei der Indexierung werden die wiederkehrenden Elemente für Navigation, Banner, und andere Bereiche, die keinen Unique Content enthalten, übergangen. Auf diese Weise erhöht sich die Geschwindigkeit vom Crawling und von Ranking-Updates, der benötigte Speicherplatz wird reduziert, und aufgrund der bevorzugten Indexierung von Unique Content wird zumindest theoretisch die Relevanz auf den SERPs erhöht.

Unique Content und die Distribution von Pressemeldungen und Blogartikeln

Die meisten Webmaster gehen davon aus, dass es ihnen zum Vorteil gereicht, wenn Sie etwa einen Blogartikel veröffentlichen, dessen Titel und Abstract möglichst oft im Social Web reproduziert und republiziert wird. Dies trifft jedoch nicht in jedem Fall und nicht unbedingt für alle Websites zu: Diese Art von Duplicate Content kann tückisch sein, denn auch wenn beispielsweise Yahoo! und MSN die Quelle des ursprünglichen Artikels bestimmen und diesen in den meisten Fällen als Unique Content ansehen: Andere Suchmaschinen, darunter laut Meinung einiger Experten möglicherweise auch Google, gehen hier unter Umständen weniger sorgfältig vor.