Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
SEO - Suchmaschinenoptimierung
Frisch gepresst: Wie viel Linkjuice steckt in PDFs?

Frisch gepresst: Wie viel Linkjuice steckt in PDFs?

Stefan Rosentraeger | 28.01.15

PDFs gelten als Rankingkiller. Ein Trick hilft dennoch wertvollen Linkjuice aus PDFs zu pressen. Aber lohnt sich das? Experten sehen PDF-Content für SEO-Zwecke kritisch.

PDFs sind ein heikles Thema im Online Marketing. Warum? Einerseits sind PDF-Dokumente vielfältig im Einsatz – unter anderem in Form von Whitepapers, Case-Studies, Produktkatalogen oder Preislisten. Andererseits eilt ihnen der Ruf voraus, ein Rankingkiller für Webseiten zu sein. „Falsch eingesetzt saugen sie oft den Linkjuice der linkgebenden Dokumente wie ein Schwamm auf und vergeuden ihn sinnlos, wie ein löchriger Eimer Wasser verliert“, nennt Jens Fröhlich im Indexlift Blog als Grund, warum PDFs zur SEO-Bremse werden. Und das, obwohl Google seit Jahren in der Lage ist, Dokumente in diesem Format zu „lesen“. Um wertvollen Linkjuice aus PDFs zu pressen, ist es wichtig, die Dokumente entsprechend aufzubereiten. Dan Petrovic von Dejan SEO hat hierzu eine Teststudie durchgeführt, die einigen Aufschluss über PDF-Content im SEO gewährt.

Hängende Knoten: PDFs halten Linkjuice „gefangen“

Google’s PageRank basiert im Wesentlichen auf stochastischen Matrizen. Das schlägt sich auch in der Linktheorie wider: PDFs werden im Modell als „dangling nodes“, also „hängende Knoten“, bezeichnet. In der Stochastik handelt es sich um Nullstellen in Matrizen, in der Linktheorie stellen hängende Knoten für Webseitenbesucher eine „Sackgasse“ dar. „Dangling nodes are very common in the World Wide Web (for example: image files, PDF documents, etc.), and they cause a problem for our random web surfer. When Webster enters a dangling node, he has nowhere to go and is stuck“, erläutert Professor Brian A. Davey von der La Trobe University in seiner Analyse des Google PageRanks. Wenn eine Webseite, oder ein verlinktes PDF keine herausführenden Links (Outlinks) besitzt, dann bleiben die User sprichwörtlich stecken: „It is possible that some pages do not contain any valid hyperlinks, which may be broken pages (i.e., those that formerly contained hyperlinks but have now become “403/404 Error”) or multimedia data types (i.e., PDF, JPG, PS, MOV)“, stellen Erjia Yan und Ying Ding in ihrer Studie zur Auswirkung hängender Knoten auf Netzwerke, in denen Zitate und Querverlinkungen eine große Rollen spielen, fest.

Dan Petrovic von Dejan SEO gibt Einblicke in die Linktheorie:

Google selbst reagiert auf diese dangling nodes, indem sie aus der Berechnung des PageRanks zunächst ausgeklammert werden. Larry Page schreibt dazu in einem der ersten Paper zur Enstehung des Rankings, das er 1998 für die Stanford University verfasst hat: „Dangling links are simply links that point to any page with no outgoing links. […] Because dangling links do not affect the ranking of any other page directly, we simply remove them from the system until all the PageRanks are calculated“.

Knapp zwei Jahrzehnte später hat sich die Sicht auf Dokumente wie PDFs und deren Einsatz als „Link-Saftpresse“ nicht wesentlich weiterentwickelt. Google-Experten wie Matt Cutts oder John Mueller gehen sogar direkt auf die Nachteile von PDFs beim Linkbuilding ein. Cutts riet in einem Interview vom Einsatz von PDFs als Webseiten-Content ab: „Users don’t always like being sent to a PDF. If you can make your content in a Web-Native format, such as pure HTML, that’s often a little more useful to users than just a pure PDF file“. John Mueller bestätigte, dass PDFs von Google gelesen werden, aber: „[Google] will not follow them with link juice. Only proper HTML anchor tagged links in files will pass link juice“.

PDFs liefern Link Juice über Umwege: Lohnt sich das?

Dann Petrovic hat einen Weg gefunden, den hängenden Knoten bei PDFs zu lösen. Über einen im PDF platzierten Canonical Tag erfolgt eine Weiterleitung aus dem PDF auf eine identische HTML-Seite. Das Ergebnis: Der PDF-Content landete im PageRank und sogar soziale Signale aus Google Plus wurden übertragen. Wie es aussieht, handelt sich aber lediglich um kurzfristige Effekte. Ob PDFs mithilfe dieses Hacks wirklich dauerhaft Linksignale weitergeben, steht laut Petrovic noch aus: „If PageRank of dangling nodes proves to be a post-processing estimate and a ‚cosmetic‘ value in toolbar PageRank, there is a chance these nodes may be ’sterile‘ in terms of their ability to pass link signals, regardless of canonicalisation or redirects“.

Linkjuice-Hack
PDFs geben den Linkjuice auf herkömmlichen Wege nicht an HTML-Seiten weiter und bleiben „stecken“. Mithilfe von Canonical Tags lässt sich der Linkjuice weiterleiten.

Ob sich der Aufwand über einen Trick Linkjuice aus PDFs zu pressen lohnt, ist in SEO-Kreisen umstritten. Als Reaktion auf einen Beitrag von SISTRIX-Redakteur Julian Hoffmann zeigt sich Sven Hanold, Gründer von schreiberling.info, skeptisch:

Warum sollte ein in ein PDF eingebetteter Link auch Linkjuice weitergeben? Man kann doch wohl davon ausgehen, dass ein PDF eine Art Endstation ist. Häufig ist das Anzeigen eines PDF eine direkte Conversion (White Papers, etc.). Warum jemand wirklich Dokumente in seine ‚reguläre‘ Seitenstruktur und Navigation einbinden will, erschließt sich mir überhaupt nicht. Also, vergesst den Blödsinn und baut den Content aus dem PDF in eure Präsenz ein. Dann verliert ihr auch keinen wertvollen Linkjuice. Denn User sind mittlerweile auch gebrieft und klicken nicht mehr auf Links in PDF-Dateien.

PDFs sind also attraktiver Web-Content, aber gewiss kein eigenständiger Linkjuice-Lieferant.

Was meint ihr? Habt ihr Erfahrung mit PDFs im SEO-Einsatz?

Kommentare aus der Community

Marcus Franke am 31.01.2015 um 12:41 Uhr

Ich verstehe den Wind um das Thema nicht.
Vor allem die Lösung mit einem Canonical Tag im PDF ist doch Hunde alt.
Dieser „Trick“ ist eher dazu genutzt worden ein PDF auf das verlinkende HTML Dokument zu verweisen. Damit erscheint das PDF nicht in den SERPS. Ziel war/ist es eine weitere Interaktion des Besuchers auf der eigentlichen Webseite zu forcieren.

Antworten
Heinz Wittel am 28.01.2015 um 09:39 Uhr

Interessanter Beitrag aus technischer Sicht. Ist es nicht einfach am sinnvollsten, den Content nativ in HTML anzubieten und das PDF zum Download? Ich habe einige Magazinportale für Kunden entwickelt und da ist es üblich, es so zu machen. Von HTML direkt auf PDF zu linken ist selten im Interesse des Users.

Antworten
Artur am 30.01.2015 um 00:56 Uhr

Da solltest du aber Duplicate Content achten, wenn die PDF den selben Inhalt wie das HTML Dokument hat.

Antworten
Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*