Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
SEO - Suchmaschinenoptimierung
Intelligente Bildersuche: Liest Google bald den Text in Grafiken?
© Flickr / Eden, Janine and Jim, CC BY 2.0

Intelligente Bildersuche: Liest Google bald den Text in Grafiken?

Alex Marques Diogo | 14.12.15

Noch schafft es Google nicht, Schrift in Bildern zu erkennen. Ein Blick auf die technologischen Entwicklungen, die den Crawlern das Lesen beibringen sollen.

Bislang schafft es Google nicht, Text in Bildern mithilfe der Crawler zu entschlüsseln. Daher ist es für die Suchmaschinenoptimierung essentiell, dass alle relevante Informationen auch in Textform auf den Websites vorhanden und Grafiken entsprechend beschrieben sind. Die Technologie, Schrift auch innerhalb der Bilder zu erkennen und zu verstehen, ist jedoch bereits angemeldet.

Text in Bildern wird von Google nicht indexiert

Google ist bisher nicht dazu in der Lage, Text in Bildern zu indexieren und so kam es nicht selten vor, dass Unternehmen ihre Unternehmensseite nicht in den geographischen SERPs finden konnten, da sie die Adresse als Grafik implementierten. Erst nachdem sie ihre Anschrift in Text-Form angaben, konnte Google sie entsprechend indexieren.

Ebenso taucht dieses Problem bei der Gestaltung der Navigationsleiste auf. Damit Google die Seitenstruktur erkennt und darauf eine Sitelink erstellt, müssen die Navigationspunkte als tatsächlicher Text vorhanden sein. In den Fällen, in denen die Navigationsleiste aus Grafiken besteht, ist es für Google nicht möglich diese zu verarbeiten.

Bill Slawski, Director of Search Marketing bei Go Fish Digital, beschäftigte sich für SEO by the Sea mit der Fragestellung, ob sich das vielleicht schon bald ändern könnte. Wir stellen euch die wichtigsten Erkenntnisse im Folgenden vor.

Die Technologie ist bereits vorhanden

In den Jahren 2006 bis 2012 findet man einige Entwicklungen bei Google, die darauf hinweisen, dass in Zukunft auch Text in Bildern gecrawlt werden könnte.

Mit der Übernahme von Neven Vision im Jahr 2006 hatte Google sich eine Technologie zur Erkennung von Gesichtern und Objekten angeeignet. Ein Jahr später meldet Google ein Patent an, welches sich der OCR-Technologie (Optical Character Recognition) bedient. Google nutzte sie unter anderem, um Unternehmensadressen aus Geschäftslisten in Google Maps zu lokalisieren.
2012 meldete Google ein ähnliches Patent an, welches Zeichen und Symbole auf Gebäuden innerhalb der Google Street View Bilder erkennt.

Ein Jahr zuvor kam ein weiteres Google Patent, welches diverse Erkennungs-Technologien vereint. Es konnten nun Objekte, Gesichter, Barcodes, Landmarken, Text, Produkte und benannte Gebilde erkannt werden. Ihre Anwendung fanden Sie vermutlich in Google Goggles.

Ein weiteres Resultat dieser bisherigen technologischen Errungenschaften ist die Reverse Image Search, bei der sich ein Bild hochladen lässt, um entsprechende ähnliche Bilder zu erhalten. Wer es noch nicht kennt, sollte es mal ausprobieren.

Reverse Image Search Bild
Beispiel für Reverse Image Search

Die Entwicklung schreitet voran

Denn nicht nur Google hat sich dem Thema der Bilderkennung und der visuellen Suchanfrage angenommen, auch Baidu, die größte chinesische Suchmaschine, forscht auf diesem Gebiet und hat sich hohe Ziele gesteckt. Somit erhöht sich der Druck auf Google, seine bisherige Vormachtstellung zu bewahren.

Doch Google lässt nicht nach, denn weitere Patente folgen und zeigen, dass sich der Konzern im Bereich der visuellen Suche und der Bilderkennung stetig verbessert. Insgesamt drei Patente führt Slawski auf, die der Sache schon sehr nahe kommen:

  • Das Patent Method and apparatus for automatically annotating images beschreibt ein System, das eine visuelle Suche nach ähnlichen Bildern durchführt. Es nutzt den mit den gefundenen Bildern in Beziehung stehenden Text, um auf der Basis der gemeinsam identifizierten Keywords einen erläuternden Kommentar für das Bild, das gesucht wurde, zu generieren.
  • Clustering Queries For Image Search“ geht noch weiter und funktioniert wie folgt: Die Reverse Image Search gruppiert und klassifiziert die gefundenen Resultate, basierend auf visuellen und semantischen Ähnlichkeiten. Die erkannten Gemeinsamkeiten könnten nun als Grundlage dafür dienen, diese automatisiert mit einer Beschreibung zu verknüpfen.
  • Das entscheidende Patent lautet „Identifying matching canonical documents in response to a visual query“: Damit wäre Google zukünftig dazu in der Lage, Bildersuchen durchzuführen, in denen Dokumente in Bildform mittels OCR erkannt werden und daraufhin passende Ergebnisse zu präsentieren:
Aufbau des Systems, Quelle: United States Patent and Trademark Office
Aufbau des Systems, Quelle: United States Patent and Trademark Office

Eine Umsetzung der Technologie würde bedeuten, dass Google Text in Bildern tatsächlich lesen könnte. Seit 2008 ist es für Google bereits möglich, eingescannte Dokumente im PDF-Format zu lesen und zu indexieren, wie im Google Official Blog nachzulesen ist.

Fazit

Wenn man sich die Entwicklungen, die Google gemacht hat und all die Patente, die Google registrieren ließ, anschaut, dann scheint das Lesen und Indexieren von Text in Bildern nur noch eine Frage der Zeit zu sein. Auch Navigationsleisten und Adressen könnten dann in grafischer Form gestaltet und trotzdem indexiert werden.

Doch vielleicht würde nicht nur Text in Bildern erkannt und indexiert werden, auch Gebäude, Orte und Personen. Somit würde die bisher textbasierte Suchanfrage, um die Möglichkeit zwischen Text und Bildern semantische Zusammenhängen herzustellen, erweitert werden. Die Suche würde sich grundlegend ändern.

Quelle: SEO by the Sea

Philip Hoevels | Wildner Akademie am 14.12.2015 um 15:48 Uhr

Ich musste bei diesem Artikel etwas mit der Stirn runzeln. OCR spielt bei Google definitiv schon länger eine wichtige Rolle! Google Translate erkennt Text in Bildern („With the Translate app, you can translate text in images-either in a picture you’ve taken or imported, or just by pointing your camera.“). Wir haben bezüglich SEO auch ein paar Tests 2010 gemacht, und dieser Artikel ist jetzt fünf Jahre alt. Technisch ist die Texterkennung also längst möglich.

Antworten
Anton Priebe am 14.12.2015 um 15:55 Uhr

Hi Philip,

richtig, OCR spielt schon länger eine Rolle bei Google, steht so ja auch im Artikel. Trotzdem indexieren Googles Crawler (noch) nicht den Text innerhalb der Grafiken. Oder haben deine Tests etwas anderes ergeben?

Beste Grüße
Anton

Antworten
Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*
*