Über Google 3. wichtigsten Ranking-Faktor mit künstlicher Intelligenz
Der bekannte US-amerikanische Regisseur Steven Spielberg verfilmte im Jahre 2001 den Roman „A. I. Artificial Intelligence“ von Brian W. Aldiss. Darin wurde die Frage thematisiert, inwieweit künstliche Intelligenz die vermeintlich „natürliche Intelligenz“ des Menschen nach zu empfinden vermag. Was wäre, wenn ein Roboterkind erschaffen würde, darauf programmiert, seine Mutter zu lieben? Wäre dann auch die Mutter darauf programmiert ihr Kind zu lieben? Vermutlich nicht, so die Philosophie des Films.
Schon im Jahre 1956 wurde der Begriff der „künstlichen Intelligenz“ geprägt und seither nimmt dieses Thema weite Teile der Informatik ein. Auch in der Suchmaschinenoptimierung spielt die künstliche Intelligenz eine nicht unerhebliche Rolle. Setzt sich eine Suchmaschine doch das Ziel, das Suchverhalten des Menschen nachzubilden und die Suchergebnisse entsprechend zu platzieren.
Danny Sullivan veröffentlichte 2015 auf dem Internetportal searchengineland.com hier eine ausführliche Befassung mit dem neuen RankBrain Algorithmus von Google, der sich mit Fragen neuer Technologien bei den Suchmaschinen auseinandersetzt. Dieser Artikel fasst wesentliche Aussagen des Originalartikels zusammen.
Googles Ankündigung
Es war im Oktober 2015. Google gab erstmals bekannt einen Algorithmus mit dem Namen „RankBrain“ zu nutzen. Ein System der künstlichen Intelligenz, das dazu in der Lage ist, maschinelles Lernen im Kontext der Suchmaschine zu verwirklichen. Suchmaschinenoptimierer aus aller Welt stellten sich die Frage: Wie passt dies zu den anderen Suchalgorithmen von Google? Wo ist RankBrain in diesen Kontext einzuordnen. Einige Fakten über diesen Ansatz des Maschinelles Lernen sind mittlerweile bekannt.
Was bedeutet RankBrain?
RankBrain ist der Name eines Systems des maschinellen Lernens und der künstlichen Intelligenz, das die Weiterentwicklung der Suchalgorithmen der Suchmaschine Google unterstützen soll.
Was bedeutet künstliche Intelligenz?
Künstliche Intelligenz ist ein Konzept, das versucht, maschinelles Lernen so zu gestalten, dass es weitgehend das menschliche Lernen abbildet. Dies setzt eine fundierte Kenntnis über das menschliche Lernen voraus und entwickelt ein völlig neues Konzept der Sammlung und Verknüpfung von maschinell erfassten Daten. Eine 1:1 Umsetzung von menschlichem Lernen auf die Maschine ist heute nur in der Science-Fiction bekannt. Aber schon heute gibt es Ansätze des maschinellen Lernens und Verknüpfen von Daten, die den menschlichen Lernkonzepten nicht ganz unähnlich ist.
Ist RankBrain ein neuer Suchalgorithmus für das Google Ranking?
Nein. RankBrain ist eher als ein übergeordnetes System zu verstehen, den Google Algorithmus weiter zu entwickeln. Das ist ein Programm, das sich das Ziel setzt, aus Milliarden Internetseiten und einer Vielzahl von Suchanfragen intelligente Verknüpfungen aufzubauen.
Wie nennt sich der Google Suchalgorithmus?
Der aktuelle Suchalgorithmus von Google wird als „Hummingbird“ bezeichnet. Über viele Jahre hatte der Google Suchalgorithmus gar keinen Namen. Erst Mitte 2013 wurde der Name Hummingbird von Google eingeführt.
Ist RankBrain Teil des Hummingbird Suchalgorithmus?
Danny Sullivan beantwortet diese Frage mit ja. Er versteht Hummingbird wie den Motor eines Autos. Dieser besteht aus vielen Einzelteilen, wie dem Ölfilter oder der Benzinpumpe. So vereinigt auch Hummingbird unterschiedliche Komponenten. RankBrain gehört zu den neuesten Innovationen dieses „Motors“. RankBrain ist ein übergeordnetes System innerhalb von Hummingbird, das sich allerdings nicht mit allen Aspekten der Suchanfragen befasst.
Hummigbird steht für eine Vielzahl von Konzepten innerhalb der Suchalgorithmen, wie etwa Panda, Penguin oder Payday. Maßnahmen, die eingeführt worden sind, um Internetspam zu vermindern. Oder auch Pgeon, ein Konzept um lokale Suchergebnisse zu stärken. Oder Top-Heavy, ein Ansatz, um werbelastige Internetangebote zu identifizieren. Ebenso wie Mobile-Friendly, eine Stärkung des mobilen Webdesigns und Pirate, der Identifikation von Copyrightverletzungen.
Was bedeutet in diesem Zusammenhang der Begriff „PageRank“?
PageRank wird heute als eine Komponente von Hummingbird verstanden. Der patentierte Begriff kam in der Vergangenheit der Suchmaschine unterschiedlich zum Einsatz. So wurde in der Google-Toolbar bis zum Jahre 2013 eine 10-Punkte Bewertung von Websites dargestellt, die ebenfalls als PageRank bezeichnet wurde, aber nicht identisch mit dem Page-Rank Algorithmus in den Suchergebnissen sein musste. Der Begriff PageRank wurde bereits im Jahre 1998 von Google geprägt.
„Ranking Signale“ – Was ist das?
Google verwendet unterschiedliche Ranking-Signale für die korrekte Platzierung von Webseiten in den Suchergebnissen. So werden beispielsweise die Texte einer Seite ausgelesen. Also sind Textinhalte entsprechende Signale. Die Berechnungen, die sich aus dem PageRank ergeben, liefern ebenfalls ein entsprechendes Signal. All diese Signale sind Elemente des Hummingbird Algorithmus, die Suchanfragen den Suchergebnissen zuordnen.
Wie viele solcher Signale gibt es?
Google spricht von mehr als 200 wichtigen Ranking Signalen und über 10.000 Variationen und Sub-Signalen. Die Suchergebnisse setzen sich aus hunderten von Faktoren zusammen.
Ist RankBrain das drittwichtigste Signal?
Das ist korrekt. Google spricht in einem Artikel bei Bloomberg hier von RankBrain als dem drittwichtigsten Signal:
RankBrain ist eines von hunderten Signalen, das in die Algorithmen einfließt, welche Ergebnisse auf einer Google Suchseite erscheinen und wie diese ranken. In den wenigen Monaten in denen es entwickelt worden ist, wurde BrainRank zum drittwichtigsten Signal für Suchanfragen.
Was sind die wichtigsten beiden Signale?
Auch auf Nachfrage wollte Google nicht mitteilen, was das wichtigste und zweitwichtigste Signal war. Offenbar möchte Google die wichtigsten beiden Signale nicht öffentlich bekannt geben. Sicherlich war es keine Panne, dass im Bloomberg-Artikel über das RankBrain Signal berichtet wurde. Vermutlich erwartet Google diesbezüglich einige Öffentlichkeit. Es wäre hilfreich, zum Vergleich auch die beiden anderen wichtigen Signale offenzulegen, soll RankBrain als entsprechender Durchbruch vermarktet werden. Google sollte das unter diesem Aspekt offenlegen.
Es kann vermutet werden, dass links weiterhin als das wichtigste Signal gelten, insofern links als echte Empfehlungen identifiziert werden können. Das zweite wichtige Signal könnten die Inhalte (der Content) einer Website sein. Wörter bestimmen, wie eine Seite von Google bewertet und verstanden wird.
Welche genaue Aufgabe hat RankBrain?
Verschiedene Dialoge per Email mit Google lassen die Vermutung zu, dass sich RankBrain im Schwerpunkt die Aufgabe setzt, die Suchanfragen der Menschen zu interpretieren und entsprechende Seiten als Suchergebnisse zu präsentieren, unabhängig von der Frage, ob sich die exakten Formulierungen aus der Suchanfrage auf der Zielseite befinden.
Gab es nicht bereits vor RankBrain Konzepte bei Google für eine Suche unabhängig der exakten Formulierung der Suchanfrage?
Ja, gab es. Google präsentiert schon seit längerer Zeit Suchergebnisse jenseits der exakten Suchanfrage. Bereits vor der Einführung von RankBrain war es möglich mit der Suche nach dem Begriff „Schuh“ auch Ergebnisse zum Wort „Schuhe“ zu finden. Google war auch dazu in der Lage, Synonyme entsprechend zuzuordnen und konnte auch doppelte Bedeutungen gleicher Worte (z.B. das Smartphone Apple und die gleichnamige Frucht) voneinander unterscheiden.
Was ist der „Knowledge Graph“?
Der Knowledge Graph wurde im Jahre 2012 eingeführt. Dieses Konzept erlaubte es Google, präzisere Verbindungen zwischen einzelnen Wörtern herzustellen. Google prägte den Begriff „Things not strings“, was bedeutet, dass der Inhalt stärker gewichtet wird als die Anordnung von Wörtern. Der Knowledge Graph ist eine Datenbank mit Fakten über Dinge in der Welt und ihre Beziehung zueinander. So kann etwa die Suchanfrage „when was the wife of obama born“ eine korrekte Antwort erzielen, ohne dass der Name der Person genannt werden muss.
Auf welche Weise kann RankBrain helfen, die Ergebnisse von Suchanfragen zu verfeinern?
Die bisherigen Methoden Googles Suchergebnisse zu verfeinern setzen auf fixe Listen oder Synonymlisten oder auf Verbindungen zwischen unterschiedlichen Elementen in einer Datenbank. In jedem Falle wird dabei eine gewisse Automatisierung mit einbezogen, aber auch die Einflussnahme menschlicher Arbeit.
Die Herausforderung ist, dass Golg.e jeden Tag drei Milliarden Suchanfragen beantworten muss. Im Jahre 2007 erklärte Google, dass zwischen 20 und 25 Prozent der täglichen Suchanfragen im selben Wortlaut noch nie formuliert worden sind. Im Jahre 2013 lag diese Quote noch bei 15%. Das sind bei drei Milliarden Anfragen dann 450 neue Suchanfragen pro Tag.
Vor allem „long tail“ Anfragen, also Suchen, die aus mehreren Suchbegriffen bestehen, sind hiervon betroffen. RankBrain wurde angelegt, um diese Anfragen besser interpretieren zu können und um eine Übersetzung dieser vorzunehmen. Mit der Zielsetzung die besten Seiten für den Suchenden zu finden.
Wie Google mitteilte, kann RankBrain Muste zwischen nicht miteinander verbundenen Suchanfragen Zusammenhänge herstellen um zu verstehen, was die jeweilige Verbindung zwischen den einzelnen Begriffen ist. Diese Art zu lernen führt zu einem besseren Verständnis über komplexe Suchanfragen in Bezug auf bestimmte Themengebiete. Entscheidend dabei ist, dass diese zu jenen Suchergebnissen führen, die den Suchenden am meisten interessieren.
Google nennt keine Beispiele für solche Such-Gruppen und nennt keine Details, auf welche Weise RankBrain versucht, die „besten Seiten“ zu definieren. Der entscheidende Punkt wird aber sicherlich sein, dass eine mehrdeutige Suchanfrage in etwas Spezifisches umgewandelt werden kann.
Wie wäre es mit einem Beispiel?
Obwohl Google keine Suchgruppen nennt, gibt es einige Hinweise darauf, an welcher Stelle RankBrain für die Umwandlung unspezifischer Suchanfragen eine Hilfe sein kann. Nehmen wir die Suchanfrage: „What’s the title of the consumer at the highest level of a food chain“
Der Laie würde Antworten, ein Verbraucher ist jemand, der etwas kauft. Mehr wissenschaftlich betrachtet ist der Verbraucher ein Mensch, der Nahrung konsumiert. Auch im Kontext des Begriffes „Nahrungskette“ kommt der Begriff „Verbraucher“ vor. Geben wir die Suchanfrage „What’s the title of the consumer at the highest level of a food chain” bei Google ein, bekommen wir ein ziemlich ungenaues thematisches Bild:
Sehr ähnlich sind die Suchergebnisse für eine Suche nach „top level of the food chain“:
RankBrain wird die originale lange und komplizierte Suchanfrage in die kürzere umwandeln, was vermutlich die häufigste Umwandlung darstellt. Dies führt zu den ähnlichen Ergebnissen. Google kann alle bekannten Verbindungen einsetzen, um die Antwort auf Grundlage einer häufiger angefragten und einfacheren Anfrage zu geben.
Genau genommen gibt es keinen Nachweis, dass die in den Beispielen genannten Anfragen über RankBrain miteinander in Beziehung gebracht worden sind. Aber das erste Beispiel stammt direkt von Google. Dies kann illustrieren, auf welche Weise RankBrain eingesetzt werden kann, um unklare Suchanfragen in Bezug zu bekannten Suchanfragen zu setzen, für die Steigerung der Suchleistung.
Kann Bing dies ebenfalls mittels „RankNet“?
Im Jahre 2005 startete Microsoft ein eigenes maschinelles Lernsystem mit dem Namen „RankNet“, das bis heute zum Bestandteil der Suchmaschine Bing wurde. Jüngst wurde der Entwickler und Erfinder von RankNet dafür ausgezeichnet. Im Verlauf der Jahre wurde von Microsoft nicht mehr viel zum Thema RankNet veröffentlicht.
Wenn wir das Beispiel „What’s the title of the consumer at the highest level of a food chain” bei Bing eingeben, erhalten wir ebenfalls gute Suchergebnisse, inklusive einer Seite, die auch von Google angezeigt wurde.
Eine Suchanfrage allein lässt natürlich noch keine Schlüsse darüber zu, ob RankNet vergleichbare Qualitäten besitzt wie Googles RankBrain.
Weitere Beispiele?
Ein weiteres Beispiel kommt von Google selbst: „How many tablespoons in a cup?“ Google teilte mit, dass RankBrain dazu in der Lage ist, hier in Australien und in den Vereinigten Staaten von Amerika unterschiedliche Suchergebnisse zu liefern. Allerdings wären schon vor RankBrain unterschiedliche Suchergebnisse bei einer solchen Anfrage aufgrund der Lokalisierungs-Algorithmen zu erwarten gewesen.
Ist RankBrain wirklich eine Hilfe?
Obwohl die obigen beiden Beispiele noch keinen zwingenden Beweis für einen entscheidenden innovativen Schritt für RankBrain liefern ist davon auszugehen, dass RankBrain die große Innovation werden könnte, so wie sie von Google vermarktet wird. Normalerweise gibt sich das Unternehmen recht zurückhaltend bei Veränderungen der Suchalgorithmen. Große Einschnitte gibt es erst dann, wenn sie sehr vertrauenswürdig sind.
RankBrain als drittwichtigstes Signal für die Suchergebnisse ist ein wesentlicher Einschnitt. Google würde dies nicht einführen, wäre dies nicht eine entscheidende Hilfe für die Suche.
Wann wurde RankBrain gestartet?
RankBrain arbeitet seit Anfang 2015 und ist nun seit einigen Monaten ununterbrochen aktiv.
Was für Suchanfragen sind von RankBrain betroffen?
Google spricht von „sehr langen Suchanfragen“. Konkretere Angaben sind bislang nicht bekannt.
Ist RankBrain permanent am Lernen?
Google berichtet, dass die Lernprozesse von RankBrain offline stattfinden. RankBrain arbeitet mit den früher angefragten Suchen und lernt, diese miteinander zu verbinden. Verbindungen, die für gut befunden wurden, werden in die jeweils neueste Version mit RankBrain einbezogen. Dann wird der Offline-Lernprozess wiederholt.
Kann RankBrain mehr leisten als eine Feinjustierung der Suchanfragen?
Die Frage, ob RankBrain auch als direktes Rankingsignal verstanden werden kann, wurde noch nicht gestellt. Suchsignale sind Faktoren, die sich auf den Content, die Wörter auf einer Seite beziehen, auf Fragen der Seitensicherheit, etc. Sie können personifiziert sein mit dem User und mit seiner Lokalisierung und dem Browserverlauf.
Wenn Google von RankBrain als dem drittwichtigsten Signal spricht, können wir dies dann als Ranking-Signal definieren? Ja. Google hat bestätigt, dass RankBrain auch eine Komponente des Rankings darstellt. Wie genau ist das zu verstehen? Gibt es eine Art „RankBrain Score“, der die Qualität einer Seite bestimmt? Vielleicht, aber der Schwerpunkt für RankBrain wird die klarere Klassifizierung von Inhalten sein, nicht deren Bewertung. Google macht hierzu keine genaueren Angaben.
Wo kann ich mehr über RankBrain erfahren?
Wer sich tiefergehend über die „Vektoren“ zwischen Wörtern und Phrasen informieren möchte, kann in diesem Blogpost (https://google-opensource.blogspot.de/2013/08/learning-meaning-behind-words.html) nachlesen. Hier wird dargestellt, wie das System (hier nicht als RankBrain benannt) die Zusammenhänge zwischen Großstädten und Ländern identifiziert.
- Eine ausführlichere Befassung mit dem Thema finden Sie hier als PDF:
https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf. - Eigene maschinelle Lernprojekte können über das word2vec Tool umgesetzt werden.
- Research Google berichtet zu diesem Thema hier
- Hier finden sie Informationen von Microsoft
- Hier geht es zum Original-Artikel auf searchengineland.com von meinem Freund Danny Sullivan am October 27, 2015. Wir lernten uns damals im I-Search Forum virtuell vor der Jahrtausendwende kennen, als per Emailliste sich ausgetauscht wurde, in den Anfängen der Suchmaschinenoptimierung vor etwa 20 Jahren.