Vom Suchen und Gefunden-Werden

Computergrafik - Ein Stapel von Plättchen mit Google-Logo

In Suchergebnissen erscheinenAutomatisierte Anmeldung bei Google

Webseiten werden an der Uni üblicherweise mit der Absicht erstellt, dass sie möglichst viele Personen erreichen. Ein wichtiger Baustein dazu ist das Erscheinen in Suchmaschinen-Ergebnissen.

Um dies zu unterstützen, liefern wir eine automatisch generierte Liste an Google, die immer die zuletzt freigeschalteten Webseiten enthält.

Wann Google die neu enthaltenen Webseiten besucht und auswertet und Ihre Seite dann in Suchergebnissen erscheint, darauf hat das ZIM leider keinen Einfluss.

Fotomontage aus einem Suchfeld und einer Hand, die darauftippt

Weiter nach oben in den SuchergebnissenSEO (Suchmaschinen-Optimierung)

Grundvoraussetzung für das Erscheinen in Suchmaschinen ist, dass die Einstellung "Suchmaschinen" im Meta-Bereich der Webseite auf "Indizieren ... erlauben" steht und die Seite keinem Passwortschutz unterliegt.

Um die Positionierung Ihrer Webseite in den Suchergebnissen zu verbessern (Ihre Seite erscheint für gewählte Suchanfragen weiter oben), gibt es folgende Methoden:

  • Setzen Sie mehrere Links auf Ihre Webseite, idealerweise auch von Webseiten, die nicht unter www.uni-due.de liegen. Je mehr Links auf eine Seite zeigen, desto relevanter erscheint Ihre Webseite für Suchmaschinen.
  • Suchen Sie gelegentlich, idealerweise aus verschiedenen Netzwerken und mit verschiedenen Geräten, Ihre eigene Seite mit wechselnden Suchworten und klicken Sie den Link an. Bitten Sie auch Kolleg*innen oder Freund*innen, das zu tun. Je mehr Klicks auf Ihren Suchergebnis-Eintrag registriert werden, desto relevanter erscheint Ihre Webseite für Suchmaschinen. 
  • Formulieren Sie Ihre Inhalte kurz und prägnant. Achten Sie auf die Alternativtexte bei Bildern und eine korrekte Überschriftenhierarche. Suchmaschinen bevorzugen barrierefreie Webseiten.
  • Vermeiden Sie Änderungen an Pfad- und Dateinamen ohne triftigen Grund. In diesem Moment geht bei Suchmaschinen die angesammelte Relevanz der alten Webseiten-Adresse verloren. Hilfsweise können wir bei Umzügen aus triftigem Grund Weiterleitungen setzen, bei denen die Relevanz der alten Adresse - zumindest teilweise - erhalten bleibt.
  • Füllen Sie die Kurzinformation im Meta-Bereich mit einer kurzen und interessanten Beschreibung des Inhalts aus. Diese Beschreibung wird in Suchergebnissen häufig unterhalb der Überschriften der Suchtreffer angezeigt.
Weitere Informationen durch Aufklappen der Texte

Wie Suchmaschinen funktionierenTechnische Details

Google und  andere sog. Suchmaschinen wie Bing, Yahoo!, DuckDuckGo, Ask.com oder Ecosia bewerten Webseiten bzgl. ihrer inhaltlichen und ihrer Link-Relevanz. Um zu verstehen, wie eine Webseite in den Datenbestand einer Suchmaschinen gelangt, soll zunächst zwischen den beiden wesentlichen Komponenten Crawler und und Indexer unterschieden werden, derer sich Suchmaschinen üblicherweise bedienen. Dies ist eine stark vereinfachte Betrachtung, da in der Realität noch weitere Komponenten im Suchmaschinenbetrieb hinzukommen, wie ein Parser und notwendigerweise ein Speichermanagement.

Der Crawler

Ein Crawler ist ein Programm welches in Webseiten nach Verweisen (Links) sucht und diese einer Liste von zu durchsuchenden Webseiten hinzufügt. Diese Verweise können aus Adressen zu anderen Webseiten bestehen, zu Bildern oder anderen Dateiformaten. Die Liste der Verweise wird solange abgearbeitet, bis alle Verweise verfolgt wurden. Schleifen in Verweisen werden dabei erkannt und verhindert.

Und genau an dieser Stelle, also beim Crawling der Suchmaschinen sollten Maßnahmen ansetzen, um gefunden zu werden.

Wie schaffe ich Relevanz für eine Webseite?

Um gefunden zu werden, müssen daher die Crawler über Webseiten mit Verweisen zu Ihrer eigenen Webseite finden können. D.h. nur wenn auf anderen Webseiten Ihre Seite verlinkt ist, finden Google & Co. den Weg dorthin und nehmen Ihre Seite in den Suchindex auf. Je zahlreicher die Verweise auf Ihre Webseite sind, je größer deren Relevanz. Externe Verweise, also solche aus Webseiten anderer Webdomains, erhöhen Ihre Seitenrelevanz zusätzlich.

Wird eine Seite noch nicht in einer Suchmaschinen gefunden, was ohnehin nicht unmittelbar nach der Veröffentlichung der Fall sein wird, sollte zunächst versucht werden, Kooperationspartner oder die eigene Fakultät um entsprechende Verweise zu Ihrer Webseite zu bitten. Einzelne, losgelöste Webseiten, die nicht verlinkt sind, werden von Suchmaschinen nicht wahrgenommen. Andere Suchmaschinen, die nichts index-basiert arbeiten, sondern evtl. lokal im Dateisystem suchen, arbeiten ggf. ein wenig anders.

Hat man für Verweise auf die eigenen Seiten gesorgt, kann es noch einige Tage dauern, bis diese im Suchindex auftauchen. Dabei kann es passieren, dass alte eigene Seiten, oder konkurrierende interne und externe Seiten, noch immer eine höhere Relevanz besitzen, da sie von zahlreicheren Webseiten verlinkt sind oder noch immer eine höhere inhaltliche Relevanz besitzen.

Welche Maßnahme / Aktionen erhöhen zusätzlich die Relevanz einer Webseite?

Mit der erstmaligen Erfassung einer Webseite (über Verweise anderer Seiten) endet der Einfluss auf die Wahrscheinlichkeit, dass eine Seite gefunden wird, noch nicht. Suchmaschinen sind lernfähig und registrieren z.B. dass ein Treffer in der Suchausgabe angeklickt wird. Je häufiger und von je mehr verschiedenen Adressen aus Klicks auf Fundstellen erfolgen, je mehr wird die Relevanz steigen. Voraussetzung dafür ist natürlich, dass eine Seite überhaupt im Suchindex erscheint.

Die inhaltliche Relevanz kann man dadurch erhöhen, dass im Textbereich, also dem eigentlich Content, relevante Schlüsselbegriffe verwendet werden, nach denen Suchende üblicherweise suchen würden, quasi Begriffe mit dem Charakter eines Alleinstellungsmerkmals platziert werden. Dabei sollten diese Suchbegriffe kein Selbstzweck sein, sondern sich aus dem Inhalt ergebende Begriffe, meist fachlicher Art.
Auch die Wahl des Dateinamens einer Webseiten dient als Relevanzmerkmal.

Schaut man sich Seiten an, die nicht gefunden oder erst auf den unteren Plätzen der Suchergebnisse genannt werden, stellt man fest, dass dieser nicht verlinkt wurden oder deren Textanteil oft noch relativ gering ausfällt, oder beliebig austauschbar erscheint, unter Umständen auch noch Text als Grafik geradezu versteckt wurde, was weder barrierefrei noch sinnvoll ist.

Vereinfacht gesagt, sind Webseiten, die barrierefrei sind, auch suchmaschinen-freundlich.

Und was ist mit Meta-Angaben?

Im Kopfbereich einer Webseite, dem sog. HEAD-Abschnitt, lassen sich Meta-Anweisungen zum Inhalt einer Webseite angeben. So ist z.B. die Angabe von Schlüsselbegriffe (keywords) oder einer Kurzbeschreibung (description) ebenso vorgesehen, wie ein optionales Verbot für Suchmaschinen, eine Seite zu crawlen und zu indizieren, den sog. Robots-Optionen.

Während die Robots-Option von bekannteren Suchmaschinen beachtet wird, ein (Durch-)Suchverbot also beachtet wird, werden Schlüsselbegriffe und Beschreibungen von klassischen Suchmaschinen i.d.R. ignoriert, da diese zu oft mit irreführenden Begriffen gefüllt waren, oft ohne Bezug zum Inhalt der Seite.
Dieses Vorgehen kann sich aber durchaus auch wieder ändern und in die Relevanzermittlung einfließen, weshalb man gut beraten ist, die Eingabefelder für Meta-Anweisungen sinnvoll zu füllen.
Innerhalb des Imperia-Workflows können Sie die Robots-Anweisung aus einer Kombination der Optionen "noindex" und "nofollow" im Meta-Edit-Schritt wählen.

Sog. Meta-Crawler werten die zuvor genannten Meta-Felder aus und gehen oft auch noch darüber hinaus, in dem Sie z.B. das Metadatenschema der Dublin Core Metadaten Initiative (DCMI) berücksichtigen. Wegen der leider geringen Bedeutung für die bekannteren Suchmaschinen, allen voran Google, bietet das ZIM die Eingabe von Metadaten im Dublin-Core-Format aktuell nicht an.

Womit wir wieder bei der Ausgangsfrage wären, wie Suchmaschinen funktionieren?
Damit aus den gecrawlten Inhalten der täglich durchsuchten Webseiten ein durchsuchbarer Datenbestand wird, kommt bei Suchmaschinenbetreibern der Indexer ins Spiel.

Der Indexer

Der Index nimmt die Adressen der Verweise in seinen Datenbestand auf und ordnet diese ermittelten Begriffen zu, meist in Kategorien, durch definierte Algorithmen, deren sich der Parser bedient.
Bei der Suche wird der/die Suchbegriff/e im indizierten (oder indexierten) Datenbestand gesucht und die dazu gefundenen Seitenadressen und Textausschnitte (Snipplets) ausgegeben.