ABC-Seminare - rund um PC und WWW

Suchmaschine unerwünscht(?)

Suchmaschinenoptimierung (SEO) gehört zweifellos zu den wichtigsten Aufgaben bei einer guten (Firmen-)Website. Die sogenannten Webcrawler der Suchmaschinen sind ständig im Internet unterwegs und sammeln Informationen für die eigenen Suchdienstleistungen. Jeder Webdesigner und –programmierer sollte deshalb bestrebt sein, seine Seite so aufzubereiten, dass die Crawler fündig werden und die eigene Website möglichst weit vorn präsentieren, wenn der Nutzer eine Suchanfrage formuliert.

Nur manchmal möchte man gerade nicht, dass Teile der eigenen Seite ständig durchstöbert werden und der Suchende hierher gelenkt wird. Ich betreibe als Webmaster seit geraumer Zeit die Website einer Community mit eigenem Forum und Chatroom. Ein Teil des Forums und der Chat sind den Mitgliedern vorbehalten, ein anderer Teil nur angemeldeten Nutzern. Da es sich um ein rein deutschsprachiges Forum handelt, störte es mich, dass fast ständig der Crawler der chinesischen Suchmaschine Baidu auf den Forumsseiten unterwegs war. Das Mitgliederforum ist zwar durch einen bestimmten Mechanismus geschützt, trotzdem versuchte der Crawler immer wieder die Seiten aufzurufen. Die Spammer ließen nicht lange auf sich warten. Deshalb musste ich eine relativ aufwendige Anmeldeprozedur installieren, um das Eindringen ungeliebter Gäste möglichst zu verhindern.

undefinedFoto: der Suchmaschinenanbieter Baidu aus China auf der Tourismusmesse ITB 2015 in Berlin (Copyright Blogautor)

Unterstützung bei einer solchen Aufgabe kann eine kleine Datei mit dem Namen ‚robots.txt‘ bieten, die direkt in das Stammverzeichnis der eigenen Website kopiert wird. Welche Aufgabe die Datei erfüllt, beschreibt unter anderem Wikipedia.

Zitat: „Nach der Übereinkunft des Robots-Exclusion-Standard-Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis („root“) einer Domain. In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. … Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen. … Ein Ausgrenzen bestimmter Teile einer Website durch das Protokoll garantiert keine Geheimhaltung, dazu sind Seiten oder Unterverzeichnisse eines Servers durch HTTP-Authentifizierung, eine Access Control List (ACL) oder einen ähnlichen Mechanismus zu schützen.“ (Zitatende)

Eine Datei robots.txt ist sehr leicht auch vom „Laien“ zu erstellen, da man eigentlich nur die Syntax zweier Befehle kennen muss.

Mit dem Befehl - User-agent: - werden die Suchmaschinencrawler benannt, für die der folgende Befehl gelten soll. Entweder benennt man diese mit Namen oder verwendet einen - * -, wenn man alle Crawler meint.

Der zweite Befehl - Disallow: - nennt den Ordner, den der Crawler nicht durchsuchen soll. Dabei beginnt die Ordnerangabe immer mit einem - / - und danach der Pfadangebe aus der Wurzel der Domain heraus.

Hier zwei Beispiele für die robots.txt:

Zwei Webcrawler (Baidu und Microsoft.URL.Control) sollen die gesamte Domain 'meine-firmenwebsite.de' nicht durchsuchen

User-agent: Baidu
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /

Die Ordner Temp und Forum auf der Domain 'meine-firmenwebsite.de' sollen von allen (*) Webcrawlern nicht durchsucht werden

User-agent: *
Disallow: /Temp/
Disallow: /Forum/

Anmerkung: Es gibt auch noch den Befehl Allow im Gegensatz zu Disallow, der aber nicht von allen Suchmaschinen akzeptiert wird. Bitte auf die Schreibweise (Groß-/Kleinschreibung, Leerzeichen) in den Befehlen der robots.txt (kleingeschrieben) achten.

Es gibt viele Tipps und Tricks auf diversen Websites, wie man mit der robots.txt ungeliebte Crawler aussperren kann. Crawler, die einen nerven, die die Performance der Seite fressen oder Inhalte klauen. Für Ruhe auf dem Server wird dies nicht sorgen. Wer Inhalte „klauen“ will, wird sich kaum an eine 'Disallow'-Anweisung halten. Dafür sorgt nur eine gut erstellte Datei .htaccess mit eventuell wirklich für den unbefugten Zugriff gesperrten Seiten.

Ein Blog? Wozu?

office-photorack-netEin Weblog ist eine Website, die regelmäßig mit Informationen in Form von Textbeiträgen und Bildern oder kleinen Videoclips aktualisiert wird.

Die Bezeichnung Weblog setzt sich zusammen aus «Web» (umgangs-sprachliche Bezeichnung für den HTTP-Dienst des Internets) und «Log». Log kommt von Logbuch und wird hier für eine chronologisch geführte Aufzeichnung benutzt. Blog ist die Kurzform von Weblog.

Ein Blog auf einer gewerblichen Website bietet viele Vorteile. Er sollte als Ergänzung der Firmenpräsentation gesehen werden. Hier können Sie aktuelle Informationen zu neuen Produkten oder Angeboten veröffentlichen oder auf Ihre Teilnahme an Workshops oder Messen hinweisen und Partner einladen. Viele Internetseiten sind statisch und werden nicht permanent gepflegt. In kleineren Firmen ist oft kein Potential zur Betreuung vorhanden oder das notwendige Wissen zur Bearbeitung der Firmenseite fehlt. Will man aber in den großen Suchmaschinen gefunden werden, ist der aktuelle Inhalt einer Website von entscheidender Bedeutung.

Genau hier setzt der Firmenblog an. Er kann unter anderem diese Funktionen erfüllen: 

  • Neuigkeiten in regelmäßiger Folge bekanntgeben,
  • durch die Kommentarfunktion zur Diskussion anregen,
  • der Präsentation von eigenen Angeboten dienen,
  • den Wissensaustausch fördern,
  • dem Aufbau und der Pflege von persönlichen Kontakten dienen.(c)-rainer_sturm_pixelio.de

Wichtig zu wissen: Ein Blog ist keine Werbeseite. Es soll suchmaschinen- und lesergerechte Inhalte vermitteln. Große Suchmaschinen lieben Blogs. Mit einem gepflegten und inhaltlich interessanten Blog betreiben Sie bestes Suchmaschinenmarketing.

Stellt sich nun die Frage: Ist es schwierig einen Blog auf meiner Firmenwebsite zu betreiben und kostenintensiv? Beide Fragen lassen sich kurz und knapp mit einem „Nein“ beantworten.

Es gibt eine ganze Anzahl sogenannter Open Source Produkte (kostenlos), die sich mehr oder weniger schnell installieren lassen und auch leicht zu bedienen sind. Dabei gibt es drei grundsätzliche Möglichkeiten, einen Firmenblog zu betreiben:

  1. Der Blog ist losgelöst von der Firmen-Website
  2. Der Blog ist Teil der Website
  3. Der Blog ist optisch vollständig in die Website integriert

Ich habe Variante 2. Für meine Website gewählt. Weshalb und wie ich zur Auswahl meiner Blogsoftware gekommen bin, werde ich im nächsten Artikel beschreiben…

Home