Es gibt eine vieldiskutierte Einigung von Suchmaschinen und Blog-Hostern/-Softwareherstellern zu vermelden, siehe Heise.

Was ist Kommentar-Spam?

All diejenigen die ein etwas populäreres Blog haben, werden schon über das Phänomen des “Kommentar-Spams” gestolpert sein: sinnleere Kommentare in Blogs, die auf Websites für Viagra-Pillen, Green Cards oder Planetopia-Merchandising verlinken. Viele Links auf eine Viagra-Websites steigert die vermeidliche Wichtigkeit dieser Website für den Begriff “Viagra” und damit wird die Website bei Google und Konsorten ganz oben in der Trefferliste für “Viagra” eingeordnet.

Je nach Popularität der Website können pro Tag 10, 20 oder auch eine dreistellige Zahl von solchen maschinell erzeugten Spam-Kommentaren auflaufen.

Hier ist dann die Blog-Software gefragt: schafft sie es den Kommentar-Spam als solches zu erkennen? Jeder nichterkannter Spam-Kommentar muss vom Blogger händisch gelöscht werden, falls er seine Site lesbar halten will. Bei hundert Spam-Kommentaren artet das in enervierender Arbeit aus, die kaum einer länger als drei Tage durchhält. Ultima Ratio: die Kommentare werden für jedermann gesperrt.

Hier ist Hilfe vom Blog-Hoster oder der Blog-Software gefragt. Es wird versucht Spam-Kommentare zu erkennen und auszufiltern. Entweder werden die Spam-Kommentare gleich gelöscht oder sie werden in eine “Moderationsschleife” gepackt, wo sie der Blogger entweder für die Veröffentlichung auf dem Blog freischaltet oder per Knopfdruck auf einen Schlag löscht.

Folgende Ansätze haben sich herauskristallisiert:

1/ “Technische Analyse”: Analyse bestimmter Eigenarten in den “Ãœbertragungsdaten” des Kommentars.

2/ “Inhaltliche Analyse”: Analyse des Spam-Kommentars. Tauchen bestimmte Schlüsselwörter auf? Gibt es merkwürdig viele Links?

3/ “Menschliche Interaktion”: Bevor der Kommentar abgeschickt wird, wird vom Kommentierer eine zwingend menschliche Aktion verlangt. Solche “Captchas” verlangen z.B. die Eingabe einer zufällig generierten und angezeigten Zahl, die für Maschinen nicht lesbar ist.

So narrensicher derzeit “Captchas” und Konsorten scheinen, so stellen sie meiner Meinung nach eine unzumutbare Hürde für den Kommentator, “meinen Besucher” dar, von dem ich eine eigentlich sinnlose, zusätzliche Aktion verlange. Ich verlange schließlich auch keine Registrierung von Kommentatoren um die Schwelle für Besucher zur Kommentierung niedrig zu halten.

Der erste und zweite Ansatz funktionieren zwar unter Umständen gut, ist aber letztendlich einem “Wettrüsten” zwischen Blogs und Spammern ausgesetzt: Die Analysen funktionieren nur so lange gut, wie die Faktoren der Analyse (z.B. Schlüsselwörter) aktualisiert werden. Seit einigen Wochen zu beobachten: statt “credit cards” wird ASCII-Code eingefügt: cr#101d#105t c#97rds.

Der neue Ansatz: nofollow

Ohne das ich im Vorfelde etwas von einer diesbezüglichen Diskussion mitbekommen hätte (was aber nix heißen muss), sind heute Google/Blogger.com, SixApart, WordPress und Suchmaschinenbetreiber wie Yahoo und MSN nach vorne geprescht und wollen etwas neues einführen (andere Hoster wie z.B. Blogg.de, myblog und Blogigo ziehen nach).

Sie wollen den Spammern ihre “Belohnung”, einen guten Platz in den Trefferlisten, wegnehmen.

Dazu soll der HTML-Code für Links um einen Wert namens nofollow ergänzt werden. Aus
<a href="http://planetopia.de">Penis-Enlargement</a > wird
<a href="http://planetopia.de" rel="nofollow">Penis-Enlargement</a >. Das Attribut rel gehört zu den HTML-Spezifikationen und soll die “Relation”, also das Verhältnis zwischen Webseite und verlinkter Seite kennzeichnen. Ursprünglich ist es gedacht gewesen um Links als Glossar, Inhaltsverzeichnis oder Kapitel zu kennzeichnen, aber de-facto hat es kaum jemand eingesetzt und die einzige mir bekannte sichtbare Anwendung dieses Attributes ist eine hinzuschaltbare Leiste in Mozilla (nicht Firefox).

Mit rel="nofollow" werden nun Links für Suchmaschinen gekennzeichnet, auf dass die Suchmaschinen diese Links nicht weiterverfolgen. Damit enfällt für solche Sites der Vorteil häufig verlinkt zu werden und damit wiederum der “Benefit” des Kommentar-Spams.

Nach einer spontanen Begeisterung fängt man sich nun an zu fragen, wie wirkungsvoll diese Maßnahmen Kommentar-Spam überhaupt bekämpfen. Wird nicht noch hinreichend lange Zeit vergehen, bis Blogger ihre Software aktualisieren? Wird es Spammer kratzen, zumal das Spammen auf ihrer Seite kaum Kosten verursacht? Siehe Blogosfear, inkl. Kommentare.

Zwei Seiten einer Medaille

Nun stellt sich aber die Situation etwas komplexer dar. Nico Brünjes in seinem Couchblog:

Denn noch treffender bemerkt Dirk Olbertz (via Dave-Kay), dass damit zufällig gleichzeitig endlich ein Mechanismus für Google gefunden ist, Weblogs eindeutig zu identifizieren. Schönen Dank, und runter mit dem Pagerank, oder gleich in eine eigene Suche gepackt und ein gutes Stück Weblogmacht ausgehebelt.

Das ganze gibt es dann auch in der kulturpessimistischen Variante, Stichwort: “Balkanisierung des Webs” bei Ars Technica und von Andrew Orlowski/The Register:

ArsTechnica: Many people believe that by blindly applying this tag to all links left in comments and guestbooks, online publishers are singlehandedly destroying a community that was built upon linking to one another.
[…]
Publishers online now have the ability to point to websites and companies they don’t particularly like without artificially inflating their Page Rank, simply by inserting this special attribute into the link.

Das Argument von der selektiven Verlinkung als Belohung ist, mit Verlaub, hohl. Der “nofollow”-Wert macht nur als Default-Einstellung Sinn und wieviele Blogger werden die Kommentare nachbearbeiten um bei “guten” Links den “nofollow”-Wert zu entfernen? Und wenn Googles Hintergedanke die Aussortierung von Blogs aus dem Suchmaschinen-Index ist (man frage mal bei Jamba nach, inwieweit sowas erstrebenswert sein kann), darf davon ausgegangen werden, dass die Klassifizierung als “Blogs” nicht nur einen Kommentar, sondern ganze Sitebereiche betreffen wird. Wie relevant würde dann ein “guter” Link noch sein?

Der als Google- und Blog-Kritiker bekannte Orlowski:

[The new attribute will] effectively declaring PageRank? dead for weblogs, in an attempt to stem the problem […] It’s also a major blow to the ‘Religion of the Hyperlink’, faith in which you can see expressed in phrases like “the uniquely democratic nature of the web”, coined by Google.
[…]
“Am I the only one to think that a search engine actively trying to encourage people to hide their content from it, isn’t going to flaw their main aims?” observes one member of the Search Engine Watch Forum.

Orlowski leitet seinen Kommentar mit Ausführungen zur “Balkanisierung” des Webs ein:

Karl Auerbach’s prediction that the internet is balkanizing into groups of people who only accept traffic from each other took another step closer to reality today. The veteran TCP/IP engineer and ICANN board member has warned of the effect for years.

“The ‘Net is balkanizing. There are communities of trust forming in which traffic is accepted only from known friends,” Auerbach told Wired last year.

The trend can be seen at various levels. At the user level, where we see bloggers repeating each other in an echo chamber and reinforcing their views; in the middle of the network, where Verizon recently blocking off inbound email from Europe, and it’s happening deep down at the packet level too, as a result of the net’s background radiation.

Die “Balkanisierung” wird dabei nicht nur von Providern und Dienstleistern vorangetrieben, sondern, wie die IzyNews-Geschichte zeigt, auch von Bloggern selber. Bei allem Verständnis z.B. für die Praschl-Position, ich neige immer mehr zu der Position von Sencer in einem Law Blog-Kommentar und das darf angesichts der nofollow-Geschichte wieder vorgelegt werden:

Letztlich läuft es für mich aus ?ethischer? Sicht, darauf hinaus welchen Einfluß der Contentanbieter darauf haben können soll wie der User den Content konsumiert, und sich da kompromißlos und bedingslos auf die Seite der Contentanbieter zu stellen, halte ich für nachhaltig schädlich für unsere Gesellschaft.