0130 – Wie Google etablierte Webtechniken weiterentwickelt

Ein geradezu prototypisches Beispiel dafür, wie sich Datenverarbeitung unter dem Einfluss von Personalisierung verändert hat, sind die CAPTCHAs. CAPTCHAs sollten ursprünglich in Webformularen nachweisen, dass tatsächlich ein Mensch und nicht etwa ein Programm gerade Daten eingibt. Sie kennen solche Sicherungen alle:

ReCaptcha - früher

Bildquelle: wikimedia.org, Public Domain

Daraus entwickelte sich mit der Firma reCAPTCHA schon früh eine Geschäftsidee: Man präsentierte dem Nutzer ein bekanntes Wort und eines, welches Texterkennungsprogramme aus Digitalisierungsprojekten (z.B. in Archiven) nicht erkennen konnten.

Es lässt sich statistisch herausfinden, ob die Eingabe eines Benutzers korrekt ist: Die Wortkombination wird innerhalb eines sehr kurzen Zeitraums mehreren Benutzern zugleich präsentiert und die häufigste Eingabe wird als richtig angenommen.

( https://de.wikipedia.org/wiki/ReCAPTCHA )

Man trainierte also unter Ausnutzung von Menschen unauffällig die eigene Texterkennungssoftware! Es wurde dabei jedoch nur die Eingabe verwertet, keine anderen Daten. Google kaufte 2009 reCAPTCHA und der Dienst machte daraufhin ein bemerkenswerte Entwicklung durch. Heute sehen CAPTCHAs ganz anders aus:

Heutiges Captcha

Ein heutiges CAPTCHA

Sie klicken einfach auf ein Feld Ich bin kein Roboter- und die Trennung zwischen Mensch und Programm funktioniert trotzdem perfekt. Was geschieht da? Ein Hacker namens neuroradiology hat sich die Mühe gemacht, den dahinterliegenden JavaScript-Code zu analysieren. Google verwendet unter anderem folgende Daten, um zu bestimmen, ob ein Mensch die Checkbox klickt:

  • Browser und genutzte Plugins,
  • Zeitzone und Ausführungszeit des Computers,
  • IP-Adresse und grober Standort,
  • Bildschirmauflösung,
  • Anzahl der Klick-, Tastatur-, beziehungsweise Touch-Aktionen,
  • Vermutlich auch serverseitige Cookies,
  • Und einiges mehr.

Man muss nicht alle diese Punkte verstehen, um zu begreifen, dass hier personalisierte Daten in großem Umfang an Google fließen – beim Klick auf eine simple Checkbox! Und das nicht nur auf dem Handy – bei jedem Endgerät, mit dem das Internet genutzt wird! Bei einigen Daten ist es sogar denkbar, dass sich Benutzer über verschiedene Geräte hinweg wiedererkennen lassen – trotz Adblocker und anderer Sicherheitsmaßnahmen – solange JavaScript aktiv ist (und ohne JavaScript ist fast kein Surfen möglich). Google arbeitet im Übrigen daran, selbst diese Checkbox verschwinden zu lassen und Menschen allein auf Basis von Daten wiederzuerkennen, die ihre Endgeräte beim Surfen liefern.

Die Entwicklung von reCAPTCHA zeigt für mich beispielhaft, wie sich das kommerzielle Netz von der Phase der Kommerzialisierung zur Phase der Überwindung des Marktes hin verändert hat.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.