0130 – Wie Google etablierte Webtechniken weiterentwickelt

Ein geradezu prototypisches Beispiel dafür, wie sich Datenverarbeitung unter dem Einfluss von Personalisierung verändert hat, sind die CAPTCHAs. CAPTCHAs sollten ursprünglich in Webformularen nachweisen, dass tatsächlich ein Mensch und nicht etwa ein Programm gerade Daten eingibt. Sie kennen solche Sicherungen alle:

ReCaptcha - früher

Bildquelle: wikimedia.org, Public Domain

Daraus entwickelte sich mit der Firma reCAPTCHA schon früh eine Geschäftsidee: Man präsentierte dem Nutzer ein bekanntes Wort und eines, welches Texterkennungsprogramme aus Digitalisierungsprojekten (z.B. in Archiven) nicht erkennen konnten.

Es lässt sich statistisch herausfinden, ob die Eingabe eines Benutzers korrekt ist: Die Wortkombination wird innerhalb eines sehr kurzen Zeitraums mehreren Benutzern zugleich präsentiert und die häufigste Eingabe wird als richtig angenommen.

( https://de.wikipedia.org/wiki/ReCAPTCHA )

Man trainierte also unter Ausnutzung von Menschen unauffällig die eigene Texterkennungssoftware! Es wurde dabei jedoch nur die Eingabe verwertet, keine anderen Daten. Google kaufte 2009 reCAPTCHA und der Dienst machte daraufhin ein bemerkenswerte Entwicklung durch. Heute sehen CAPTCHAs ganz anders aus:

Heutiges Captcha

Ein heutiges CAPTCHA

Sie klicken einfach auf ein Feld Ich bin kein Roboter- und die Trennung zwischen Mensch und Programm funktioniert trotzdem perfekt. Was geschieht da? Ein Hacker namens neuroradiology hat sich die Mühe gemacht, den dahinterliegenden JavaScript-Code zu analysieren. Google verwendet unter anderem folgende Daten, um zu bestimmen, ob ein Mensch die Checkbox klickt:

  • Browser und genutzte Plugins,
  • Zeitzone und Ausführungszeit des Computers,
  • IP-Adresse und grober Standort,
  • Bildschirmauflösung,
  • Anzahl der Klick-, Tastatur-, beziehungsweise Touch-Aktionen,
  • Vermutlich auch serverseitige Cookies,
  • Und einiges mehr.

Man muss nicht alle diese Punkte verstehen, um zu begreifen, dass hier personalisierte Daten in großem Umfang an Google fließen – beim Klick auf eine simple Checkbox! Und das nicht nur auf dem Handy – bei jedem Endgerät, mit dem das Internet genutzt wird! Bei einigen Daten ist es sogar denkbar, dass sich Benutzer über verschiedene Geräte hinweg wiedererkennen lassen – trotz Adblocker und anderer Sicherheitsmaßnahmen – solange JavaScript aktiv ist (und ohne JavaScript ist fast kein Surfen möglich). Google arbeitet im Übrigen daran, selbst diese Checkbox verschwinden zu lassen und Menschen allein auf Basis von Daten wiederzuerkennen, die ihre Endgeräte beim Surfen liefern.

Die Entwicklung von reCAPTCHA zeigt für mich beispielhaft, wie sich das kommerzielle Netz von der Phase der Kommerzialisierung zur Phase der Überwindung des Marktes hin verändert hat.

0120 – Wie Google auf das iPhone reagiert

Das ermöglichte in der Folge vor allem Google ganz neue Geschäftsfelder: Man konnte jetzt Suchergebnisse datenbasiert an die Vorlieben des jeweiligen Nutzers anpassen und damit Werbung noch zielgerichteter ausspielen. Das Smartphone als universelles Gerät bot mit seiner eingebauten Sensorik dafür die ideale Ausgangsplattform. Ziel musste sein, möglichst viele Informationen zu erhalten, um die Trefferquote der Werbeanzeigen zu steigern. Daher erstaunt es nicht, dass sehr bald mit Androidhandys ein zum iPhone mehr als konkurrenzfähiges Produkt von Google geradezu in den Markt gedrückt wurde. Niedrige Lizenzkosten und ein quelloffenes Betriebsystem waren der Grundstein für die Produktion von Geräten unterschiedlicher Preisklassen. Die offensichtlichen Nachteile – etwa eine im Vergleich zu Applegeräten weitaus unzuverlässigere Updatefähigkeit – gingen in der Euphorie des Marktes zunächst einfach unter.

Die Datensammlung ließ sich im Kontext neuer Dienste hervorragend verschleiern. Als Beispiel kann der Routenplaner (Maps) von Google dienen: Haben Sie sich schon einmal gefragt, wie Google so zuverlässig und nahezu in Echtzeit Verkehrsdaten generieren kann? Jedes Handy enthält eine umfangreiche Sensorik, die sich mit bestimmten Apps sichtbar machen lässt.

In fast jedem Auto fährt ein modernes Handy mit, das u.a. über Sensoren zur Erfassung des Standorts verfügt, etwa GPS-Sensoren. Kombiniert mit einer Zeiterfassung lässt sich so die Geschwindigkeit jedes Autos erfassen. Fährt eine bestimmte Anzahl von Autos sehr langsam (= es ändern sich die GPS-Daten der Handys langsam), ist das ein Hinweis auf dichten Verkehr. Im Vergleich zu den Bewegungsdaten der Handys auf Alternativrouten lässt sich nun die optimale Wegstrecke berechnen – ein toller Dienst, oft besser und aktueller als jeder Verkehrsfunk.

 

Zur reinen Stauvorhersage wäre es aber ausreichend, diese Daten rohzu verarbeiten, d.h. ohne sie mit einer bestimmten Person zu verknüpfen. Das geschieht aber nicht, sondern Google setzt noch eines drauf und kann u.a. durch personalisierte Verarbeitung dieser Daten sogar Aussagen zu z.B. unserem Arbeitsweg machen und und per Pushnachricht mahnen, an einem Tag früher aufzustehen, weil die Verkehrslage kritisch ist.

Die Datenerhebungsmöglichkeiten sind nahezu unbegrenzt. Moderne Handys haben u.a. Sensoren für Abstand, Licht- und Lautstärke, Lagebestimmung des Handys u.v.m. mit an Bord.

 

0100 – Im Fokus des Marktes – die Phase der Kommerzialisierung

Sätze wie „Sie haben Post!“ oder „Bin ich schon drin, oder was?“ und Filme wie E-Mail für dich! mit Meg Ryan und Tom Hanks sind Ausdruck dessen, was Anfang der 1990er-Jahre mit dem Internet passiert: Das Netz der Wenigen wird Stück für Stück zu einem Netz der Massen. Tausende Menschen sitzen jernseits und diesseits des Atlantiks vor quäkenden Modems und wählen sich über die Telefonleitung in Dienste wie America Online (AOL) oder Compuserve ein.

Gebräuchliches V-90-Modem in der 90er Jahren

Gebräuchliches Creatix-Modem – Bild von User Chrkl auf Wikimedia, CC-BY-SA

Es werden erste Informationsdienste angeboten, z.B. Nachrichten und Wetter aber auch elektronische Kommunikation über E-Mail, Foren oder Newsgroups. Anfangs sind die Netze noch relativ geschlossen – weit über die AOL- oder Compuserve-Startseite kommt man nicht hinaus, aber mehr und mehr erobern ganz normale Menschen das Netz, die es konsumorientiert nutzen. Sie verstehen die technische Vorgänge dahinter nicht und sind daran auch nicht interessiert. Ein immer intuitiveres Webdesign mit zunehmend auch für Laien bedienbaren Oberflächen bildet dafür die Grundlage.

Menschen, die z.B. eigene Domainnamen registrieren und Webseiten anlegen, kommen eher aus der ehemaligen Homecomputingszene. Sie bleiben die Minderheit im Netz.

Der Zugang zum Internet wird über Telefongebühren finanziert. Satte Minutenpreise garantieren den Anbietern auskömmliches Wirtschaften und Familien ständig belegte Telefonanschlüsse. Oft kann man sich die erste Seite, die man aufrufen möchte, gar nicht aussuchen, sondern wird vom Internetanbieter gleich zwangsweise auf das eigene Portal gelenkt – heute unvorstell- aber technisch immer noch leicht machbar.

Um dem dem zunehmenden Wildwuchs an Seiten im Netz Herr zu werden, sind Suchmaschinen als leicht zu bedienende Zugangsportale unverzichtbar. Neben längst vergessenen Namen wie Altavista kommt schon 1998 ein Player auf den Markt, der heute das Internet dominiert: Google. Alles begann als ein studentisches Projekt von Lawrence (Larry) Page und Sergey Brin an der Stanford University mit der Entwicklung des PageRank-Algorithmus – bis dahin beispiellos und daher ließen nur mit Mühe Investoren finden. Lawrence Page ist noch heute als CEO im Konzern.

Erster Googleserver im Netz

Erster Google-Server an der Stanford University – Bild von User Christian Heilmann auf Wikimedia, CC-Lizenz

Die Bezüge zum Logo von Google sind bis heute unverkennbar – es sind die bei den Duplosteinen anzutreffenden Grundfarben.

Suchmaske von Google im Jahr 1998

Zugehörige Suchmaske von 1998 – Screenshot von WayBackMachine.org

Auch das Webseitendesign von Google hat sich bis heute – über 20 Jahre später – kaum verändert. Google erscheint als Understatement in schlichtem Gewand, hat als Suchmaschine jedoch alle seine Konkurrenten entweder verdrängt oder weit hinter sich gelassen. Wie Google steigen um die Jahrtausendwende unzählige Startups auf. Die deutsche Börse schuf mit dem neuen Marktein eigenes Marktsegment zum Handel von Aktien der Internetunternehmen.

Dadurch dass das Internet nun Stück für Stück zum Massenmedium wurde, kamen auch die ersten Probleme – vor allem im Mailsystem. Die Tatsache, dass E-Mails in unbegrenzter Zahl kostenlos verschickt werden können und dass das E-Mailprotokoll Designelemente aufweist, die eine oberflächliche Täuschung des Empfängers ermöglicht, wird heute kritisch gesehen. Eines der immer noch weitgehend ungelösten ist die Spam-Mail. Der größte Teil der weltweit verschickten E-Mails sind Spam-Mails. Über E-Mails werden bis heute aber auch gezielte Attacken auf ahnungslose Anwender ausgeführt. Selbst wenn nur Zehntelcentbeträge für das Verschicken von E-Mails fällig würden, könnte man das Problem entscheidend eindämmen. Organisatorisch scheitert eine solche Idee schlicht an Abrechnungsfragen. Durch die Offenheitheit und Diskriminierungsfreiheit des E-Mailsystems kann jeder Privatmensch z.B. eigene Server betreiben, die einen Versand von E-Mails erlauben.

Aber auch wirtschaftlich taten sich Probleme auf: Die großen Hoffnungen, die mit dem neuen Markt verknüpft waren, erfüllten sich nicht. Kaum ein Anbieter hatte ein wirklich tragfähiges Geschäftsmodell. Eine Ausnahme war hier schon Amazon Inc., 1998 allerdings noch auf den Onlinebuchhandel beschränkt. Mit Inhalten und Angeboten im Internet war aber für die allermeisten Startups zu diesem Zeitpunkt noch kein Geld zu verdienen.

In der Folge platzte 2001 eine Finanzierungsblase und riss auch assoziierte Aktiengesellschaften wie z.B. Cisco Systems (Netzwerktechnik), Intel (Prozessortechnik) und IBM (Computer- und Rechenzentrumstechnik) mit in den Abwärtsog, die vorher sehr wohl profitabel waren. Die Wirtschaft lernte hier eine wichtige Lektion: Es brauchte im Internet tragfähige Geschäftsmodelle. Diese waren noch nicht gefunden.

Selbst für Google wurde es kritisch, jedoch ergab sich für den PageRank-Algorithmus in Kombination mit Werbung ein erster Ansatz der Refinanzierung. Schließlich war das Netz nun ein Netz der Massen und somit auch für Werbetreibende zunehmend attraktiv.

Ein anderes Ereignis überschattete die Welt im gleichen Jahr, was sich für die weitere Entwicklung des Internets als fundamental erwies.

9/11 - Terroranschlag auf die USA

9/11 – Terroranschlag auf die USA – Nachbearbeitetes Bild von User MattWade auf Wikimedia, CC-BY-SA-Lizenz

Wie sich später herausstellen sollte, wären die koordinierten Terroranschläge im Jahre 2001 ohne die Möglichkeiten, die das Internet bot, kaum zu realisieren gewesen. Nicht nur die USA, auch andere Staaten der Welt lernten aus diesem historisch beispiellosen Ereignis und nahmen das freie Internet in den Fokus.

Im Kontext dieser beiden Ereignissen formierte sich das Netz neu: Auf der einen Seite die einsetzende Kommerzialisierung, auf der andere Seite der Aufbau einer zunächst rein staatlichen Überwachungsstruktur.

2004 erblickte Facebook in mehr oder weniger seiner jetzigen Form zunächst als studentisches Netzwerk an der Havard University das Licht der Welt. Mit Apple und Microsoft wäre die Liste der heutigen, fünf größten Internetkonzerne dann schon zu diesem Zeitpunkt nahezu komplett.

Völlig parallel entwickelte sich ab 2001 die Wikipedia als gemeinnütziges Projekt, mit dem Ziel, Wissen für jedermann frei zugänglich zu machen. Zu Wikipedias größtem Trumpf wurde die vernetzte, dezentrale Struktur. Anfangs belächelt avancierte die Wikipedia bald zu einer ernsthaften Konkurrenz klassischer, redaktionell betreuter Lexika, die hinsichtlich der Aktualität und des transparenten Zustandekommens von Artikeln weit hinter die Agilität einer völlig neu strukturierten Wikipedia zurückfielen. Heute ist die Wikipedia zu einem ernsthaften Rechercheinstrument geworden. Die Qualität von Wikipediaartikeln lässt sich im Gegensatz zu gedruckten Lexika anhand einfacher Fakten wie der Diskussionseite oder der Versiongeschichte verlässlich einschätzen.

Damit wären wichtige Entwicklungen aus der Zeit der Kommerzialisierung des Internets dargestellt. Die ist bei Weitem nicht vollständig. Wichtig für den weiteren Verlauf dieses Kapitels sind folgende Aspekte:

Die Phase der Kommerzialisierung ist geprägt von folgenden Entwicklungen:

  • Das Netz der wenigen wird ein Netz der vielen, die es zum Großteil nicht mehr gestalten, sondern eher konsumorientiert nutzen. Dies wird möglich durch bessere Oberflächen, die sich intuitiver bedienen lassen.
  • Wirtschaftlich setzt sich die Erkenntnis durch, dass es tragfähige Geschäftsmodelle braucht. Diese basieren primär auf Werbung – eine aus den Printmedien bekannte Finanzierungsstrategie.
  • auf Seite des Staates wird erkannt, dass sich durch das Internet neue Angriffsszenarien ergeben, die einer stärkeren Kontrolle bedürfen und den Aufbau einer staatlichen Überwachungsstruktur legitimieren.

Das Misstrauen in staatliche Interventionen in das Internet bleibt bis heute wesentlich ausgeprägter als das MIsstrauen in das Agieren großer Digitalkonzerne.