Data Science Archive | Data Driven Decisions

Der SAP-Firmenchef Bill McDermott hat kürzlich in einem Interview des Handelsblatt erklärt „Computer haben keine Vorurteile“. Aber stimmt das wirklich?

Zum Hintergrund: SAP möchte der führende Anbieter bei intelligenten Anwendungen für geschäftliche Software werden. Ein Beispiel wäre die Automatisierung des Personalwesens, wo Computer über geeignete Kandidaten befinden. So weit, so gut.

SAP ist nicht die erste Firma die künstliche Intelligenz und Maschine Learning für das Personalwesen anbieten möchte. Gerade amerikanische Firmen sind bereits kräftig im Geschäft. So möchte Google beispielhaft entsprechende Cloud-Dienst anbieten.

Die Idee klingt ja durchaus verlockend. Der menschliche Faktor wird zumindest reduziert und so ein Algorithmus sollte ja auch schön neutral eine Auswahl treffen können, unabhängig ob jemand alt oder jung, oder ob jemand ‚gut‘ oder ‚nicht so gut‘ aussieht. Könnte man damit nicht wunderbar völlig objektiv Bewerber ‚screenen‘ um die vielversprechendsten Potenziale zu identifizieren?

Der Algorithmus ist Rassist

Vor gut zwei Monaten hat der Spiegel einen Artikel mit dem Titel „Der Algorithmus ist Rassist“ veröffentlicht. Was war passiert?
Bei dem Schönheitswettbewerb ‚Beauty.AI‘ sollte eine künstliche Intelligenz die Sieger aussuchen und so ganz objektiv beurteilen. Es haben mehr als 6.000 Menschen aus über 100 Ländern teilgenommen und unter den 44 Gewinnern gab es keine einzige Person mit dunkler Hautfarbe.

Gab es unter all den 6.000 Menschen keine hübsche Person mit dunkler Hautfarbe? Bestimmt. Aber der Algorithmus hatte sie nicht ‚erkannt‘. Das Problem ist dabei nicht der Algorithmus an sich, dieser hat entsprechend seiner Parameter funktioniert. Das Problem war die Datengrundlage die zum Trainieren des Algorithmus verwendet wurde. Dies ist sicherlich nicht bösartig geschehen, aber die Auswirkung war – man könnte sagen – unerwartet.

‚Was der Bauer nicht kennt, ißt er nicht‘ sagt eine alte Weisheit und auch ein Algorithmus kann Schwierigkeiten haben, mit Daten zurechtzukommen für die er nicht vorbereitet ist. Nur ist Diversität nicht genau das was wir uns in diesem Fall wünschen?

Der Algorithmus bekommt Schnupfen

Im Jahr 2008 hat Google die Fachwelt mit einem ‚Google Flu Trends (GFT)‘ überrascht. Auf Basis von Google-Suchanfragen konnte Google teilweise 10 Tage vor dem CDC (Centers for Disease Control and Prevention) auf lokale Ausbrüche aufmerksam machen. Ärzte könnten sich dadruch schneller und besser vorbereiten. In einem von Google veröffentlichten Dokument wurde die Genauigkeit gegenüber der CDC-Daten mit 97% angegeben.

Doch nach nur zwei bis drei Jahren war es mit der Genauigkeit dahin und der Algorithmus musste angepasst werden. Hat das zuerst noch geholfen, nahm die Genauigkeit bald schon wieder ab. Doch warum?

In dem Wired-Artikel „What We Can Learn From the Epic Failure of Google Flu Trends“ kann nachgelesen werden, dass fehlerhafte Korrelationen ein Teil der Ursache war. Also das der Algorithmus dachte das bestimmte Suchbegriffe eine Rolle spielen, diese jedoch nur rein zufällig korrelierten. Auch war der Algorithmus anfällig auf Änderungen im Suchverhalten und in gewisser Weise war der Algorithmus ein Opfer seines eigenen Erfolges. Umso bekannter GFT wurde, desto mehr Leute haben sich für dieses Tool interessiert, und umso häufiger wurde danach gesucht, was der Algorithmus jedoch ‚falsch‘ interpretiert hatte.

Es ist ähnlich wie bei einem Echo und wie sehr uns dies selbst irritieren kann, so kann auch ein Algorithmus mit der Resonanz seines eigenen tuns nicht immer zurechtkommen.

Der Algorithmus wählt falsch

Keine Wahl in der Geschichte wurde so detailliert vermessen wie die letzte Presidentschaftswahl zwischen Hillary Clinton und Donald Trump. Bei keiner Wahl bisher wurden so viele Algorithmen eingesetzt um den Wahlausgang vorherzusagen. Mir ist keine Vorhersage bekannt die den Wahlausgang wirklich vorhergesagt hätte.

Warum die Vorhersagen so kollosal daneben gelegen haben wird sich noch zeigen müssen, jedoch ist auch davon auszugehen dass die Menschen damit begonnen haben ihre Absichten bewusst zu verschleiern und sich nicht in die Karten schauen lassen wollen. Es ist ein inzwischen bekanntes Phänomen in der Meinungsvorschung, dass besonders bei polarisierenden Themen einem Interviewer nicht immer die tatsächliche Meinung oder Absicht gesagt wird. Auch könnten bestimmte Bevölkerungsschichten schlechteren Zugang zu sozialen Mendien haben oder dann weniger (oder häufiger) ihre Meinung kund tun.

Es gibt viele Gründe warum ein Algorithmus eine falsche Vorhersage macht, eine bewusste Verschleierung kann jedoch durchaus auch eine Ursache sein.

Dem Algorithmus wird entgegen-optimieren

Ähnlich dem SEO (Search Engine Optimization), bei dem findige Leute versuchen herauszufinden wie man im Google-Ranking auf die vorderen Plätze kommt, wird es beim vermehrten Einsatz von Algorithmen in unserem Leben Menschen geben, die versuchen werden den Algorithmus zu besiegen. Denkbar wäre, dass die Menschen ihre Lebensläufe algorithmus-optimiert gestallten, um bessere Chancen zu erhalten ausgewählt zu werden.

Jede Bewegung verursacht ihre eigene Gegenbewegung. Werden Algorithmen für diese und ähnliche Situationen häufig genug eingesetzt, steigt zugleich auch der Druck sich zu optimieren, wodurch der eigentlichen Intention dieser Algorithmen eigentlich entgegengewirkt wird.

Der Algorithmus benötigt menschliche Moral

Ist der Einsatz von solchen Algorithmen nun schlecht und sollten wir darauf verzichten?
Nein. Künstliche Intelligenz ist in unserem Alltag angekommen und wir werden sie immer häufiger verwenden, um auch subjektive Entscheidungen zu treffen. Aber die immer komplexere Art und Weise wie künstliche Intelligenz genutzt wird, macht es immer schwerer sie zu verstehen und noch schwerer sie zu kontrollieren.

In einem viel beachteten TED-Talk über intelligente Maschinen und Algorithmen und auf welch überraschende Art und Weise sie versagen können, erläutert die Techno-Soziologin Zeynep Tufekci, „Wir können unsere Verantwortung nicht auf Maschinen auslagern. Wir müssen immer eng an menschlichen Werte und menschlicher Ethik festhalten.“

Es liegt an uns wie wir mit intelligenten Algorithmen umgehen wollen. In vielen Fällen werden sie uns auch helfen unser Leben besser zu gestalten. Aber wir müssen wachsam sein. Selbst wenn Algorithmen keine Vorurteile haben, der Einsatz dieser kann durchaus vorurteilsbasierend sein.

Unternehmerisches Handeln bedeutet Entscheidungen zu treffen. Mit einer Entscheidung werden in aller Regel Ziele verfolgt. Um zielführende Entscheidungen treffen zu können benötigt es die richtigen Informationen. Die zum Entscheidungszeitpunkt vorliegenden Informationen können dabei unvollständig oder fehlerhaft sein. Durch unvollständige oder fehlerhafte Informationen ergeben sich Risiken.

Rosenkranz/Missler-Behr schreiben dazu in ihrem Buch „Unternehmensrisiken erkennen und managen: Einführung in die quantitative Planung„: „Unternehmerisches Handeln führt zu unternehmerischem Risiko oder erfolgt unter Risiko. Nach allgemeinem Verständnis hat dies etwas mit den unsicheren oder nicht genau prognostizierbaren Auswirkungen von Management-Entscheidungen oder den mit unternehmerischen Entscheidungen verbundenen Risiken zu tun.“ Helten beschreibt dabei Risiko als: „Informationsdefizit über das Erreichen von Zielen.“ (Helten E: Die Erfassung und Messung des Risikos. Reihe Versicherungsbetriebslehre Bd11, Gabler, Wiesbaden, 1994).

Wir haben es also in aller Regel mit unklaren Situationen zu tun und in der Entscheidungstheorie wird darunter auch die „Entscheidung unter Unsicherheit“ verstanden. In einem Artikel (Sicher, unsicher, ungewiss – eine kurze Klassifikation von Entscheidungssituationen) beschreibt Dr. Monika Setzwein typische Merkmale wodurch sich Unsicherheit bei Entscheidungen ergeben können:

Komplexität: Viele vernetzte Elemente stehen mit einander in Wechselbeziehungen.
Intransparenz: Man weiß nicht einmal, was man nicht weiß.
Dynamik: Dinge/Situationen ändern sich ständig.
Zeitdruck: Objektiv oder subjektiv besteht die Notwendigkeit zu entscheiden.

Entscheidung unter Unsicherheiten

Unter Entscheidungen unter Unsicherheit versteht man in der Entscheidungstheorie Situationen, in denen der Eintritt bzw. die Auswirkung von zukünftigen Umweltzuständen nicht mit Sicherheit vorausgesagt werden kann (im Gegensatz dazu stehen die Entscheidungen unter Sicherheit).

Dabei wird wiederum unterschieden ob die Eintrittswahrscheinlichkeit(en) eines Ereignisses oder mehrerer Ereignisse oder ob gar die Auswirkung(en) einer Entscheidung bekannt ist (bekannt sind).

	Eintrittswahrscheinlichkeit	Auswirkung
Entscheidung unter Risiko	Bekannt	Bekannt
Entscheidung unter Ungewissheit	Unbekannt	Bekannt
Entscheidung unter vollkommener Unsicherheit (Knightsche Unsicherheit):	Unbekannt	Unbekannt

Unternehmerisches Handeln bedeutet somit nicht nur das Treffen von Entscheidungen, sondern auch das managen von Unsicherheiten und Risiken und letztendlich das minimieren von Unsicherheiten und Risiken durch eine gesteuerte Reduzierung des Informationsdefizits (von der Übernahme der Verantwortung für die getroffenen Entscheidungen gar nicht zu reden).

Im Unterschied zur klassischen Entscheidungstheorie bei der die Auswirkung der Entscheidung nur vom eigenen Handeln abhängt, werden in der Spieltheorie Entscheidungssituationen modelliert, in denen sich mehrere Beteiligte gegenseitig beeinflussen. Sie versucht dabei unter anderem, das rationale Entscheidungsverhalten in sozialen Konfliktsituationen davon abzuleiten. Der Erfolg des Einzelnen hängt dabei nicht mehr nur vom eigenen Handeln, sondern auch von den Aktionen anderer ab.

Warum also der Blog „Data Driven Decisions„?

Meine persönliche Erfahrung ist, dass in der Unternehmenspraxis häufig Entscheidungen getroffen werden die nicht auf Basis von Fakten oder Daten beruhen. Sehr häufig ist noch nicht einmal bekannt welche Daten oder Fakten dazu im Unternehmen vorhanden sind oder ob die Daten, die als Grundlage für Entscheidungen genutzt werden, valide, vollständig oder überhaupt relevant sind.

Mit diesem Blog möchte ich dieses Thema adressieren und über Möglichkeiten, Methoden und deren Anwendung zu diskutieren.

In einem 2013 veröffentlichten Artikel „Data Science and its Relationship to Big Data and Data-Driven Decision Making,” von Foster Provost und Tom Fawcett wird ‚data-driven decision making‘ als Praxis bezeichnet, bei der Entscheidungen eher auf der Analyse von Daten als rein auf Intuition beruhen. Dabei wird Data Science als das Bindeglied zwischen Datenverarbeitenden Technologien (einschließlich Big Data) und ‚data-driven decision making‘ gesehen.

War es früher teuer und aufwändig Informationen und Daten zu erhalten oder zu speichern, sind uns nun Informationen überall zugänglich. Wir leben regelrecht in einem Informationsüberfluss. Eric Schmidt hat dazu 2010 (zu dem Zeitpunkt CEO von Google) auf einer Techonomy-Konferenz angemerkt, dass wir heutzutage in zwei Tagen so viele Daten erzeugen, wie seit Anbeginn der Menschheit bis 2003 zusammen. Es geht hier um die schier unglaubliche Menge von 5 Exabyte Daten (entspricht einer Million Terabyte) die jeden Tag generiert werden. Und inzwischen dürfte dies sicherlich übertroffen werden. Law/Greenbacker/Eberhardt haben in ihrer Infographik „Do You Know Big Data?“ von 2014 festgehalten, dass jedes Jahr 5 Zettabyte an Internet-Traffic erzeugt wird. Die Herausforderung liegt also nicht mehr darin an Informationen heranzukommen, sondern den Daten Sinn und Struktur zu geben um sie verwertbar zu machen. Firmen wie Google und Facebook bauen darauf ihre Geschäftsgrundlage.

Themen wie Big Data, Data Science (die Extraktion von Wissen aus Daten), Machine Learning (Verfahren zum ‚erkennen‘ von Mustern und Gesetzmäßigkeiten), künstliche Neuronale Netze bzw. Deep Learning (als Abstraktion der Informationsverarbeitung bei denen die Nervenzellenvernetzung im Gehirn als Vorbild dient) sind erfolgreich praktizierte Mittel um der vom Mensch verursachten Datenflut Herr zu werden. Und diese Datenflut wird durch Themen wie Internet of Things (ioT) und durch Industrie 4.0 noch zusätzlich vergrößert. Laut Virgin Atlantic erzeugt dabei allein eine Boeing 787 ein halbes Terabyte Daten pro Flug. Diese ganzen Daten wären wertlos ohne geeignete Methoden diese auszuwerten und auf Unregelmäßigkeiten aufmerksam zu machen.

Neben der schieren Menge an Daten sind die Real-Daten mehrheitlich unstrukturiert und unsortiert (und damit mit bisherigen Methoden oft nicht verwendbar) oder die Daten liegen auf unterschiedlichen Informationsinseln und man hat Schwierigkeiten die Daten zusammenzubringen um sie gegeneinander und miteinander auswerten zu können.

Ist ‚Data Driven Decisions‘ das Allheilmittel?

Des Traynor spricht in seinem Artikel „The Problem with Data Driven Decisions“ diese Thematik an und kommt zu dem Schluss, dass es noch andere Perspektiven gibt die berücksichtigt werden müssen und das Daten alleine nie das einzige Mittel sein sollten.

Entscheidungstreiber

Oder besser gesagt – eine Perspektive alleine ohne Prüfung von anderen Perspektiven sollte uns nie zu einer Entscheidung führen. Letztendlich sind Daten nur ein Werkzeug und wie jedes Werkzeug gibt es nicht das eine das auf alle Problemstellungen passt. Darum gibt es ja so viele unterschiedliche Werkzeuge und die Kunst besteht darin, das richtige Werkzeug zur Richtigen Situation auszuwählen. Und damit sind wir wieder am Anfang und das unternehmerisches Handel bedeutet Entscheidungen zu treffen – auch die Entscheidung welchem Werkzeug wir für ein Problem verwenden wollen.

Kategorie: Data Science

Computer haben keine Vorurteile … oder doch?