KI mit Schwächen
Im Bit Algorithmen und die Lufthansa hatte ich dieses Beispiel schon erwähnt. Ein Beitrag 1 der Redation “Wissen” von Deutschlandfunk Nova berichtet nun von einer wissenschaftlichen Untersuchung des in den USA bei der Einschätzung der Rückfallhäufigkeit von Straftätern verwendeten Algorithmus:
Die Wissenschaftler haben dazu laut Dlf Nova insgesamt 700 Straftäterbiografien untersucht und anhand dieser Daten die Prognosegenauigkeit des Algorithmus der Einschätzung einer Vergleichsgruppe menschlicher Versuchspersonen gegenübergestellt. Dazu wurden die Ergebnisse des Algorithmus mit den Vorhersagen von 400 zufällig ausgewählten Internetnutzern verglichen. Die Internetnutzer erzielten eine Prognosegenauigkeit von 63%, während der Algorithmus (65%) nur 2% besser war. Der Algorithmus verwendete zur Beurteilung insgesamt 137 verschiedene Kriterien (“z.B. Alter und Zahl der Vorstrafen”), die Internetnutzer bekamen wesentlich weniger Informationen als Grundlage für ihre Entscheidung angeboten. Und: “Die Internetnutzer waren auch weniger voreingenommen. Der Algorithmus hat nämlich die Tendenz, weiße US-Bürger optimischer und schwarze kritischer zu beurteilen.”
Das ist einerseits bemerkenswert, wird doch als Vorteil eines Algorithmus zur Entscheidungsfindung oft hervorgehoben, dass dieser nicht den Verzerrungen und Vorurteilen von Menschen unterworfen sei. Andererseits aber nun auch wieder nicht so überraschend: Der Entwurf von Algorithmen und die Auswahl der von ihnen ausgewerteten Eingabedaten geschieht schließlich durch Menschen.
Eine zweite Beobachtung: Eine größere Anzahl von Entscheidungskriterien bürgt auch bei maschineller Auswertung dieser Kriterien, die wegen ihrer Größe erst durch Algorithmen ermöglicht wird, nicht automatisch auch für eine wesentlich bessere Beurteilung – insbesonderer anderer Menschen.
Update (26.01.2018)
Florian Rötzer trägt in einem Artikel2 auf Telepolis weitere Details bei: Es handelt sich um den Algorithmus, der im Rahmen des “Programm Correctional Offender Management Profiling for Alternative Sanctions (COMPAS) […] vielfach auch von Gerichten eingesetzt” wird. Heute heißt das Programm anscheinend equivant. F. Rötzer liest die Studie allerdings ein wenig anders als Dlf Nova: Demnach zeigen auch die menschlichen Nichtexperten, die via “Mechanical Turk von Amazon” gewonnen wurden, bei ihren falschen Bewertungen eine ähnlich große Verzerrung zu Lasten schwarzer Straftäter wie der Algorithmus: “Schwarze, die nicht rückfällig wurden, [wurden] sehr viel öfter als rückfällig eingeschätzt […], als Weiße, die umgekehrt öfter rückfällig [wurden] als vorhergesagt.”
F. Rötzer bemerkt ähnlich wie ich oben: “Die Wissenschaftler zeigen […], dass die 137 Merkmale, die für die Vorhersage herangezogen werden, ein Blendwerk an Komplexität darstellen, weil zwei Merkmale für die Vorhersage völlig ausreichen, nämlich Alter und die Zahl der Vorstrafen.” Aus dem Telepolis-Artikel habe ich auch die Referenz auf die Studie3 entnommen.
Jan Bundesmann berichtet in einem iX-Artikel4 zum 34. CCC 2018 in Leipzig über das gleiche Thema in Form des Vortrags “Beeinflussung durch künstliche Intelligenz” von “Hendrik Heuer und Karen Ullrich”: Sie sehen das Problem darin, “dass häufig die Trainingsdaten nicht repräsentativ und wertfrei sind.” Die Algorithmen werden mit historischen Daten trainiert. Dadurch ergeben sich “diskrimierende Häufungen von Fehlern: Weiße Männer werden […] als resozialisiert eingestuft, begehen allerdings noch eine Straftat.” Umgekehrt bei schwarzen Männern: “ein Straftäter begeht keine weitere kriminelle Handlung mehr, obwohl die Software ihn als rückfallgefährdet einstuft hat”. – das nennen Heuer und Ullrich “Diskriminierung 2.0”.
Update (28.01.2018)
Der gleiche Fall wird nun auch von Christian Stöcker in seiner Kolumne auf SPON5 verhandelt. Dort erfährt man auch von der ersten Untersuchung6 zu dieser systematischen Verzerrung durch Pro Publica und genauere Zahlen zu der ungleichen Bewertung von weißen und schwarzen Straftätern: “Während 23,5 Prozent der Weißen, die als Hochrisikofälle klassifiziert worden waren, nicht erneut straffällig wurden, wurden fast 45 Prozent der Schwarzen auf diese Weise falsch eingestuft. Geringes prognostiziertes Rückfallrisiko gepaart mit tatsächlicher erneuter Straffälligkeit wies das umgekehrte Muster auf: 47,7 Prozent der Weißen, aber nur 28 Prozent der Schwarzen Niedrigrisikofälle wurden erneut straffällig.” Interessant ist auch die Referenz auf einen eingescannten Fragebogen zum “Risk Assessement” 7, auf dessen Basis die 137 Merkmale für den Algorithmus ermittelt wurden.
-
Deutschlandfunk Nova. (2018, 18. Januar). Wissensnachrichten: Richter mit Schwächen - KI funktioniert bei Einschätzung von Straftätern doch nicht so gut [Podcast]. Abgerufen 19. Januar, 2018, von ondemand-mp3.dradio.de/file/dradio/2018/01/18/deutschlandfunknova_wissensnachrichten_20180118_05b944e5.mp3 ↩
-
Rötzer, F. (2018, 19. Januar). Algorithmus zur Vorhersage der Rückfälligkeit von Straftätern: Blendwerk an Komplexität. Abgerufen 26. Januar, 2018, von heise.de/tp/features/Algorithmus-zur-Vorhersage-der-Rueckfaelligkeit-von-Straftaetern-Blendwerk-an-Komplexitaet-3946628.html ↩
-
Dressel, J., & Farid, H. (2018). The accuracy, fairness, and limits of predicting recidivism. _Science Advances:, 4(1). doi:10.1126/sciadv.aao5580. Abgerufen Januar 26, 2018, von advances.sciencemag.org/content/4/1/eaao5580.full ↩
-
Bundesmann, J. (2018, Februar). Chaos Communication Congress - Im Spagat. iX - Magazin für professionelle Informationstechnik, 2018(2), 8-9. ↩
-
Stöcker, C. (2018, 28. Januar). Algorithmen vor Gericht - Menschen sind so schlau wie die teure Maschine. Abgerufen 28. Januar, 2018, von spiegel.de/wissenschaft/mensch/algorithmen-vor-gericht-menschen-sind-so-schlau-wie-die-teure-maschine-a-1190111.html ↩
-
Angwin, J., Larson, J., Mattu, S., & Kirchner, L. (2016, 23. Mai). Machine Bias. Abgerufen 28. Januar, 2018, von propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing ↩
-
Angwin, J. (o.D.). Sample-COMPAS-Risk-Assessment-COMPAS-“CORE”. Abgerufen 28. Januar, 2018, von documentcloud.org/documents/2702103-Sample-Risk-Assessment-COMPAS-CORE.html ↩