CCC | Biometrische Videoüberwachung: Der Südkreuz-Versuch war kein Erfolg

Termine

Biometrische Videoüberwachung: Der Südkreuz-Versuch war kein Erfolg

13. Oktober 2018, 10:46 Uhr, erdgeist

Die Ergebnisse im Abschlussbericht nach dem monatelangen Test der biometrischen Gesichtserkennung sind nicht überzeugend und absichtlich geschönt worden. Solche Testergebnisse können nicht als Grund dafür herhalten, Biometrietechnik nun flächendeckend einführen zu wollen. Risiken und rechtliche Probleme werden im Bericht gar nicht erst angesprochen.

Diese Woche hat die Bundespolizei den bereits im September erstellten Abschlussbericht [1] zur biometrischen Gesichtserkennung am Berliner Bahnhof Südkreuz veröffentlicht. Zu den Kosten des monatelangen Versuchs sind keine Angaben enthalten. Eine zeitgleich bekanntgegebene Meldung preist die Ergebnisse der drei erprobten Systeme als „erfolgreich“ und spricht von einem „enormen Mehrwert“ der Biometriesoftware für die Polizei.

Jedoch zeigen die wenigen Zahlen aus dem Bericht, dass die getesteten Systeme – anders als behauptet – keine akzeptablen Ergebnisse erbrachten. Zudem erweist sich, dass die Ergebnisse manipuliert wurden, um sie nicht ganz so desaströs aussehen zu lassen.

Der Chaos Computer Club (CCC) fordert im Lichte dieses Debakels, das unnütze und teure Sicherheitstheater unverzüglich einzustellen. Die Gesichter aller Passanten sind keine biometrische Ressource zum Scannen nach Belieben.

Die biometrische Videoüberwachung ist mit zahlreichen technischen Problemen behaftet und erweist sich erneut als untauglich. Aber das weit größere Problem für jeden Passanten, dessen Gesicht gescannt wird, liegt in der Technologie selbst: Menschen werden nicht wie mit anderen Videosystemen einfach nur beobachtet, sondern während der Überwachung durch ihre Körpermerkmale identifiziert. Werden solche Systeme ausgebaut, stehen wir vor einer anlasslosen biometrischen Personenüberwachung im öffentlichen Raum, die mit der heutigen Videoüberwachung technisch nicht vergleichbar ist.

Angaben zu durchschnittlichen Ergebnissen

Das Innenministerium betont die angeblich hohe Anzahl an Treffern: Die Trefferrate gibt laut dem Bericht die Wahrscheinlichkeit an, mit der eine Person von einem getesteten System korrekt identifiziert wird. Über die angegebene Trefferrate von durchschnittlich achtzig Prozent zeigen sich das Innenministerium und die Autoren des Abschlussberichts hocherfreut. Faktisch werden bei einer solchen Rate allerdings von zehn gesuchten Personen eben nur acht korrekt identifiziert.

Doch selbst die in der Pressemitteilung besonders hervorgehobene durchschnittliche Erkennungsrate von achtzig Prozent hat in Wahrheit keines der getesteten Systeme erreicht, sondern ist eine absichtlich positiv verfälschende Zahl. Sie berechnet sich laut dem Abschlussbericht aus den Erkennungsraten aller drei erprobten Systeme.

Praktisch hieße das für die Situation am Bahnhof, dass nicht der beste Anbieter für die biometrische Erkennung zum Einsatz käme, sondern alle drei Systeme zusammen eingesetzt werden müssten, um diesen durchschnittlichen Wert zu erreichen. Eine solche Trefferrate des „logischen Gesamtsystems“ existiert nämlich nur, wenn alle drei getesteten Systeme die vorbeilaufenden Menschen erfassen und jeweils softwareseitig auswerten. Bei keinem der getesteten Anbieter wurde diese imaginäre durchschnittliche Zahl in Wahrheit gemessen. Tatsächlich ist das durchschnittliche Ergebnis des Versuchs für das beste der drei Testsysteme die peinliche Zahl von 68,5 Prozent, die in der ersten Testphase erreicht wurde. Damit ist die biometrische Technik zu unausgereift für den praktischen Einsatz.

Erwartungsgemäß ändert auch die Positionierung der Kamera das Ergebnis für die Trefferquoten: Am schlechtesten schnitt dabei die Eingangskamera am Bahnhof ab, bei der die schwächsten Trefferleistungen gemessen wurden. Selbst das beste der drei getesteten Systeme kommt hier nur auf eine Trefferquote von 65,8 Prozent. Tagsüber konnte wegen Gegenlichts sogar auch beim besten der Systeme nur sechzig Prozent erreicht werden. Der schlechteste der drei Biometrieanbieter wies am Eingang des Bahnhofs sogar nur eine Trefferrate von 18,9 Prozent (tagsüber zwölf Prozent) aus und ist damit glatt durchgefallen.

Für den geplanten Abgleich mit polizeilichen Datenbanken sind solche Erkennungsraten völlig unbrauchbar. Sie als Erfolg verkaufen zu wollen, ist schlicht unredlich. Insgesamt hält die Bundespolizei dennoch zwei der getesteten Systeme für den „praktischen polizeilichen Einsatz“ geeignet und sieht selbst für das überdurchschnittlich schlechte dritte Testsystem noch ein „hohes Potenzial“.

Wissenschaftliche Standards missachtet

Die zugrundeliegenden Bilder der Gesichter waren in der Phase zu Beginn des Tests von ausgesprochen hoher Qualität, was die Ergebnisse zugunsten der getesteten Systeme verzerrt. Denn die freiwilligen Probanden wurden in hoher Auflösung und mit guter Beleuchtung fotographiert, so dass die erfassten Gesichter in der ersten Testphase optimal für den Vergleich mit den Livebildern vorlagen.

Der Abschlussbericht weist solche Verzerrungen nicht etwa aus, sondern beschönigt das Vorgehen noch. Generell kann die gesamte Auswertung nicht als wissenschaftlich angesehen, sondern muss als PR-Bericht verstanden werden. Vielleicht dauerte es deshalb so lange, die bereits am 31. Juli beendeten Tests herauszuputzen, um sie erst im Oktober im Abschlussbericht darzustellen.

Die Wissenschaftlichkeit des Versuchs steht aber auch aus anderen Gründen bereits konzeptuell in Zweifel: Die Repräsentativität der Probanden war nicht gegeben, so dass kein aussagekräftiges Abbild der Bevölkerung (Alter, Geschlecht, Ethnie) oder des gesuchten Personenkreises getestet wurde. Zudem war die Anzahl der freiwilligen Tester mit 312 Menschen zu gering bemessen, sie nahm in der zweiten Testphase außerdem noch signifikant ab und verringerte sich auf nur 201 Personen.

„Eine gründliche Untersuchung der realen Erkennungsleistungen der biometrischen Systeme hat mit dem Test am Bahnhof Südkreuz wenig gemeinsam. Wenn ein System der biometrischen Personenüberwachung aber tatsächlich eingesetzt werden sollte, genügen solche Versuche ohnehin nicht. Dann müsste man besser vorher darüber sprechen, ob es gesellschaftlich wünschenswert und überhaupt rechtlich möglich ist, von jedem Vorbeilaufenden biometrische Merkmale zu verarbeiten“, sagte Dirk Engling, Sprecher des CCC.

Die zweite Versuchsphase

Besonders dreist ist das Vorgehen, mit der zweiten Testphase die Ergebnisse nochmals absichtlich zu schönen. Der damalige Innenminister Thomas de Maizière hatte bei einem Besuch seines Vorzeigeprojektes noch angekündigt, dass in einer zweiten Phase des ursprünglich auf sechs Monate angelegten Versuchs realitätsnähere Bilder benutzt werden würden. In Wahrheit wurden in dem dann verlängerten Test unter dem Vorwand, angeblich Fahndungsfotos zu verwenden, tatsächlich von den getesteten Systemen selbst aufgezeichnete Gesichtsbilder benutzt. Diese Bilder hatten im ersten Versuchsteil bereits zu guten Ergebnissen geführt. Zudem wurde nunmehr nicht nur ein Referenzbild in den Datenbanken hinterlegt, sondern gleich mehrere der zuvor aufgezeichneten Fotos der Probanden aus den Überwachungskameras verwendet.

Damit wurden nicht nur absichtlich und unzulässig die Erkennungraten manipuliert, vielmehr sind mit einem solchen Testvorgehen Rückschlüsse auf reale Szenarien in einem Bahnhof gar nicht mehr möglich. Schließlich hat es nichts mehr mit der Wirklichkeit zu tun, wenn die biometrischen Systeme Vergleiche von vorher als gut klassifizierten Gesichtsbildern vornehmen, die am gleichen Ort entstanden sind. So müssten in der Realität Fotos der Verdächtigen an allen Bahnhöfen mit allen dort verbauten Kameras angefertigt werden – eine vollkommmen unsinnige und erneut die Ergebnisse verfälschende Testannahme. Wenn solche Versuchsmethoden als Begründung für eine künftige Gesetzgebung zum flächendeckenden Einsatz herhalten sollten, sind sie nicht aussagekräftig für eine reale Verwendung.

Die Falscherkennungsrate

Weiterhin sind die Zahlen zur Falscherkennungsrate (FAR) deutlich geschönt. So werden hier nicht etwa alle durch die Kamera erfassten Gesichter der Menschen analysiert, sondern ausweislich des Berichtes nur diejenigen, die zufälligerweise zu dem Zeitpunkt aufgenommen wurden, wenn eine der Testpersonen neben ihnen auf der Rolltreppe stand oder im Bahnhof ging und damit das System durch den Transponder aktivierte. Die realen Zahlen der fälschlichen Erkennung liegen also nochmals um ein Vielfaches höher als der in dem Bericht ausgegebene Wert. Zugleich bleibt auch diese Verzerrung des Ergebnisses im Bericht selbst unkommentiert.

Für das „logische Gesamtsystem“ liegt die so ausgewiesene FAR durchschnittlich bei 0,67 Prozent. Bei einer durchschnittlichen Anzahl von etwa 90.000 Reisenden pro Tag am Bahnhof Südkreuz hieße ein solcher Wert, dass täglich 600 Passanten und mehr fälschlich ins Visier der biometrischen Installation gerieten.

Weiterhin werfen die im Versuch verwendeten Verfahren Fragen auf, die in dem Bericht nicht adressiert werden. Wieso wurden beispielsweise aus den 41.000 gespeicherten Transponder-Events nur 6.000 ausgewählt? Was waren die Kriterien? Und warum werden nicht in allen Diagrammen im Abschlussbericht die gleichen Datenpunkte verwendet? So gibt es beispielsweise für den November nur einen Punkt im Diagramm für die Falscherkennungsrate, aber ganze neun für die Trefferrate. Hier liegt der Verdacht nahe, dass durch die Auswahl bestimmter Ereignisse Fehlerkennungen unter den Tisch gekehrt werden sollten. Auch Differenzen in den Erkennungsraten zwischen aufeinanderfolgenden Tagen von im Schnitt zehn Prozent (maximal fünfzig Prozent) sollten die Herausgeber und die Leser der Studien stutzig machen.

Bedeutung der Zahlen in der Praxis

Würde dieses System tatsächlich so in Betrieb genommen, würde die FAR noch weiter darunter leiden, dass die Zahl der Fahndungen mehr als nur die 200 gespeicherten Vergleichsbilder wie in Testphase 2 erzeugt. Laut Beispiel aus dem Bericht soll in der Praxis mit mindestens 600 Bildern verglichen werden. Entsprechend stiege die FAR nochmals.

Doch selbst wenn die Systeme nur vier unbescholtene Bürger pro Kamera und Stunde fälschlich als Verbrecher erkennen und die Beamten diese dann von Hand aussondern müssen, kann man sich leicht vorstellen, was passiert, wenn nach monatelangem händischen Aussieben dann doch mal ein einzelner Verbrecher durchs Bild huscht und erkannt wird. Wie aufmerksam ein durchschnittlicher PC-Anwender die hunderste Sicherheitswarnung für Webseiten wegklickt, dürfte ein Gefühl für die Auswirkungen einer solchen Flut von Falscherkennungsmeldungen geben.

Der einzige Lichtblick im Bericht ist die Beschreibung, wie man sich am besten gegen die biometrische Rasterfahndung schützen kann: Man drehe einfach das eigene Gesicht um mehr als 15 Grad von der Kamera weg. Damit ist eigentlich alles gesagt, was die Sinnhaftigkeit und Einsatztauglichkeit solcher Systeme angeht.