KI-Software: Tests mit Menschen sorgen für Zuverlässigkeit

Warum menschliches Feedback unverzichtbar ist KI auf dem Prüfstand

13.09.2023 Ein Gastbeitrag von Rob Mason * 5 min Lesedauer

Anbieter zum Thema

Logo_WatchGuard_Color_Vector_HighRes.jpg ()

WatchGuard Technologies GmbH

Impossible Cloud GmbH

1zu1-snt-heidelberg-2025-eintrittskarten-ticket-sichers (www.mike-bergmann.com/hd-snt25)

mibeca GmbH – Mike Bergmann Akademie

Fehler in KI-Systemen (Künstliche Intelligenz) können von Image-Schäden bis zu juristischen Auseinandersetzungen führen. Ausführliche Tests mit echten Menschen gewährleisten die Zuverlässigkeit und Ethik von KI-Lösungen.

KI spiegelt Vorurteile und fehlerhafte oder unvoollständige Trainingsdaten wider und sollte deshalb stetig getestet werden.(Bild: Placidplace / Pixabay) — KI spiegelt Vorurteile und fehlerhafte oder unvoollständige Trainingsdaten wider und sollte deshalb stetig getestet werden.
(Bild: Placidplace / Pixabay)

Künstliche Intelligenz verspricht, die Welt, wie wir sie kennen, maßgeblich zu verändern. Bereits heute generieren KI-Systeme Börsennachrichten, Wetterberichte und Fußballmeldungen. Chatbots übernehmen zunehmend die Beantwortung von Serviceanfragen und automatisierte Systeme halten unsere E-Mail-Postfächer von lästigen Spam-Nachrichten frei.

Die fortschreitende Integrierung von künstlicher Intelligenz in die Arbeitswelt verspricht eine massive Effizienzsteigerung über alle Branchen hinweg. Fachangestellte müssen sich nicht mehr an banalen Routineaufgaben abmühen, sondern können ihre Energie in kreative Arbeit investieren und so zum Unternehmenserfolg beitragen.

Die Tücken der KI

Doch wie das Sprichwort sagt: Nicht alles, was glänzt, ist Gold. Als mahnendes Beispiel dient bis heute der Chatbot Tay, den Microsoft mit guten Absichten 2016 auf Twitter veröffentlichte. Angedacht war das Experiment als spaßiger Zeitvertreib für junge Erwachsene, die mit dem Chatbot lockere Gespräche über beispielsweise ihre Lieblingsserie führen sollten.

Microsofts Ziel war es, dass der Chatbot die Sprache des Internets annimmt und wertvolle Einblicke in das Lernverhalten von KI liefert. Doch das Internet tat, was es so oft tut. Es dauerte nur wenige Stunden, bis Tay ausschließlich in rassistischen und sexistischen Hasstiraden kommunizierte. Microsoft blieb nicht viel anderes übrig, als dem Projekt nach gerade einmal 16 Stunden den Stecker zu ziehen.

Dass auch heute, über sieben Jahre nach diesem Vorfall, Entwickler und Entwicklerinnen mit Herausforderungen wie ungenügender Datenqualität und unentdeckter Bias zu kämpfen haben, zeigt ein aktuelles Beispiel aus Detroit. Eine Gesichtserkennungssoftware hatte die afroamerikanische Porcha Woodruff fälschlicherweise als Mittäterin eines bewaffneten Überfalls identifiziert. Die Grundlage für die Verhaftung war ein Foto, welches bereits acht Jahre alt war. Sowohl die Software als auch das Opfer hatten sie anhand dessen identifiziert.

Die Pointe: Woodruff war zur Zeit der Festnahme im achten Monat schwanger, der Überfall hatte nur einen Monat vorher stattgefunden. Das Opfer hatte jedoch nicht berichtet, dass eine schwangere Frau am Überfall beteiligt war – verhaftet wurde Woodruff trotzdem. Gesichtserkennungssoftware ist seit Jahren umstritten aufgrund ihrer Ungenauigkeit, insbesondere bei der Erkennung von Schwarzen Menschen. Ein Bias, der bis heute in viele KI-Programme inkorporiert ist.

Diese und weitere Kinderkrankheiten von Systemen, die auf künstlicher Intelligenz basieren, findet man bis heute. Meist verbindet sie ein zentrales Problem: Die Software wurde nicht ausreichend getestet — und zwar mit und von echten Menschen. Das hat Auswirkungen darauf, wie die Öffentlichkeit generative KI-Tools wie ChatGPT wahrnimmt. Eine weltweite Umfrage von Applause unter 5200 Digitalfachleuten hat gezeigt, dass 86 Prozent der Befragten Bedenken aufgrund von Bias in KI-Technologien haben.

KI-Software auf Herz und Nieren prüfen

Unternehmen, die KI nutzen, sollten ihre Software gründlich testen, um unangenehme Überraschungen zu vermeiden. Nur so können sie sich auf alle Eventualitäten fachgerecht vorbereiten und bereits vor Launch mögliche Schwachstellen beseitigen. Dafür lohnt es sich, auf externe Dienstleister zurückzugreifen. Denn nur selten haben Unternehmen intern die nötigen Ressourcen, um ein Produkt ausgiebig zu testen.

Beim Testprozess sollten drei Bereiche im Vordergrund stehen. Zunächst ist es wichtig, die rechtlichen Vorschriften einzuhalten. Außerdem ist es notwendig, zu kontrollieren, ob die Ergebnisse genau und vertrauenswürdig sind. Schließlich gilt es, mögliche Bias bereits bei der Datenauswahl zu berücksichtigen.

Rechtliche Vorgaben beachten

Viele rechtliche Aspekte rund um KI sind bisher noch nicht präzise festgelegt. Das sollten Unternehmen allerdings nicht als Freifahrtschein sehen, sondern heute schon den juristischen Rahmen für die Zukunft setzen. Denn die KI-Verordnung der Europäischen Union (EU AI Act) steht bereits in den Startlöchern.

Bis zum Ende Jahres wollen die EU-Mitgliedsstaaten die endgültige Fassung des Gesetzes beschließen. Unternehmen haben dann zwei Jahre Zeit, sich den vorgegebenen Rahmenbedingungen anzupassen. Der AI Act klassifiziert KI-Systeme anhand des Risikos, das von ihnen ausgeht. Je gefährlicher die KI eingestuft wird, desto höher sind die Auflagen.

Weitere Regulierungen wie etwa der EU Accessibility Act, die in Deutschland schon im Barrierefreiheitsstärkungsgesetz umgesetzt wurde, und der WCAG schreiben Unternehmen vor, dass ihre digitalen Produkte barrierefrei sein müssen. Je nach Herkunft der Daten kann auch das Urheberrecht zum Thema werden.

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Genaue Ergebnisse schaffen Vertrauen

Vor allem generative KI sieht sich immer wieder dem Vorwurf ausgeliefert, ungenaue oder gar falsche Inhalte zu generieren. Expertinnen und Experten sprechen in diesen Fällen davon, dass die KI halluziniert. Für User, die sich auf die Ergebnisse verlassen, ist das fatal. Das Resultat kann ein beschädigtes Image und ein Verlust des Vertrauens in das Produkt sein.

In Zeiten, in denen das Vertrauen in Marken immer stärker Mittelpunkt steht, kann das Unternehmen zum Verhängnis werden. Die Konsequenz daraus ist, dass die Qualitätssicherung immer stärker in den Mittelpunkt rücken muss. Ein Aspekt, der selbst Branchen-Primus OpenAI schwerfällt, wie eine aktuelle Studie der Stanford-Universität zeigt.

Die Forschenden verglichen die Ergebnisse von GPT-4 aus dem Juni mit denen aus dem März und kamen zum Ergebnis, dass die Antworten signifikant schlechter wurden. Es reicht nicht, KI-Anwendungen einmalig zu testen, sondern sie müssen stetig überprüft und mit neuen Daten trainiert werden, wenn sie kontinuierlich relevante Ergebnisse generieren sollen.

Bias vermeiden

Maschinen kennen keinen intrinsischen Unterschied zwischen Geschlechtern, Alter oder Hautfarbe. Diese Unterscheidungen lernt die KI erst durch die Daten, mit denen sie trainiert wird. Dabei spielt die Qualität der Daten die entscheidende Rolle. Sind bereits die Rohdaten ungenau oder verzerrt, wird es das Ergebnis ebenfalls sein – getreu dem Prinzip „Garbage in, garbage out“. Die Folgen sind eine verminderte Qualität des Produkts sowie möglicherweise diskriminierende Entscheidungen auf Seiten der KI.

Die Dominanz von weißen und männlichen Entwicklern in der Tech-Branche sorgt ebenfalls für Verzerrungen. In den USA sind knapp 80 Prozent der Developer männlich und nur 4,6 Prozent gehören zur schwarzen Bevölkerung. Die fehlende Diversität geht mit einem Mangel an Perspektiven einher.

Ein weltweites, kulturell vielfältiges Team an Testerinnen und Testern ist in der Lage, den inkorporierten Bias in einer KI aufzudecken und den Developern zu melden. Zusätzlich kann kontrolliert werden, ob die Übersetzung der Software in die Zielsprache gelungen ist, was auch für das Thema Inklusion wichtig ist, besonders in einer Welt, in der viele KI-Anwendungen nur auf Englisch zur Verfügung stehen.

Für Entwicklerinnen und Entwickler bringt die Programmierung von KI-Software viele Herausforderungen mit sich. Sie müssen sowohl die aktuellen sowie die derzeit noch im Entstehungsprozess befindlichen juristischen Regulierungen beachten, um nicht in Gefahr zu laufen, teure Geldstrafen zu bezahlen.

Wenn die Rechtsfragen abgeklärt sind, steht jedoch erst das Grundgerüst. Damit das Produkt vom Markt gut aufgenommen wird, muss die Qualität stimmen. Denn nur genaue und verlässliche Ergebnisse sorgen dafür, dass die Kundschaft der Software vertraut und für ihren Workflow nutzt.

Rob Mason(Bild: Applause) — Rob Mason
(Bild: Applause)

Dabei ist es besonders wichtig, dass bereits vor der Veröffentlichung sichergestellt ist, dass die Software frei von Bias und fehlerhaften Daten ist. In all diesen Phasen kann ein versiertes Tester-Team die Developer unterstützen, indem es das Produkt gründlich überprüft und frische Perspektiven bietet.

* Als Chief Technology Officer ist Rob Mason dafür verantwortlich, sein Team hinsichtlich der Entwicklung innovativer und robuster Software anzuleiten.

(ID:49690089)