Trainingslager für KI-Agenten Sales-Framework eVerse testet und optimiert KI-Agenten

Von Michael Matzer 7 min Lesedauer

Anbieter zum Thema

Sprachmodelle glänzen oft in komplexen Aufgaben – und scheitern an simplen Fragen. Salesforce AI Research will diese „erratische Intelligenz“ bändigen. Mit eVerse entsteht ein Simulationsframework, das KI-Agenten messbar zuverlässiger machen soll.

Adesso und Salesforce präsentierten bei der Agentforce World Tour in Düsseldorf ihre „Agentic Enterprise Fabrics“-Initiative.(Bild:  Adesso SE)
Adesso und Salesforce präsentierten bei der Agentforce World Tour in Düsseldorf ihre „Agentic Enterprise Fabrics“-Initiative.
(Bild: Adesso SE)

KI-Agenten und Chatbots geben mitunter inkorrekte Antworten, reagieren aber uneinsichtig gegenüber Kritik. Um solches Verhalten frühzeitig aufzudecken, hat Salesforce AI Research ein Simulationsframework vorgestellt, das Fähigkeiten und Konsistenz von Agenten durch synthetische Daten, realistische Belastungstests und Reinforcement Learning optimieren soll. Das Testen können Partner als Service anbieten.

Dass für dieses Testframework überhaupt eine Notwendigkeit besteht, die Partner ausnutzen können, zeigt die tägliche Erfahrung von Nutzern, die einen Chatbot bedienen oder KI-Agenten einsetzen. Die Ergebnisse sind meist durchwachsen und erfordern durchweg eine Prüfung durch Menschen.

Auch wenn KI-Modelle immer ausgefeilter werden, besteht nämlich eine merkwürdige Herausforderung weiter: Systeme, die Mathematik auf Doktoratsniveau lösen können, scheitern an überraschend einfachen Aufgaben. Fragt man ein führendes Sprachmodell das berühmte Rätsel „Wo kommt Weihnachten vor Thanksgiving?“, antwortet es korrekt: „Im Wörterbuch“ – weil alphabetisch „C“ (für Christmas) vor „T“ steht.

Vertauscht man die Wörter jedoch – fragt also: „Wo kommt Thanksgiving vor Weihnachten?“ – erklärt dasselbe Modell selbstbewusst: „Im Wörterbuch komme Thanksgiving alphabetisch vor Christmas (Weihnachten).“ Dieses Phänomen, das KI-Forscher „erratische Intelligenz“ (jagged intelligence) nennen, zeigt scharfe Gipfel an Brillanz neben unerwarteten Tälern der Schwäche.

Für Unternehmen ist diese Inkonsistenz allerdings kein theoretisches Problem, denn sie ist operativ relevant. Wenn KI-Agenten Kundendienstgespräche führen, Verkaufsprozesse abwickeln oder die Abrechnung im Gesundheitswesen unterstützen, erzeugt erratische Intelligenz reale Geschäftsrisiken. Ein Agent kann komplexe, mehrstufige Aufgaben einen Moment lang perfekt meistern – und im nächsten Moment bei einer einfachen Anfrage stolpern. Diese Unvorhersehbarkeit ist ein Ausschlusskriterium für Unternehmen, in denen Zuverlässigkeit ebenso wichtig ist wie Leistungsfähigkeit.

Eine neue Testmethodik

Bei Salesforce AI Research wurde nun eine Methodik entwickelt, um diese Risiken zu mindern. Mit eVerse hat Salesforce ein Unternehmens-Simulationsframework vorgestellt, das KI-Agenten wie Spitzensportler trainiert. Es optimiere sie sowohl auf Fähigkeiten als auch auf Konsistenz (siehe die Abbildung der Matrix) durch drei miteinander verbundene Schritte: Synthetisieren, Messen und Trainieren (Abbildung). Das Framework ist keine Theorie, sondern befindet sich bereits im Einsatz.

Silvio Savarese hat es in seinem Blog vorgestellt. Er ist Executive Vice President und Chief Scientist von Salesforce AI Research sowie Adjunct Faculty für Informatik an der Stanford University, wo er bis Winter 2021 als Associate Professor mit Lehrauftrag tätig war. Im Folgenden werden seine Ausführungen zusammengefasst.

Salesforce eVerse soll die Leistung von Chatbots und Agenten durch Trainieren des Modells, Synthetisieren seiner Daten und das Messen der Testergebnisse optimieren.(Bild:  Salesforce)
Salesforce eVerse soll die Leistung von Chatbots und Agenten durch Trainieren des Modells, Synthetisieren seiner Daten und das Messen der Testergebnisse optimieren.
(Bild: Salesforce)

Schritt 1: Synthetisieren

Um erstklassige KI-Agenten zu entwickeln, braucht es erstklassige Trainingsumgebungen. So wie Formel-1-Fahrer Tausende Stunden in hochentwickelten Simulatoren verbringen, bevor sie in Monaco antreten, benötigen Unternehmens-KI-Agenten realistische Übungsumgebungen, die die Komplexität echter Geschäftsabläufe widerspiegeln.

Da Vertrauen bei Salesforce oberste Priorität hat, hat Savareses Team einen Trainingsansatz entwickelt, der echte Kundendaten niemals gefährdet. „Unsere jüngste Forschungsarbeit CRMArena-Pro ist ein gutes Beispiel dafür. Sie schafft vollständig synthetische Trainingsumgebungen mit realistischen Kundendaten, mehrstufigen Workflows und den Randfällen, die Geschäftsprozesse unberechenbar machen.“ Agenten lernen in Umgebungen, die echten Unternehmenssystemen ähneln – während Firmen- und Kundendaten privat, sicher und vollständig unberührt bleiben.

Schritt 2: Messen

Synthetisierung von Daten allein reicht nicht aus. Forscher müssen die Leistung von Agenten rigoros über die für Unternehmen wichtigsten Szenarien hinweg messen. Dazu gehört eine der laut Savarese kritischsten – und schwierigsten – Modalitäten: Sprachinteraktionen.

Sprachgespräche bringen Komplexitätsebenen mit sich, die bei textbasierten Tests nicht auftreten: Hintergrundgeräusche, unterschiedliche Akzente, Übersetzungsfehler, schlechte Verbindungen, mehrere Sprecher. eVerse simuliert diese realistischen Sprachinteraktionen und erzeugt synthetische Telefongespräche, die bemerkenswert menschlich klingen – und Agenten in umfassenden Unternehmensszenarien testen.

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Diese Messinfrastruktur arbeitet im Hintergrund im gesamten Salesforce-Ökosystem. „So haben wir die Voice-Funktionen von Agentforce vor dem Launch validiert – mit Tausenden synthetischer Gespräche, um sicherzustellen, dass Agenten reale Komplexität mit hoher Leistungsfähigkeit und unerschütterlicher Konsistenz bewältigen“, berichtet der Forscher.

Schritt 3: Trainieren

Nachdem die Messung Leistungsdefizite aufgedeckt hat, schließt die eVerse-Trainingsengine diese durch Reinforcement Learning, das von menschlicher Expertise geleitet wird. Unsere Forschung zeigt beeindruckende Verbesserungen: 69 Prozent bessere Leistung bei Unternehmenstasks (von 19 Prozent auf 88 Prozent Erfolgsrate). Derzeit testen die Forscher eVerse gemeinsam mit Kunden. „Ein Beispiel ist UCSF Health, wo wir mit Fachexperten zusammenarbeiten, um KI zu trainieren und zu optimieren, die die komplizierte Abrechnung im Gesundheitswesen vereinfachen und verbessern soll.“ Näheres dazu gleich.

Savarese weiter: „Dieser kontinuierliche Kreislauf – Umgebungen synthetisieren, Leistung messen, Lücken trainieren – verwandelt Agenten von generischen Sprachmodellen in unternehmensspezifisch optimierte Systeme, die bereit für den Produktionseinsatz sind.“

Erprobung an der Uniklinik von San Francisco

„Bei verantwortungsvollem Einsatz glauben wir, dass KI unseren Teams helfen kann, einen der komplexesten Bereiche des Gesundheitswesens zu vereinfachen – und ein Abrechnungserlebnis zu schaffen, das nahtloser wirkt und wirklich patientenzentriert ist“, sagt Dr. Sara Murray, VP & Chief Health AI Officer an der Uniklinik von San Francisco (UCSF Health, https://www.ucsfhealth.org, eine der zehn besten Kliniken der USA.

Das eVerse-Framework wird in einem Pilotprojekt an der Uniklinik von San Francisco erprobt. Das Forscherteam arbeitet mit klinischen Experten zusammen, um die KI-Agenten zu trainieren und zu verfeinern. Im Mittelpunkt des Projekts steht das Abrechnungswesen – ein Fachbereich, in dem Zuverlässigkeit und Genauigkeit nicht leicht zu erzielen, aber rigorose Vorgaben sind.

„Die Lernmaschine“, so Savarese, „lernt fortwährend aus der menschlichen Rückkopplung im Kontext und dem Ablauf der real verrichteten Arbeit.“ Das System verstärkt korrektes Verhalten und passt sich mit der Zeit komplexeren Szenarien an. „Erste Ergebnisse zeigen eine 70-prozentige Beibehaltungsquote angewandter Lerninhalte und über 60 Prozent Verallgemeinerung in neuen Fällen. Das demonstriert messbaren Fortschritt in Richtung einer robusten und vertrauenswürdigen Automatisierung.“

„Unsere Partnerschaft mit UCSF Health demonstriert, wie sich angewandte Wissenschaft direkt in Wertschöpfung für Kunden ummünzen lässt“, sagt Savarese. „Es beweist zudem, dass, wenn man Agenten in Umgebungen trainiert, die die Komplexität der realen Welt widerspiegeln, sie zuverlässig arbeiten, wenn es darauf ankommt.“

Der Weg zur Enterprise General Intelligence

Savarese weiter: „Diese Arbeit führt unsere Vision dessen weiter, was wir Enterprise General Intelligence (EGI) nennen: KI, die für geschäftliche Anwendungen optimiert ist und sowohl bei der Leistungsfähigkeit als auch bei der Konsistenz glänzt. Während Consumer-KI breite, allgemeine Fähigkeiten priorisiert, verlangt Enterprise-KI zuverlässige Leistung in spezifischen, komplexen, mehrstufigen Workflows – in denen Inkonsistenz ein echtes Geschäftsrisiko darstellt.“

eVerse adressiere diese Herausforderung, indem Agenten entlang beider Dimensionen gleichzeitig weiterentwickelt werden. Generische LLM-Agenten schneiden in Geschäftskontexten unterdurchschnittlich ab: hohe Fähigkeit, aber geringe Konsistenz – das „Wunderkind-Problem“: brillant, wenn es funktioniert, aber unzuverlässig, wenn es darauf ankommt. eVerse-trainierte Agenten erreichen in der Matrix (s. Abb.) das „Champion-Quadrant“: hohe Leistungsfähigkeit kombiniert mit hoher Konsistenz – also genau das, was Unternehmen benötigen.

Diese Matrix zeigt vier Verhaltensweisen von Chatbots bzw. Agenten, bemessen nach den Vorgaben „Fähigkeit“ (capability) und „Beständigkeit“ (consistency). Daraus ergeben sich die Profile „Generalist“, „Arbeitspferd“, „Wunderkind“ (prodigy) und „Champion“.(Bild:  Salesforce)
Diese Matrix zeigt vier Verhaltensweisen von Chatbots bzw. Agenten, bemessen nach den Vorgaben „Fähigkeit“ (capability) und „Beständigkeit“ (consistency). Daraus ergeben sich die Profile „Generalist“, „Arbeitspferd“, „Wunderkind“ (prodigy) und „Champion“.
(Bild: Salesforce)

Agenten-Initiative bei Adesso

Vor diesem Hintergrund hat das deutsche Systemhaus Adesso eine neue Kompetenz-Unit „Agentic Enterprise“ eingerichtet. Diese soll Unternehmen dabei unterstützen, „Salesforce-KI-Agenten gewinnbringend einzusetzen und eine effiziente Zusammenarbeit zwischen Mitarbeitern und KI-Agenten zu ermöglichen“, so Benedikt Bonnmann, Mitglied des Vorstands der Adesso SE. Im Mittelpunkt stehe die intelligente Verbindung bestehender IT-Architekturen mit innovativen Technologien, die Nutzung vorhandener Unternehmensdaten, die Leistungsfähigkeit moderner Sprachmodelle (LLMs) sowie ein Verständnis für Unternehmensprozesse und Change-Management.

Die neue Unit richtet sich an Kunden in Deutschland, Österreich und der Schweiz. Zum Start liege der Fokus auf den Branchen Manufacturing Industry, Financial Services und Life Sciences. Kunden profitierten dabei in allen Bereichen: Die technologischen Portfolios der Salesforce-Plattform – mit Agentforce und Data360 im Zentrum – würden „mit der breiten Technologie- und Integrationskompetenz sowie dem tiefen Branchenwissen von Adesso vereint“.

Großes Potenzial

„Der Einsatz einer solchen Testumgebung ist für uns absolut vorstellbar, denn auch bei ‚klassischen‘ Projekten führt kein Weg ums Testen herum“, sagt Niclas Breit, Head of Marketing beim deutschen Lösungshaus Salesfive. „Für unsere Kunden im (gehobenen) Mittelstand und Enterprise-Segment ist das möglicherweise sogar eine strategische Notwendigkeit, denn manuelle Tests skalieren bei dieser Unternehmensgröße nicht mehr. Das Risiko für Fehler im Live-Betrieb ist zu hoch.“

Breit zählt weitere Vorteile auf: „Für eVerse spricht vor allem die Risikominimierung. KI-Agenten verhalten sich nämlich nicht deterministisch. Sie können halluzinieren oder unerwartet reagieren. In einer Simulation interagieren sie hingegen mit synthetischen Profilen statt echten Menschen. So könnten Probleme identifiziert werden, bevor ein Schaden entsteht.“

Auch der Aspekt der Sicherheit spielt für Breit eine Rolle. „Ein weiterer Punkt ist die Erkennung von Leistungslücken. KI-Modelle lösen oft komplexe Aufgaben gut, scheitern aber an einfachen Dingen. Simulationen machen diese Grenzen sichtbar. Zudem ist der Datenschutz ein Argument. Da wir mit synthetischen Daten testen, bleiben echte Kundendaten unberührt – und das ist gerade im DACH-Raum entscheidend.“

Das Wettbewerbsgebot

Silvio Savareses Resümee: „Die Organisationen, die in der Agenten-Ära der KI führen werden, sind nicht zwangsläufig diejenigen mit den fortschrittlichsten Modellen, sondern jene, die früh erkannt haben, dass Exzellenz in der Enterprise-KI anspruchsvolle Trainingsumgebungen erfordert, die die Lücke zwischen Simulation und Realität schließen.“

Diese Forschungsarbeit mache KI-Agenten wirklich unternehmensbereit: vertrauenswürdig, zuverlässig und in der Geschäftslogik verankert. Die Zukunft gehöre Agenten, die in Umgebungen trainiert wurden, die Millionen realistischer Geschäftsszenarien simulieren, von Domänenexperten validiert und durch reale Rückmeldungen kontinuierlich verbessert werden.

(ID:50643982)