KI mit Sprache, Bildern und .... Multimodale-GenAI wird kommen

Quelle: Pressemitteilung 4 min Lesedauer

Anbieter zum Thema

Schon bis 2027 sollen laut Gartner-Analysten 40 Prozent der generativen KI-Systeme (GenAI) multimodal sein, also Text, Bild, Audio und Video in Modellen verarbeiten können. 2023 waren es 1 Prozent. Wird ChatGPT also wirklich schlauer?

Unter den GenAI-Innovationen, von denen Gartner erwartet, dass sie sich innerhalb von zehn Jahren durchsetzen; gehören autonome Agenten. (Bild:  frei lizenziert: Gerd Altmann /  Pixabay)
Unter den GenAI-Innovationen, von denen Gartner erwartet, dass sie sich innerhalb von zehn Jahren durchsetzen; gehören autonome Agenten.
(Bild: frei lizenziert: Gerd Altmann / Pixabay)

Laut Gartner verbessert die Verlagerung von individuellen zu multimodalen Modellen die Interaktion zwischen Mensch und KI. Die deutsche Vorzeige-Company für die Integration verschiedener Quellenarten in kundengeprägte KI-Systeme war längere Zeit Aleph Alpha. Doch GenAI hat seine eigenen Regeln und lässt den Vorsprung schwinden, auch wenn sich das hauseigene auf fünf Sprachen trainierte Grundmodell für den Chatbot „Luminous“ der Heidelberger mittlerweile mithilfe per „ChatGPT“ auf Kundenbedürfnisse anpassen lässt.

Laut Gartner bietet Multimodalität eine Chance für alle GenAI-fähige Anwendungen, sich von der Konkurrenz abzuheben. Erick Brethenoux, Analyst bei Gartner, ist überzeugt: „Der GenAI-Markt entwickelt sich hin zu Modellen, die auf mehr als eine Modalität trainiert sind. Dies hilft, Beziehungen zwischen verschiedenen Datenströmen zu erfassen und hat das Potenzial, die Vorteile von GenAI über alle Datentypen und Anwendungen hinweg zu skalieren.“ Außerdem sei KI damit in der Lage, Menschen bei der Ausführung von mehr Aufgaben, unabhängig vom Bereich, zu unterstützen.

In zwei bis fünf Jahren schon sollen multimodale System die Spitze der Hype-Kurve erreicht haben, genauso wie Open-Source Largae Language Models (LLMs) und Vektor-Datenbanken, während sich bereits eine Ernüchterung in Bezug auf LLMs allgemein bereits eingesetzt hat. (Bild:  Source: Gartner (September 2024))
In zwei bis fünf Jahren schon sollen multimodale System die Spitze der Hype-Kurve erreicht haben, genauso wie Open-Source Largae Language Models (LLMs) und Vektor-Datenbanken, während sich bereits eine Ernüchterung in Bezug auf LLMs allgemein bereits eingesetzt hat.
(Bild: Source: Gartner (September 2024))

Multimodale GenAI ist eine von zwei Technologien, die im Gartner Hype Cycle 2024 für generative KI identifiziert wurden, bei denen die frühzeitige Einführung das Potenzial hat, zu einem erheblichen Wettbewerbsvorteil und einer schnellen Markteinführung zu führen. Zusammen mit Open Source Large Language Models (LLMs) haben beide Technologien ein hohes Wirkungspotenzial auf Unternehmen innerhalb der nächsten fünf Jahre.

Die Auswirkungen multimodaler GenAI sind nicht auf bestimmte Branchen oder Anwendungsfälle beschränkt, sondern können an jedem Berührungspunkt zwischen KI und Menschen eingesetzt werden, so Gartner. Heute sind multimodale Modelle meist auf zwei oder drei Modalitäten beschränkt, aber in den nächsten Jahren werden es mehr sein.

„In der realen Welt begegnen und verstehen Menschen Informationen durch eine Kombination verschiedener Modalitäten wie Audio, visuell und sensorisch“, erläutert Brethenoux. „Multimodale GenAI ist schon deshalb wichtig, weil Daten in der Regel multimodal sind. Wenn einzelne Modalitätsmodelle kombiniert oder zusammengesetzt werden, um multimodale GenAI-Anwendungen zu unterstützen, führt dies oft zu Latenz und weniger genauen Ergebnissen, was zu einer geringeren Qualität des Erlebnisses führt.“

Open-Source-LLMs

Auch die Open-Source-LLMs befinden sich auf dem aufsteigenden Ast. Darunter sind laut Gartner Deep-Learning-Grundmodelle zu verstehen, die den Unternehmensnutzen aus der Implementierung von GenAI beschleunigen, indem sie den kommerziellen Zugang demokratisieren und es Entwicklern ermöglichen, Modelle für bestimmte Aufgaben und Anwendungsfälle zu optimieren. Darüber hinaus böten sie Zugang zu Entwicklergemeinschaften in Unternehmen, Hochschulen und anderen Forschungseinrichtungen, die an gemeinsamen Zielen arbeiten, um die Modelle zu verbessern und wertvoller zu machen.

Arun Chandrasekaran, Distinguished VP Analyst bei Gartner, führt aus: „Open-Source-LLMs erhöhen das Innovationspotenzial durch Anpassung, bessere Kontrolle über Datenschutz und Sicherheit, Modelltransparenz, die Möglichkeit, kollaborative Entwicklung zu nutzen, und das Potenzial, die Anbieterbindung zu verringern“ Letztlich offerieren sie Unternehmen kleinere Modelle, die einfacher und kostengünstiger zu trainieren seien und Geschäftsanwendungen und Kerngeschäftsprozesse ermöglichten.

Domänen-spezifische GenAI-Modelle

Unter den GenAI-Innovationen, von denen Gartner erwartet, dass sie sich innerhalb von zehn Jahren durchsetzen werden, wurden zwei Technologien mit dem größten Potenzial identifiziert: domänenspezifische GenAI-Modelle und autonome Agenten (siehe: Abbildung).

Die Domänen-spezifischen GenAI-Modelle. Sie sind nach ihrem Verständnis für die Bedürfnisse von Branchen, Geschäftsfunktionen oder Aufgaben optimiert. Sie haben somit das Potenzial, die Abstimmung der Anwendungsfälle innerhalb des Unternehmens und gleichzeitig die Genauigkeit, die Sicherheit und den Datenschutz sowie die kontextabhängigen Antworten verbessern.

Dies reduziere zudem den Bedarf an fortgeschrittenem Prompt-Engineering im Vergleich zu Allzweckmodellen und kann durch gezielte Schulungen das Risiko von Halluzinationen verringern. Chandrasekaran sagt: „Domänenspezifische Modelle können eine schnellere Time-to-Value, eine bessere Leistung und eine höhere Sicherheit für KI-Projekte erzielen, indem sie einen fortschrittlicheren Ausgangspunkt für branchenspezifische Aufgaben bieten.“

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Er fügt hinzu, dass diese eine breitere Akzeptanz von GenAI fördern werde; denn Unternehmen sie auf Anwendungsfälle anwenden könnten, in denen Allzweckmodelle nicht leistungsfähig genug seien.

Autonome Agenten

Autonome Agenten hingegen sind kombinierte Systeme, die Ziele ohne menschliches Eingreifen erreichen. Sie nutzen eine Vielzahl von KI-Techniken, um Muster in ihrer Umgebung zu erkennen, Entscheidungen zu treffen, eine Reihe von Aktionen auszulösen und Ergebnisse zu erzeugen. Diese Agenten haben das Potenzial, von ihrer Umgebung zu lernen und sich im Laufe der Zeit zu verbessern, so dass sie in der Lage sind, komplexe Aufgaben zu bewältigen.

Analyst Brethenoux ergänzt die Definition: „Autonome Agenten stellen einen bedeutenden Wandel bei den KI-Fähigkeiten dar. Ihr unabhängiges Handeln und ihre Entscheidungsfähigkeit ermöglichen es ihnen, Geschäftsabläufe zu verbessern, das Kundenerlebnis zu steigern und neue Produkte und Dienstleistungen zu entwickeln.“

Auch die Vorteile stechen für ihn klar heraus: „Dies wird wahrscheinlich zu Kosteneinsparungen führen und einen Wettbewerbsvorteil verschaffen. Es stellt auch eine organisatorische Verlagerung der Arbeitskräfte von der Bereitstellung zur Überwachung dar.“

Hinweis: Analysten stellen die neuesten KI-Trends auf dem „Gartner IT-Symposium/Xpo 2024“ vom 4. bis 7. November in Barcelona (Spanien) vor.

(ID:50167304)