Red Hat Inference Server Eine offene Zukunft für KI

Von Natalie Forell 2 min Lesedauer

Anbieter zum Thema

Red Hat bringt mit dem Inference Server eine offene Plattform, die den Einsatz von GenAI-Modellen vereinfachen soll. Mit Modellkomprimierung und einem optimierten Repository ermöglicht sie eine effiziente Nutzung in verschiedenen Cloud- und IT-Umgebungen.

Effizientes Inferencing reduziert den Ressourcenverbrauch und sorgt für schnelle Reaktionszeiten – entscheidend, um den steigenden Anforderungen komplexer KI-Modelle gerecht zu werden. Der Red Hat Inference Server unterstützt Unternehmen dabei, KI-Workloads flexibel und skalierbar in jeder Umgebung bereitzustellen.(Bild:  Midjourney / KI-generiert)
Effizientes Inferencing reduziert den Ressourcenverbrauch und sorgt für schnelle Reaktionszeiten – entscheidend, um den steigenden Anforderungen komplexer KI-Modelle gerecht zu werden. Der Red Hat Inference Server unterstützt Unternehmen dabei, KI-Workloads flexibel und skalierbar in jeder Umgebung bereitzustellen.
(Bild: Midjourney / KI-generiert)

Red Hat, der weltweite Anbieter von Open-Source-Lösungen, bringt den Red Hat Inference Server auf den Markt. Als Teil von Red Hat AI soll die Lösung Unternehmen dabei helfen, KI-Inferenz schneller und kostengünstiger zu betreiben. Die neue Plattform kombiniert vLLM mit Enterprise-Funktionen wie Skalierbarkeit und Sicherheit.

Wenn Nutzer mit einem KI-Modell interagieren, erwarten sie schnelle und korrekte Antworten – und das Modell muss diese Antworten effektiv und kosteneffizient liefern.

Joe Fernandes, Vice President, AI Business Unit bei Red Hat

Welche Vorteile hat der Red Hat Inference Server?

  • LLM-Komprimierungstools: Mithilfe von Komprimierungstools kann die Größe von Sprachmodellen verkleinert werden. Die Plattform selbst wurde gezielt für performantes Inferencing und effiziente Modellverkleinerung entwickelt.
  • Bereitstellung von KI-Modellen: In einem optimierten Modell-Repository haben Nutzer den direkten Zugriff auf eine validierte Sammlung an KI-Modellen – bereitgestellt über Red Hat AI bei Hugging Face. Diese sind sofort einsatzbereit.
  • Support: Der Enterprise-Support und Third-Party-Support von Red Hat bietet Unternehmen Unterstützung beim Einsatz von Community-Projekten – auch wenn diese auf Linux- oder Kubernetes-Plattformen eingesetzt werden, die nicht von Red Hat stammen. Der Anbieter ermöglicht damit die Nutzung seiner Lösung auch auf anderen Plattformen – das macht sie besonders attraktiv für Unternehmen mit heterogenen IT-Umgebungen.

Die neue Plattform unterstützt die Vision von Red Hat, dass jedes GenAI-Modell auf jedem KI-Beschleuniger in jeder Cloud-Umgebung einsetzbar ist – unabhängig davon, ob der Red Hat Inference Server eigenständig oder in der Red Hat Enterprise Linux AI und Red Hat OpenShift AI eingesetzt wird.

Verteilte Inferenz mit llm-d

Mit llm-d, einem Open-Source-Projekt aus der vLLM-Community, setzt Red Hat künftig auch auf verteilte Inferenz über mehrere Systeme hinweg. Das Projekt stammt nicht aus dem eigenen Haus, doch Red Hat integriert es frühzeitig, um große Sprachmodelle deutlich schneller und effizienter bereitzustellen. Besonders bei KI-Workloads in Cloud- oder Edge-Umgebungen kann das ein entscheidender Vorteil sein.

Wie funktioniert Inferencing?

Beim Inferencing verarbeitet ein vortrainiertes Modell neue Eingaben und liefert darauf basierend Vorhersagen oder Antworten. Diese Phase ist entscheidend, da sie schnelle und präzise Reaktionen für den Nutzer ermöglicht. Allerdings kann Inferencing sehr ressourcenintensiv sein und sowohl die Performance als auch die Kosten beeinflussen. Der Red Hat Inference Server baut auf dem Community-Projekt vLLM auf, das Mitte 2023 von der University of California in Berkeley ins Leben gerufen wurde. Das Projekt konzentriert sich darauf, selbst bei langen Texteingaben und der Nutzung mehrerer Grafikkarten gleichzeitig zuverlässige und präzise Ergebnisse zu liefern.

Joe Fernandes, Vice President der AI Business Unit bei Red Hat, erklärt: „Inferencing ist der Bereich, in dem das Versprechen von GenAI eingelöst wird. Wenn Nutzer mit einem KI-Modell interagieren, erwarten sie schnelle und korrekte Antworten – und das Modell muss diese Antworten effektiv und kosteneffizient liefern. Red Hat AI Inference Server wurde entwickelt, um dem Bedarf an hochperformantem, responsivem Inferencing in großem Maßstab gerecht zu werden und dabei die Ressourcenanforderungen gering zu halten. Er stellt einen gemeinsamen Inference-Layer für beliebige Modelle bereit, die auf beliebigen Beschleunigern in beliebigen Umgebungen laufen können.“

(ID:50433078)

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung