Sprachmodelle in der Softwareentwicklung

Natural Language Processing in Theorie und Praxis Sprachmodelle in der Softwareentwicklung

05.09.2022 Ein Gastbeitrag von Marvin Forstreuter

Anbieter zum Thema

adesso SE

Sangfor Technologies

Logo_WatchGuard_Color_Vector_HighRes.jpg ()

WatchGuard Technologies GmbH

mibeca GmbH – Mike Bergmann Akademie

Die maschinelle Sprachverarbeitung, auch Natural Language Processing oder kurz NLP genannt, erlaubt nicht nur smarte Übersetzungs-Tools. Auch Entwickler profitieren im Arbeitsalltag von ihr. Aber wie genau funktioniert das?

Wortvorhersage. Ein Sprachmodell ist eine Wahrscheinlichkeitsverteilung für Wortfolgen.(Bild: VIT) — Wortvorhersage. Ein Sprachmodell ist eine Wahrscheinlichkeitsverteilung für Wortfolgen.
(Bild: VIT)

Was ist ein Sprachmodell?

Ein Sprachmodell ist eine Repräsentation der Struktur einer Sprache. Unter einer Sprachstruktur ist hier die Art und Weise zu verstehen, wie die grammatischen und lexikalischen Einheiten, die eine Sprache bilden, organisiert sind und die Regeln, nach denen sie funktioniert. Sprachstrukturen können z. B. Wortfolgewahrscheinlichkeiten oder syntaktische Beziehungen sein.

Sprachmodelle sind in der Computerlinguistik essenziell, da sich die natürliche Sprache nicht wie formale Sprachen vollständig definieren lässt. In der Programmiersprache „C“ ist die Benutzung der Sprache durch die vorgegebene Grammatik eindeutig geregelt. Das ist möglich, da das Vokabular (der Befehlssatz) klein ist und selten Änderungen unterliegt.

Die natürliche Sprache ist anders aufgebaut, sie ist dynamisch, das heißt, das verwendete Vokabular wächst stetig, Wörter verlieren oder ändern ihre Bedeutung. Eine vollständige formale Definition der Sprache ist daher nicht oder nur temporär möglich (und das nur mit enormem Aufwand). Mithilfe heuristischer Verfahren lässt sich jedoch ein Sprachmodell erstellen, in dem Beispieldaten der Sprache analysiert und daraus Rückschlüsse über die inhärente Struktur der Sprache gezogen werden.

Wie funktioniert es?

Ein Sprachmodell ist grob gesagt das Verständnis, das ein Computer über die menschliche Sprache entwickelt hat. Es wird genutzt, um Wortfolgewahrscheinlichkeiten zu berechnen. Dies ist in der maschinellen Sprachverarbeitung nützlich, um kohärente und logische Sätze zu formulieren.

Grundlage ist die Annahme, dass bestimmte Wörter in einer benachbarten Wortumgebung (Wortkontext) häufiger vorkommen als in einer anderen. So ist etwa die Auftrittswahrscheinlichkeit des Verbs „schwimmen“ im Satz: „Ich gehe ...“, viel wahrscheinlicher als die des Verbs „fliegen“.

Das heißt: Um eine möglichst präzise Wortvorhersage zu treffen, muss ein Sprachmodell über ein Vokabular verfügen, in dem möglichst viele Wortumgebungen definiert sind, damit es sich an ihnen orientieren kann. Dieses Vokabular muss allerdings zuerst vom Sprachmodell „erlernt“ werden, da es unpraktikabel ist, dieses manuell zu befüllen. Dies tun Sprachmodelle, indem sie große Trainings-Korpora analysieren und so entsprechende Wahrscheinlichkeiten für bestimmte Wortumgebungen ermitteln.

Welche Arten von Sprachmodellen gibt es?

Es existieren im Wesentlichen zwei Arten von Sprachmodellen: statistische und neuronale Modelle.

Ein statistisches Sprachmodell ist das N-Gramm-Sprachmodell, es berechnet die Wahrscheinlichkeit zur Vorhersage einer Wortfolge anhand N- vorheriger Wörter (Wortvorgeschichte).

Neuronale Sprachmodelle berechnen den Wortkontext mithilfe eines Künstlichen Neuronalen Netzes auf Basis einer mathematischen Funktion, die dafür sorgt, dass ähnliche Wörter auch eine ähnliche mathematische Repräsentation haben (sog. Wortvektoren).

Letztere Modelle erzeugen deutlich bessere Wortvorhersagen als erstere, allerdings ist das Training solcher neuronalen Sprachmodelle auch deutlich aufwendiger.

Wird das Sprachmodell nicht aus einem Korpus von Texten der natürlichen Sprache erstellt, sondern aus Programmcodes, lassen sich sogar die Entwicklungs- und Wartungsprozesse von Software beschleunigen und die Softwarequalität insgesamt verbessern.

Unterstützung beim Code-Refactoring

Forscher aus der Schweiz (Bielik et al. 2016) haben gezeigt, dass sie mit ihrem Sprachmodell in der Lage waren, Muster zu erkennen, die mit schadhaften Verhalten (malicious programm behavior) oder Code-Smells zusammenhängen. Als Code-Smell wird im Allgemeinen ein funktionierender, aber schlecht strukturierter Code bezeichnet.

Solche Codeabschnitte können auf ein tieferliegendes Problem in der Programmierung hindeuten und legen daher eine Überarbeitung der „übelriechenden Codeabschnitte“ nahe (Code Refactoring). Das können zum Beispiel Codeabschnitte sein, die unnötig kompliziert gestaltet wurden und daher ein Erweitern bzw. Warten erschweren.

Wie der Name schon andeutet, lassen sich solche Abschnitte schnell ausfindig machen. In großen Softwareprojekten kann dies jedoch zu einem enormen zeitlichen Aufwand führen. Ein Sprachmodell, das fähig ist, solche Muster zu erkennen und den Entwicklern bereits eine Vorauswahl von potenziellen zu überarbeitenden Programmdateien zu liefern, kann die Überarbeitungszeit erheblich verkürzen.

Automatische Bug Detection

Ein anderes Forscherteam aus China (Xuan Huo und Ming Li, 2017 ) setzte Sprachmodelle ein, um Programmfehler automatisiert zu entdecken. Sie sind damit führend auf dem Gebiet der automatischen Bug Detection. Sie erreichten dies, indem sie ihr Sprachmodell mit einer großen Anzahl Bug-Reports trainierten. Das so erstellte Sprachmodell war anschließend in der Lage, fehlerhafte Programmdateien anhand von eingereichten Bug-Reports zu ermitteln.

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Bug-Reports sind Berichte von Endnutzern, die Beschreibungen von Situationen enthalten, in denen das Programm, mit denen sie arbeiten, nicht wie erwartet funktioniert. Sie fungieren als Schnittstelle zwischen Anwender und Softwareentwickler, damit der Entwickler über das berichtete Fehlverhalten Bescheid weiß und es beheben kann.

Das Problem bei diesem Verfahren ist, dass die Entwickler bei großen Software-Systemen regelrecht von Anfragen überschüttet werden und somit vielen Anfragen nicht zeitgerecht nachkommen können. Zumal die schwierigste Aufgabe das Finden, Replizieren und Beheben des Fehlers noch vor ihnen steht.

Softwareentwicklung

Die bisherigen vorgestellten Ansätze in der KI-gestützten Softwareentwicklung waren nur sehr fach- bzw. aufgabenspezifisch. Die Arbeit von zwei Forschern der Universität Kiel (Sousa und Hasselbring, 2021) zeigt, dass sich die allgemeine Softwarequalität mithilfe eines modernen neuronalen Sprachmodells verbessern lässt.

Dabei verwendeten sie das Sprachmodell „BERT“ und trainierten es mithilfe einer speziellen Pipeline zur Datenerfassung auf ein generelles Verständnis der Programmiersprache Java. Damit war es erstmals möglich, die syntaktischen Features einer Programmiersprache in die Textverarbeitung einzubeziehen. Vorherige Arbeiten anderer Forscher betrachteten den Programmcode als bloßen Text und vernachlässigten die programmiersprachlichen Eigenheiten.

Die vorgestellte Pipeline kann auch dazu verwendet werden, ein BERT-Sprachmodell für eine andere Programmiersprache zu erzeugen. Mit diesem Vorgehen ist es erstmals möglich, mit einem einzigen Sprachmodell mehrere Aspekte der Softwarequalität anzugehen und somit eine gemeinsame Basis für zukünftige KI-Unterstützung Softwareentwicklung zu erschaffen.

Fazit

NLP ist längst nicht mehr die erfolglose Technik, die bis vor wenigen Jahren noch nicht mal in der Lage war, Telefonkontakte per Spracheingabe vernünftig auszuwählen. Die Beispiele haben gezeigt, dass Sprachmodelle als Werkzeug der maschinellen Sprachverarbeitung tatsächlich helfen können – Künstliche Intelligenz ist dabei der Schlüsselfaktor.

Marvin Forstreuter(Bild: adesso SE) — Marvin Forstreuter
(Bild: adesso SE)

Wie die Zusammenarbeit aussehen könnte, zeigt seit neuestem auch das Projekt „Copilot“ von GitHub, das Entwicklern Code-Vorschläge unterbreitet. Es generiert dabei ganze Codeblöcke auf Basis eines neuronalen Sprachmodells. Wie die Zusammenarbeit ausgeht, ist noch ungewiss, aber eins ist sicher: Es bleibt spannend!

* Marvin Forstreuter ist Trainee in der Line of Business Insurance bei adesso SE. Sein Schwerpunkt ist die Softwareentwicklung mit Java. Darüber hinaus befasst er sich mit Themen rund um die Bereiche maschinelle Sprachverarbeitung und künstliche Intelligenz.

(ID:48547933)