- Advertisement -spot_img
HomeRequirements EngineeringKI wird den Requirements Engineer nicht ersetzen

KI wird den Requirements Engineer nicht ersetzen

- Advertisement -spot_img

..aber effizienter machen und neue Fähigkeiten verlangen

Künstliche Intelligenz (KI) verändert bereits heute die Art und Weise, wie wir arbeiten. Dabei wird sie –auch im Requirements Engineering – zu einem unverzichtbaren Werkzeug, das Effizienz steigert, kreative Denkanstöße gibt und neue Fähigkeiten erfordert.

In diesem Artikel beleuchten wir, wie Large Language Models (LLMs) die Arbeit von Requirements Engineers bereichern, welche Methoden wie die Chain-of-Thought-Technik dabei helfen und welche Herausforderungen – von Datenschutz bis EU AI Act – im Umgang mit KI-basierten Tools zu bewältigen sind. Entdeckt, wie KI die Disziplin des Requirements Engineering neu definiert und welche Kompetenzen in Zukunft gefragt sein werden.

Was sind LLMs?

Wenn man heutzutage von KI spricht, meint man in den meisten Fällen LLMs – Large Language Models. Diese Modelle sind Teil der „Generative AI“, die Text verarbeiten und anschließend neuen Text erstellen können. Dabei gibt das Modell den Text aus, der statistisch gesehen am wahrscheinlichsten als nächstes auftritt.

Natürlich passieren auf diesem Weg noch weitere Dinge. Mechanismen wie Transformer und „Self Attention“ sorgen dafür, dass die Sätze Sinn ergeben und Zusammenhänge verstanden werden können. Für die Verwendung von LLMs ist dieses Verständnis aber nicht notwendig.
Warum funktionieren LLMs überhaupt? Eine Sprache ist ein – mathematisch gesehen – sehr simples Konstrukt. Für uns Menschen ist es natürlich nicht immer leicht zu erfassen, vor allem wenn man Fremdsprachen lernen muss. Die Komplexität des Konzepts „Sprache“ ist nicht besonders hoch, Wörter können durch Vektoren „sehr einfach“ beschrieben werden. Natürlich keine 3D-Vektoren, wie man sie aus der Schule kennt, sondern hochdimensionale mathematische Daten, die mit Hilfe von Computern leicht be- und verarbeitet werden können. Wenn man nun also das Wort „König“ betrachtet, und das Wort „Königin“, ist das mathematisch und vereinfacht beschrieben, wie das Wort „König“ + „Frau“.

Innerhalb eines Satzes wird in diesen Vektor noch mehr eingerechnet, wie z. B. die Wörter davor und danach, und auf einmal kann man über mathematische Näherungen herausfinden, dass „Der König war aufgebracht“ ähnliches aussagt wie „Der Mann ist wütend“. Über solche Ähnlichkeiten funktioniert es, dass eine Maschine sehr gut darin ist, Stimmungen aus Texten herauszulesen, aber auch Sätze umzuformulieren.

Welches Modell ist am besten?

Das bekannteste Modell für Konversationen ist GPT von OpenAI. Aber es gibt noch einige andere: Claude von Anthropic, Google Gemini, Mixtral von Mistral, DeepSeek. Mixtral kommt aus Frankreich und wird in Europa gehostet. In einer kürzlich von einem der Autoren betreuten Bachelorarbeit wurden die Modelle GPT o1-mini, Gemini 1.5 Flash, Claude Haiko (das kleinere Modell von Anthropic) und Mistral Small verglichen. Die Ergebnisse vom jeweils größeren Modell sind dabei bis auf einzelne Ausnahmen denen von kleineren gegenüber bevorzugt worden. Das größte Modell in dieser Reihenfolge ist o1 mini, mit Betriebskosten, die ca. 10x so groß sind wie andere Modelle, beispielsweise 4o mini oder Claude 3 Haiku. Überraschenderweise konnte aber das Anthropic-Modell Haiku insgesamt fast gleich viele Punkte wie o1 mini erzielen – nur Gemini 1.5 Flash und Mistral Small wurden deutlich schlechter bewertet. Modelle wie o1 oder gar o3 verbrauchen ein Vielfaches an Ressourcen und Geld, liefern aber auch noch bessere Ergebnisse.

Wie ist das mit dem Datenschutz…?
Es ist möglich, die Modelle von Europäischen Hostern zu beziehen, wodurch die Daten Europa nicht verlassen. Die einfachsten Methoden sind eigene europäische Inferenz-Endpunkte bei Microsoft Azure/AWS/Google Cloud oder Firmen wie nlpcloud, Mixtral. Das geht nach dem sogenannten “Pay as you go” - Prinzip und ist deutlich günstiger als ein fixes Abo für 200€ pro Monat pro Mitarbeiter. Man kann die Modelle auch selbst hosten: Die großen Modelle (LLama 3.3 70b, DeepSeek R1, Falcon 3, aber auch Phi-4 von Microsoft) sind frei verfügbar und sind auf einem Linux-PC mit Grafikkarte in sehr vernünftiger Zeit einrichtbar. Das wird durch die neuen, dafür gebauten Computer wie Nvidia Project Digits, die Models bis zu 200b laden können, noch einfacher werden.

Was ist die Chain-of-Thought – Methode?

Mit der expliziten Deklarierung von Zwischenschritten kann ein LLM komplexere Probleme besser lösen. Für ein LLM ist die Umsetzung von Aufgaben schwierig, die mehrere Schritte benötigen. Mit dieser Methode kann man das Modell anleiten, die Aufgabe schrittweise abzuarbeiten. Man kennt diese Tendenz von LLMs, sich dabei an Muster zu halten, von Rätseln wie das bekannte “Schaf-Wolf-Schäfer”-Problem. Dazu ein aktuelles Beispiel von ChatGPT:

Natürlich ist es nicht notwendig, dass der Schäfer alleine zurückfährt, aber das Modell hat das Muster vielfach im Training gesehen – und so folgt es dem, das ihm beigebracht wurde. Denken hat mit dem, was LLMs tun, noch nichts zu tun. Dieses Muster-Denken kann man aber auch sinnvoll nutzen: Man bringt dem Modell so ein Muster bei. Beispielsweise kann man dem Modell beibringen, wie man rechnet.

Für aktuelle Modelle müsste das Beispiel schon sehr kompliziert sein, daher soll hier das vorige Modell GPT-3.5 als Beispiel herhalten.

Die Anfrage: Hans hat 3 Äpfel. Er bekommt 10 Äpfel geschenkt und schenkt selbst 2 her. Wie viele Äpfel hat Hans?” wurde oft falsch beantwortet. Wenn man dem Modell aber einen expliziten Rechenvorgang als Beispiel gibt (Few-Shot-CoT), so wie: “Frage: Sepp hat 12 Birnen. Sepp bekommt 5 Birnen geschenkt (12+5 = 17). Er schenkt 2 her (17-2=15). Wie viele Birnen hat Sepp? Antwort: 15.
Frage: Hans hat 3 Äpfel. Er bekommt 10 Äpfel geschenkt und schenkt selbst 2 her. Wie viele Äpfel hat Hans?

Auf einmal ist es in der Lage, diesen gezeigten Rechenweg selbst korrekt anzuwenden. Das faszinierende an Sprachmodellen und deren Rechenart ist, dass auch das eine komplett statistische Sache ist. Wenn man GPT 4o fragt, wie viel 87654*789 ist, wäre 69.159.006 die richtige Antwort – GPT gibt aber 69.126.066 aus*. Das ist zwar beeindruckend, aber dennoch falsch. Der Grund hierfür ist nicht, weil das Modell tatsächlich rechnet, sondern weil das korrekte Ergebnis die statistisch wahrscheinlichste Antwort ist.

* Nachdem OpenAI dieses Problem kennt, versucht GPT solche Teile in Tools auszulagern und benutzt beispielsweise selbst python um solche Berechnungen anzustellen (!).

Was hilft uns das im Requirements Engineering?

Diese Vorgehensweise können wir auf unsere Requirements anwenden. Die Anweisung “Schreibe ein Requirement zu folgendem Fließtext.” kann zu nicht zufriedenstellenden Ergebnissen führen. “Schreibe ein Requirement zu folgendem Fließtext. Hier ist ein Beispiel eines Requirements aus einer anderen Kategorie: <Requirement>. Halte dich an diese Formulierung.” wird ein deutlich besseres Ergebnis liefern.

LLMs wissen, was Requirements Engineering ist, kennen aufgrund ihrer Trainingsdaten User Stories, INVEST-Kriterien und sogar Prinzipien, die von IREB ausgearbeitet wurden. Das Projekt, firmeninterne Richtlinien oder gar visionäre Ideen sind dem LLM aber nicht bekannt. Man kann diese Informationen aber bereitstellen und somit fließen sie in den Output ein.

Neben Verfassen von Requirements können LLMs auch z.B. eine Validierung durchführen. Der Prompt “Prüfe folgende Anforderungen auf die Kriterien: Testbarkeit und Eindeutigkeit. Ein Requirement gilt als testbar, wenn eine quantifizierbare Größe vorhanden ist. Ein Requirement gilt als eindeutig, wenn ein Junior Software Entwickler ohne Rückfragen das Requirement umsetzen kann.” in Kombination mit einer Tabelle der Anforderungen führt eine einfache Validierung der Anforderungen durch. Natürlich ersetzt das nicht eine Kontrolle des Ergebnisses oder die Kommunikation mit den Kollegen, aber es kann eine gute Basis bilden und viel Zeit sparen.

Ein anderes Beispiel wäre die Planung eines Elicitation Workshops, wo wir wieder die Chain-of-Thought Methode anwenden können. “Hilf mir einen Elicitation Workshop für folgendes Projekt zu planen. <Projektinformationen> Erkläre mir jeden Schritt und welche Vorbereitungen dazu notwendig sind.” Liefert die Grundlage für die Konversation, wo man das LLM benutzen kann um weitere Details zu planen und auszuformulieren.

Ideen sammeln oder Akzeptanzkriterien verfassen sind weitere Anwendungen für LLMs, wo man in der Konversation mit zielgerichteten Anfragen sehr guten Input für die weitere Arbeit des Requirements Engineers erstellen lassen kann.

Wie wird das in der Zukunft sein?

Multimodale Modelle können Sprache und Bilder genauso wie Text verarbeiten und erstellen. Das führt natürlich zu angenehmen Eingabemöglichkeiten, da man seine Anforderungen einfach diktieren kann, aber auch dazu, dass die Modelle auch Interfaces verstehen können. Einerseits werden damit schon automatisierte Tests erstellt und andererseits können vom Modell auch Beschreibungen, User Stories und Akzeptanzkriterien aus Wireframes extrahiert werden. In die Gegenrichtung können auch aus textuell formulierten Anforderungen bereits Prototypen eines User Interfaces oder gar teil-funktionierende Prototypen automatisch generiert werden. Auch eine fertige Liste an Anforderungen direkt nach einem aufgezeichneten Brainstorming werden nicht allzu ferner Zukunft durchaus möglich sein.

Allerdings merkt man beim Diktieren momentan noch, dass selbst wenn der Kontext bekannt ist, Wörter einfach falsch verstanden werden (“die wie Trine” statt “die Vitrine”) – auch mit Hinweisen, was für Wörter erwartet werden. Es lohnt sich, die Entwicklungen der Modelle zu verfolgen – wöchentlich werden neue Meilensteine erreicht und es entstehen neue Anwendungen für künstliche Intelligenz. Ein Requirements Engineer, der sich der Errungenschaften bewusst ist, bleibt nicht nur am Stand der Technik, sondern kann die Qualität und Effizienz seiner Arbeit erheblich steigern.

Verbietet der EU AI Act LLMs?

Der EU AI Act verbietet LLMs nicht, sondern legt unter anderem Wert auf die KI-Kompetenz, in diesem Fall auch für uns als Requirements Engineers, wenn wir KI verwenden. Dieser Artikel fordert eine “KI-Kompetenz” von jedem, der KI Modelle betreibt, aber eben auch von denen, der sie benutzt. Ab Februar 2025 ist ein Nachweis dieser Kompetenz erforderlich, der sich nicht nur mit der Verwendung, sondern auch mit den Limits und den Risiken beschäftigt. Unternehmen müssen sicherstellen, dass ihre Mitarbeiter entsprechend geschult sind, um KI-basierte Tools gefahrlos und effektiv einsetzen können. Neben der Einschulung darf auch die Fortbildung nicht vernachlässigt werden. Aus unserer Sicht lässt sich sagen: Solange man einer LLM und ihren Ergebnissen einfach überhaupt nicht traut, ist man auf der sicheren Seite.

Was ist mit dem neuesten Modell o3, ist das nicht schon klüger als viele Menschen?

In einigen Benchmarks schneidet das neue Modell schon über dem durchschnittlichen Menschen ab. Um diese Frage zu beantworten, muss man sich zuerst ansehen, wie das neue Modell funktioniert. Das Modell o3 ist wie der Vorgänger o1 auf einmal viel Erfolgreicher in der Beantwortung von Fragen, im Lösen von Rätseln, beim Herausfinden von fehlenden Informationen.

Diese Modelle sind sogenannte “Chain of Thought” – Modelle und benutzen “simulated reasoning” sowie “private chain of thought”. Man könnte also sagen, das Modell “coacht sich selbst”, anstatt nur den statistisch wahrscheinlichsten Output zu generieren. Wenn man ein LLM nimmt, den Output zu einem anderen LLM kopiert, fragt was das andere Modell besser machen könnte, und dieses Feedback wieder in das erste LLM füttert, kommt man nach ein paar Iterationen auf ähnliche Ergebnisse – das ist ein großer Teil der “Magie” der neuen Modelle. Der Benutzer bekommt davon aber nichts mit –  der Text, der vom Modell ausgegeben wird, wird dem Benutzer erst angezeigt, wenn es mit seinem internen Dialog zufrieden ist. Erst dann wird das verfeinerte Ergebnis präsentiert. Bei diesem internen Dialog wird das Modell auch angehalten, Chain-Of-Thought – Gedanken zu verfolgen. Das ist ähnlich wie wenn man dem LLM in einem Prompt sagt: “Denke über deine Schritte nach und mache erst einen Plan, wie du es umsetzen könntest. Wenn du den Plan hast, folge ihm Schritt für Schritt.”

Dadurch ergibt sich auch (momentan) ein hoher Ressourcenverbrauch bei der Ausführung von o3.

Die Kosten pro Aufgabe betragen bei Models wie GPT 4o einige Cents, und bei o3  für manche Aufgaben geht es über 1000$. Natürlich wird es noch beachtliche Effizienzsteigerungen geben, auf der Software sowie auf der Hardwareseite – es bleibt ein sehr spannend zu beobachtendes Feld.

Fazit

Texte umformulieren, auf Vollständigkeit prüfen, Ideen geben: Aufgaben, bei denen ein LLM hervorragend unterstützen kann. Momentan gilt noch: Menschen werden (selten) von LLMs selbst arbeitslos gemacht – aber Menschen die sich dem Fortschritt komplett verschließen und ihre Kompetenzen nicht erweitern, werden bald von Menschen arbeitslos gemacht, die diesen Wettbewerbsvorteil ausnutzen.


Über Simon A. T. Jiménez & Franz Zehentner

DI Simon A. T. Jiménez, MA hat Softwareentwicklung sowie Mediation, Negotiation & Conflict Management studiert und ist seit 20 Jahren mit einigen Mitarbeitern selbstständig – und hat dabei immer wieder mit schlechten Anforderungen gekämpft. Als Techniker versucht er jetzt, ein Menschen-Problem mit Software etwas zu unterstützen und hat daher mit einigen Mitstreitern die Software storywise gegründet.

DI Franz Zehentner, MEng hat Biomedical Engineering und Software Development for Embedded Devices studiert. In der Medizintechnik hat er ein Requirements Management System aufgebaut und gelernt, was es heißt, eine Anforderung zu schreiben, die in ihrem Lebenszyklus mehrfach auditiert wird. In der jetzigen Rolle als Requirements Engineer bei einem Messgerätehersteller versucht er, am Stand der Technik zu bleiben und AI Entwicklungen in die Disziplin zu integrieren.

Artikel teilen
Redaktion
Redaktion
Die SQ-Magazin Redaktion ist Ihr Ansprechpartner für alle Fragen, Anregungen und Ideen rund um das SQ-Magazin. Kontaktieren Sie uns gern unter redaktion@sq-magazin.de Wir freuen uns auf Ihre Nachricht!
- Advertisement -Certified DevOps Portfolio
Neueste Artikel
Weitere interessante Artikel
- Advertisement -spot_img
[js-disqus]