Die 3. Phase der KI-Entwicklung: Von generativer zu interaktiver KI, die auch Handlungen ausführen kann. / Illu: DALL-E, prompted by spu

Fokus AI: Wenn KI vom Reden ins Handeln kommt

Von der generativen zu „interaktiven“ KI: Bald sollen KI-Systeme wie ChatGPT nicht nur Texte liefern, sondern als Assistenten auch Aufgaben liefern können. Dazu müssen sie lernen, Werkzeuge zu bedienen. ChatGPT macht mit der Integration der Bild-KI DALL-E und Plug-Ins schon mal den Anfang. 

Genug gequasselt, es wird Zeit Nägel mit Köpfen zu machen. Seit ChatGPT vor 10 Monaten das Licht der breiteren Öffentlichkeit erblickte wurde viel gechattet – von Liebesgedichten, Textentwürfen für Autoren und Social-Media-Texten bis zu Schulaufgaben und Seminararbeiten, die Lehrpersonen in ernsthafte Zweifel stürzte. ChatGPT kann für uns lange Aufsätze verfassen, lange Texte kurz fassen oder aus einem PDF kopierte Blutwerte interpretieren. Aber es scheitert daran simple Fragen nach aktuellen Entwicklungen zu beantworten. „Es tut mir leid, aber mein letzter Trainingsdatensatz endet im Januar 2022“ ist die karge Antwort der sonst so gesprächigen AI zu aktuellen Themen.

Das ist nicht verwunderlich, da ChatGPT ein sogenanntes „Large Language Model“ (LLM) ist, also sein „Wissen“ aus einer unglaublich riesigen Textmenge schöpft, mit der es zum Zeitpunkt X trainiert wurde. Es kann jedoch bisher nicht einfach im Internet nachschauen und die Nachrichten von gestern einbeziehen. Es ist auch sonst vorläufig noch recht begrenzt in seinem Aktionsradius, kann zum Beispiel nicht mit Excel arbeiten oder Information aus einer Videodatei zusammenfassen.

Die Ära des Chattens beginnt jetzt dem Handeln zu weichen: ChatGPT wartet mit neuen Funktionen auf. Dazu gehört die direkte Verbindung mit DALL-E, der bildschöpfenden KI die gleichfalls von OpenAI entwickelt wurde. Ein kleiner Schritt für User, aber offenbar ein großer Schritt für das generative KI-System. 

ChatGPT mit einem App-Shop neue Tricks beibringen

Bisher konnte man ChatGPT dazu nutzen, die notwendigen „Prompts“ – Anweisungen für ein KI-System — für die Erstellung von Bilddateien mit DALL-E zu verfeinern, um bessere Bildergebnisse zu erhalten. Aber es brauchte das Copy-Paste des Users, um von der einen zur anderen KI zu gelangen. Jetzt passiert dies innerhalb eines Vorgangs, ein Zahl-Abonnement für GPT Plus vorausgesetzt. 

Plug-Ins, kleine Zusatzprogramme, zielen gleichfalls darauf ab, ChatGPT neue Tricks zu lernen. Eine Spezies dieser noch jungen Entwicklung beschäftigt sich damit, die Welt von PDF-Dateien zu erschließen. AskYourPDF beispielsweise kann (lange) PDF-Dokumente „lesen“ und für User Zusammenfassungen erstellen oder konkrete Fragen aus dem PDF beantworten. Dazu benötigt es entweder einen Weblink oder den Upload der PDF-Datei.

Schrittweise werden sich so KI-Systeme zu echten Assistenten entwickeln. So gehören unter anderem der Travel-Website Expedia sowie Open Table, das Reservierungssystem für Restaurants, zu den frühen Plug-In-Entwicklern und können bald ihre Information zu Reisen und Gastro-Reservierungen über ChatGPT bereitstellen. Noch sind dies Beta-Programme, gedacht um Erfahrungen aus der „echten Welt“ zu sammeln. Jedoch können wir erwarten, dass in nicht allzu ferner Zukunft Routineaufgaben wie Terminvereinbarungen oder Flugbuchungen mit Hilfe von KI-Assistenten erledigt werden können.

Davon sind heutige Systeme weit entfernt. Mustafa Suleyman, ein Mitgründer der inzwischen von Google übernommenen britischen KI-Firma DeepMind, sieht darum generative KI-Systeme nur als eine weitere Stufe hin zu „interaktiver KI“ an. Darunter versteht er Bots, die Aufgaben erledigen können, indem sie auf andere Software ebenso wie auf den Input anderer Menschen zurückgreifen können. 

Die 3. Phase: Von generativer zur interaktiver Künstlicher Intelligenz

AI, erklärt Suleyman in einem Interview mit dem Magazin WIRED, habe sich in drei Phasen entwickelt. In der ersten Phase sei es um Klassifikation gegangen, in der KI-System durch maschinelles Lernen die unterschiedlichen Arten von Input-Daten wie Bilder, Video oder Sprache klassifizieren und analysieren lernten. Die jetzige, zweite Phase der generativen KI kann diese Input-Daten zur Produktion neuer Daten verwenden.

„Die dritte Stufe der KI-Entwicklung wird eine interaktive Phase sein. Ich wette, dass dies das künftige Interface von Computern ist: Statt auf Knöpfe zu klicken und zu tippen spricht man mit der KI. Und diese KI kann dann auf Basis eines vorgegebenen Ziels auch tatsächlich handeln und die dafür nötigen Werkzeuge verwenden“, sagt Suleyman. Das will der KI-Forscher mit seiner eigenen KI umsetzen, Pi.ai.

Um dies am Beispiel einer Flugbuchung zu verdeutlichen: Um diesen Auftrag erfüllen zu können, muss ein KI-Assistent selbstständig in Airline-Datenbanken recherchieren können, allenfalls über E-Mail von Service-Centern zusätzliche Information einholen, dem Auftraggeber Vorschläge machen, letztlich eine Buchung vornehmen und dabei auf Kreditkarteninformation zurückgreifen.  

Allerdings müssen die Möglichkeiten solcher interaktiver KI sorgfältig von Menschen kontrolliert und begrenzt werden, warnt Suleyman. Besonders kritisch sei die Fähigkeit zur Selbstverbesserung von KI: „Sie wollen doch nicht, dass ihre kleine KI einfach hergeht und einen Update an ihrem eigenen Code vornimmt, ohne dass Sie dies kontrollieren.“ Darum sei staatliche Regulierung für die weitere Entwicklung von KI unerlässlich, ist Suleyman überzeugt. „Derzeit sind alle panisch, dass eine Regulierung nicht möglich ist. Aber das ist Unsinn, wie bei anderen erfolgreich regulierten Bereichen wird dies auch bei KI möglich sein.“

Illustration: DALL-E, prompted by spu

Dieser Beitrag erschien ursprünglich im AT&S Blog.

Published by