None

Microsoft stellt multimodale KI vor

Microsoft Research präsentiert Magma, das visuelle und sprachliche Intelligenz für interaktive Aufgaben kombinieren können soll.
shutterstock – Frame Stock Footage



Microsoft Research hat mit Magma ein neues integriertes KI-Grundmodell vorgestellt. Die multimodale Künstliche Intelligenz kombiniert laut Hersteller visuelle und sprachliche Verarbeitung von Daten und sei in der Lage, Software-Schnittstellen und Robotersysteme zu steuern.



Der Name steht laut Microsoft Magma-Forscher Jianwei Yang für „M(ultimodal) Ag(entic) M(odel) at Microsoft Rese)A(rch)“. Dies stellte der Forscher auf dem Portal Hacker News klar, da es bereits eine bestehende Matrix-Algebra-Bibliothek mit dem gleichen Namen gibt. Es könnte sonst bei technischen Diskussionen Verwechslungen geben.



Microsofts neues multimodales KI-Modell



Microsoft behauptet, dass Magma das erste KI-Modell sei, das nicht nur multimodale Daten wie Text, Bilder und Videos verarbeitet. Es soll auch nativ wie ein agentisches System auf diese Daten reagieren können, sei es beim Navigieren auf einer Benutzeroberfläche oder beim Manipulieren physischer Objekte zum Beispiel durch Roboterarme.



Das Projekt basiert auf einer Zusammenarbeit zwischen Forschern von Microsoft, dem Korea Advanced Institute of Science & Technology (KAIST), der University of Maryland, der University of Wisconsin-Madison und der University of Washington.



Es gibt bereits andere große sprachmodellbasierte Robotikprojekte wie PALM-E und RT-2 von Google oder ChatGPT for Robotics von Microsoft, die LLMs für eine Schnittstelle verwenden. Im Gegensatz zu vielen dieser multimodalen KI-Systemen, die separate Modelle für die Wahrnehmung und Steuerung erfordern, integriert Magma diese Fähigkeiten in einem einzigen Grundmodell.



Dies könnte einen bedeutenden Schritt in der Entwicklung einer universell einsetzbaren multimodalen KI bedeuten, die sowohl in realen als auch in digitalen Räumen interaktiv arbeiten kann.



KI mit Planungs- und Handlungskompetenz



Laut Microsoft kann Magma Ziele verstehen, Pläne erstellen und Aktionen ausführen, indem es Wissen aus visuellen und sprachlichen Daten überträgt. Das Modell kombiniere sowohl verbale, räumliche als auch zeitliche Intelligenz, um komplexe Aufgaben zu bewältigen. Hierdurch sei es in der Lage nicht nur Wahrnehmung, sondern auch Planung und Handlungsausführung zu beherrschen, so der Techriese. Es nutzt Trainingsdaten aus Bildern, Videos, Robotik und UI-Interaktionen, um als multimodaler Agent zu agieren.



Zwei Schlüsseltechnologien sollen dies ermöglichen:




Set-of-Mark, das interaktive Objekte identifiziert, und



Trace-of-Mark, das Bewegungsmuster aus Videos lernt.




Damit könne Magma beispielsweise auf digitalen Benutzeroberflächen navigieren oder Roboterarme steuern, so Microsoft.



Besser als GPT-4V, aber hinter LLaVA-Next



Magma-8B liefert ersten Tests zufolge offenbar gute Ergebnisse in Benchmarks. Das Modell übertrifft zum Beispiel GPT-4V im VQAv2-Benchmark mit 80,0 Punkten, bleibt jedoch hinter LLaVA-Next zurück. Mit einem POPE-Ergebnis von 87,4 erzielt es das beste Ergebnis im Vergleich und schlägt OpenVLA bei Robotermanipulationsaufgaben.



Allerdings sind KI-Benchmarks oft noch nicht wissenschaftlich validiert, und eine unabhängige Überprüfung wird erst nach der Veröffentlichung des Codes möglich sein.



Magma und seine technischen Grenzen



Magma stößt insbesondere bei komplexen Entscheidungsfindungen mit vielen ineinander verschränkten Schritten an technische Grenzen. Microsoft arbeitet indes bereits an weiteren Verbesserungen und plant den Trainings- und Inferenzcode von Magma auf GitHub zu veröffentlichen, auch um externe Forschung zu fördern.



Dadurch könnte Magma KI-Assistenten in die Lage versetzen, Software autonom zu bedienen und reale Aufgaben zu übernehmen, lautet das Ziel der Microsoft-Forscher.