Es gibt ein Video von einem Roboter im Labor von Figure, der Kaffee zubereitet. Nicht das kind von „robotergestütztem Arm, der einem präzise vorprogrammierten Pfad folgt, um einen Keurig zu bedienen“. Das kind, bei dem du sagst „Hey, mach mir einen Kaffee“ und er versteht die Schritte — die Tasse finden, die Kaffeemaschine identifizieren, die richtigen Knöpfe drücken, dir den Kaffee bringen. Der Art von Kaffeezubereitung, die erfordert, dass man versteht, was Kaffee ist.
Wir haben seit Jahrzehnten Industrieroboter. Schweißroboter in Automobilfabriken. Pick-and-Place-Maschinen in der Elektronikfertigung. Montagearme, die dieselbe Bewegung 10.000 Mal am Tag mit sub-mikrometrischer Präzision wiederholen. Diese Roboter sind beeindruckend, aber dumm. Sie tun genau das, wofür sie programmiert wurden, und nichts anderes.
Was jetzt anders ist, ist der KI-Aspekt. Roboter lernen zu sehen, zu verstehen und sich anzupassen. Und das verändert alles, was Roboter tun können.
Die Drei Dinge, die KI den Robotern gibt
Augen, die verstehen. Die Kombination aus Computer Vision und Tiefensensoren ermöglicht es Robotern, ein 3D-Modell ihrer Umgebung in Echtzeit zu erstellen. Nicht nur „da ist ein Objekt bei den Koordinaten (3, 4, 2)“, sondern „das ist eine Kaffeetasse, sie steht aufrecht, sie ist am Rand des Tisches, und sie sieht zerbrechlich aus.“ Dieses semantische Verständnis ist es, was einen Roboter in einer unstrukturierten Umgebung wie deiner Küche nützlich macht, verglichen mit einer strukturierten Umgebung wie einem Fabrikboden.
Ein Gehirn, das plant. Hier kommen die LLM ins Spiel, und ehrlich gesagt hat es mich überrascht, wie gut das funktioniert. Googles RT-2 nimmt eine natürliche Sprach-Anweisung wie „nimm die Dose Coca-Cola und werf sie ins Recycling“ und berechnet die Motorbefehle, um das zu realisieren — selbst für Objekte und Situationen, für die es nicht spezifisch trainiert wurde. Das gleiche Sprachverständnis, das ChatGPT antreibt, erweist sich als wirklich nützlich, um Robotern zu sagen, was sie tun sollen.
Hände, die lernen. Traditionelle Roboter erfordern, dass jede Bewegung vorprogrammiert ist. KI-gestützte Roboter lernen durch Demonstration — du zeigst ihnen, wie man eine Serviette faltet, und sie verstehen das allgemeine Prinzip des Serviettenfaltens und passen es dann an Servietten unterschiedlicher Größen und Formen an. Das Mobile ALOHA-System von Stanford hat Küchendienstleistungen, Reinigung und Organisation gelernt, indem es Menschen beobachtet hat. Nicht perfekt, aber ausreichend gut, um nützlich zu sein.
Wo Roboter heute tatsächlich arbeiten
Die Lagerhäuser sind die Erfolgsgeschichte. Amazon hat mehr als 750.000 Roboter in seinen Verteilungszentren. Es sind keine humanoiden Roboter, die herumlaufen — es sind hauptsächlich flache Plattformen, die Regaleinheiten zu Mitarbeitern transportieren, sowie Roboterarme, die Artikel sortieren und verpacken. Die KI verwaltet die Navigation in einer dynamischen Umgebung, in der Tausende von Robotern und Menschen den Raum teilen. Es ist der größte Einsatz von KI-Robotik weltweit, und es funktioniert.
Die Chirurgie hat sich mehr entwickelt, als den meisten Menschen bewusst ist. Das da Vinci-Chirurgiesystem wurde in über 12 Millionen Verfahren eingesetzt. Die KI bietet Zitterschutz (stabiler als jede menschliche Hand), vergrößerte 3D-Visualisierung und Unterstützung bei der Positionierung von Instrumenten. Die Chirurgen behalten die Kontrolle — der Roboter verbessert ihre Fähigkeiten, anstatt sie zu ersetzen.
Die Landwirtschaft ist erstaunlich fortgeschritten. Es gibt Roboter, die selektiv Erdbeeren ernten — nur die reifen, die unreifen Früchte lassen sie für später stehen. Andere Roboter identifizieren und beseitigen Unkraut, ohne Herbizide zu verwenden. Die Herausforderung hier ist die Variabilität — jedes Feld ist anders, jede Pflanze ist leicht unterschiedlich, und das Licht ändert sich im Laufe des Tages. Die KI bewältigt diese Variabilität auf eine Weise, die traditionelle Programmierung einfach nicht kann.
Der Wettlauf um Humanoide
Jeder baut jetzt humanoide Roboter, und die Meinungen darüber, ob das Genie oder Überheblichkeit ist, gehen stark auseinander.
Figure 01 und 02 sind die beeindruckendsten Demonstrationen, die ich gesehen habe. Die Interaktion in natürlicher Sprache, das adaptive Verhalten und die Manipulation, die wirklich flüssig aussieht, anstatt ruckartig zu sein. Die Partnerschaft mit OpenAI bedeutet, dass die Roboter von Figure den Kontext und die Anweisungen auf eine Weise verstehen, die wirklich intelligent erscheint.
Optimus von Tesla erhält die meiste Medienberichterstattung, weil es Tesla ist. Die Fortschritte waren schneller als Kritiker erwartet hatten — die aktuellen Demonstrationen zeigen Optimus beim Gehen, beim Aufheben von Objekten und beim Ausführen einfacher Aufgaben. Ob die Zeitpläne von Elon realistisch sind, ist eine andere Frage (Spoiler: Sie sind wahrscheinlich nicht realistisch).
Atlas von Boston Dynamics ist der ursprüngliche humanoide Roboter, und die elektrische Version ist wirklich im athletischen Sinne beeindruckend. Rückwärtssalto, Parkour, dynamische Navigation um Hindernisse. Aber die Kluft zwischen „beeindruckender Demonstration“ und „nützlichem Produkt“ bleibt groß.
Meine ehrliche Meinung zu Humanoiden: Die Frage ist nicht, ob sie eines Tages funktionieren werden — das werden sie. Die Frage ist, ob eine humanoide Form der richtige Ansatz ist. Warum einen menschenförmigen Roboter bauen, um einen Geschirrspüler zu betreiben, wenn du einen besseren Geschirrspüler bauen könntest? Humanoide Roboter sind sinnvoll in Umgebungen, die für Menschen konzipiert sind (Häuser, Büros, Geschäfte). Roboter, die für spezielle Zwecke konzipiert sind, sind sinnvoll für spezifische Aufgaben (Lagerhäuser, Chirurgie, Landwirtschaft).
Die ungelösten Probleme
Die Verallgemeinerung bleibt der knifflige Punkt. Ein Roboter, der dafür trainiert wurde, Kaffee in Küche A zuzubereiten, hat Schwierigkeiten in Küche B, wo die Kaffeemaschine anders ist und die Tassen in einem anderen Schrank stehen. Menschen bewältigen das mühelos. Roboter brauchen entweder eine umfangreiche Neuschulung oder Basis-Modelle, die verallgemeinern können — und dort sind wir noch nicht.
Sicherheit rund um Menschen. Ein Lagerroboter, der mit einem Regal kollidiert, ist ärgerlich. Ein Haushaltsroboter, der ein Kleinkind anrempelt, ist inakzeptabel. Die Sicherheitsanforderungen für Roboter in der Nähe von Menschen sind um Größenordnungen höher als für Industrieroboter, und wir entwickeln noch die Standards und Technologien, um dem gerecht zu werden.
Die Kosten sind für Verbraucher prohibitiv. Figure hat keinen Preis für Verbraucher angekündigt, aber Schätzungen bringen humanoide Roboter zwischen 50.000 und 100.000 Dollar. Das ist ein Auto, kein Gerät. Robotik für Verbraucher muss in den Bereich von 5.000 bis 10.000 Dollar gelangen, um eine Massenakzeptanz zu erreichen.
Meine Prognose für die nächsten fünf Jahre
Die Roboter in Lagerhäusern und in der Logistik werden überall sein. Chirurgische Roboter werden auf weitere Arten von Verfahren ausgeweitet. Landwirtschaftliche Roboter werden auf großen Farmen alltäglich werden. Haushaltsroboter bleiben teure Neuheiten — ausreichend nützlich, um den Preis für wohlhabende frühe Anwender zu rechtfertigen, aber noch nicht ein Muss wie der Roomba.
Die Variable in der Gleichung ist, ob die Basis-Modelle für die Robotik einen Durchbruch in der Verallgemeinerung erreichen. Wenn ein Roboter eine neue Aufgabe aus einer 30-sekündigen Demonstration lernen kann, anstatt aus Stunden der Ausbildung, ändert das die Wirtschaftslage völlig. Mehrere Forschungsgruppen kommen dem näher. Die kommenden Jahre versprechen faszinierend zu werden.
🕒 Published: