Es gibt ein Video von einem Roboter im Labor von Figure, der Kaffee macht. Nicht die Art von Kaffee, bei der ein “Roboterarm präzise einem vorprogrammierten Weg folgt, um eine Keurig zu bedienen”. Sondern die Art, bei der du sagst “Hey, mach mir einen Kaffee” und er die Schritte selbst herausfindet – die Tasse finden, die Kaffeemaschine identifizieren, die richtigen Knöpfe drücken, es zu dir bringen. Die Art, Kaffee zu machen, die Verständnis dafür erfordert, was Kaffee ist.
Wir haben seit Jahrzehnten Industrieroboter. Schweißroboter in Autofabriken. Pick-and-Place-Maschinen in der Elektronikfertigung. Montagebandarme, die dieselbe Bewegung 10.000 Mal am Tag mit submillimetergenauer Präzision wiederholen. Diese Roboter sind beeindruckend, aber dumm. Sie tun genau das, wozu sie programmiert sind, und nichts anderes.
Was jetzt anders ist, ist der KI-Aspekt. Roboter lernen, zu sehen, zu verstehen und sich anzupassen. Und das verändert alles, was Roboter tun können.
Die drei Dinge, die KI Robotern gibt
Augen, die verstehen. Computer Vision kombiniert mit Tiefensensoren ermöglicht es Robotern, in Echtzeit ein 3D-Modell ihrer Umgebung zu erstellen. Nicht nur “Es gibt ein Objekt an den Koordinaten (3, 4, 2)” sondern “Das ist eine Kaffeetasse, sie ist aufrecht, sie steht am Rand des Tisches und sieht zerbrechlich aus.” Dieses semantische Verständnis macht einen Roboter in einer unstrukturierten Umgebung wie deiner Küche nützlicher als in einer strukturierten wie einer Fabrikhalle.
Ein Gehirn, das plant. Hier kommen LLMs ins Spiel, und ehrlich gesagt hat es mich überrascht, wie gut das funktioniert. Googles RT-2 nimmt eine natürliche Sprach-Anweisung wie “Nimm die Dose Cola und pack sie ins Recycling” und ermittelt die Motorbefehle, um das umzusetzen – einschließlich für Objekte und Situationen, auf die er nicht ausdrücklich trainiert wurde. Das gleiche Sprachverständnis, das ChatGPT antreibt, erweist sich als äußerst nützlich, um Robotern zu sagen, was sie tun sollen.
Hände, die lernen. Traditionelle Roboter benötigen jede Bewegung vorprogrammiert. KI-gestützte Roboter lernen durch Demonstration – du zeigst ihnen, wie man ein Handtuch faltet, und sie begreifen das allgemeine Prinzip des Handtuchfaltens und passen es dann an Handtücher unterschiedlicher Größen und Formen an. Das Mobile ALOHA-System von Stanford hat Kochen, Putzen und Organisieren von Menschen gelernt. Nicht perfekt, aber gut genug, um nützlich zu sein.
Wo Roboter heute tatsächlich arbeiten
Lagerhäuser sind die Erfolgsgeschichte. Amazon hat über 750.000 Roboter in seinen Versandzentren. Das sind keine humanoiden Roboter, die herumlaufen – sie sind größtenteils flache Plattformen, die Regale zu menschlichen Pickern transportieren, sowie Roboterarme, die Gegenstände sortieren und verpacken. Die KI übernimmt die Navigation in einer dynamischen Umgebung, in der Tausende von Robotern und Menschen den Raum teilen. Es ist die größte Einführung von KI-robotik weltweit, und es funktioniert.
Die Chirurgie ist weiter fortgeschritten, als die meisten Menschen realisieren. Das da Vinci-Operationssystem wurde in über 12 Millionen Verfahren eingesetzt. KI bietet Zitterschutz (stabiler als jede menschliche Hand), 3D-vergrößerte Visualisierung und Unterstützung bei der Instrumentenpositionierung. Die Chirurgen haben weiterhin die Kontrolle – der Roboter verbessert ihre Fähigkeiten, anstatt sie zu ersetzen.
Die Landwirtschaft ist überraschend fortgeschritten. Es gibt Roboter, die selektiv Erdbeeren pflücken – nur die reifen, während sie unreife Früchte für später stehen lassen. Andere Roboter identifizieren und entfernen Unkraut ohne Herbizide. Die Herausforderung hier ist die Variabilität – jedes Feld ist anders, jede Pflanze ist etwas unterschiedlich, und das Licht verändert sich im Laufe des Tages. KI bewältigt diese Variabilität auf Weisen, die traditionelle Programmierung einfach nicht kann.
Das humanoide Rennen
Jetzt bauen alle humanoide Roboter, und die Meinungen darüber, ob das genial oder Arroganz ist, gehen weit auseinander.
Figure 01 und 02 sind die beeindruckendsten Demos, die ich gesehen habe. Interaktion in natürlicher Sprache, adaptives Verhalten und Manipulation, die tatsächlich flüssig aussieht und nicht ruckartig. Die Partnerschaft mit OpenAI bedeutet, dass die Roboter von Figure Kontext und Anweisungen verstehen, auf eine Weise, die wirklich intelligent wirkt.
Teslas Optimus bekommt die meiste Presse, weil es Tesla ist. Der Fortschritt war schneller als Kritiker erwartet hatten – aktuelle Demos zeigen, dass Optimus geht, Objekte aufnimmt und einfache Aufgaben erledigt. Ob Elons Zeitplanversprechen realistisch sind, ist eine separate Frage (Spoiler: Wahrscheinlich nicht).
Atlas von Boston Dynamics ist der ursprüngliche humanoide Roboter, und die elektrische Version ist athletisch wirklich beeindruckend. Rückwärtssaltos, Parkour, dynamische Hindernisbewältigung. Aber die Kluft zwischen “beeindruckender Demo” und “nützliches Produkt” bleibt groß.
Mein ehrlicher Eindruck zu Humanoiden: Die Frage ist nicht, ob sie irgendwann funktionieren werden – sie werden. Die Frage ist, ob ein humanoides Formfaktor der richtige Ansatz ist. Warum einen menschenförmigen Roboter bauen, um eine Spülmaschine zu bedienen, wenn man eine bessere Spülmaschine bauen könnte? Humanoide Roboter sind sinnvoll in Umgebungen, die für Menschen gestaltet sind (Haushalte, Büros, Geschäfte). Zweckgebundene Roboter sind für spezifische Aufgaben sinnvoll (Lagerhäuser, Chirurgie, Landwirtschaft).
Die ungelösten Probleme
Die Verallgemeinerung bleibt das schwierige Problem. Ein Roboter, der für die Kaffeezubereitung in Küche A trainiert wurde, hat Probleme in Küche B, wo die Kaffeemaschine anders ist und die Tassen in einem anderen Schrank stehen. Menschen schaffen das mühelos. Roboter benötigen entweder umfangreiche Nachschulungen oder Fundamentalmuster, die verallgemeinern können – und wir sind noch nicht ganz dort.
Sicherheit im Umgang mit Menschen. Ein Lagerroboter, der gegen ein Regal stößt, ist lästig. Ein Haushaltsroboter, der gegen ein Kleinkind stößt, ist inakzeptabel. Die Sicherheitsanforderungen für menschennahe Roboter sind um ein Vielfaches höher als für Industrieroboter, und wir entwickeln immer noch die Standards und Technologien, um diese zu erfüllen.
Die Kosten sind für Verbraucher prohibitiv. Figure hat keine Verbraucherpreise bekannt gegeben, aber Schätzungen gehen von humanoiden Robotern aus, die zunächst bei 50.000-100.000 Dollar kosten. Das ist ein Auto, kein Haushaltsgerät. Verbraucherrobotik muss in den Bereich von 5.000-10.000 Dollar kommen, um eine breite Akzeptanz zu erreichen.
Meine Fünf-Jahres-Vorhersage
Roboter für Lager und Logistik werden überall sein. Chirurgenroboter werden auf mehr Verfahren ausgeweitet. Landwirtschaftsroboter werden auf großen Höfen alltäglich werden. Haushaltsroboter werden weiterhin teure Neuheiten sein – nützlich genug, um den Preis für wohlhabende Early Adopters zu rechtfertigen, aber noch nicht das Haushaltsgerät wie der Roomba.
Der Unsicherheitsfaktor ist, ob Fundamentalmuster für Robotik einen Durchbruch bei der Verallgemeinerung erreichen. Wenn ein Roboter eine neue Aufgabe aus einer 30-sekündigen Demonstration lernen kann, anstatt stundenlanger Schulung, ändern sich die wirtschaftlichen Rahmenbedingungen vollständig. Mehrere Forschungsgruppen kommen dem nahe. Die nächsten Jahre werden faszinierend sein.
🕒 Published: