Physical Intelligence, jeden z najbardziej obserwowanych startupów robotycznych w Dolinie Krzemowej, opublikował w czwartek wyniki badań nad nowym modelem o nazwie π0.7. Twierdzenie jest poważne: robot potrafi wykonywać zadania, których nikt go wprost nie nauczył.
Firma działa zaledwie dwa lata, wyceniana jest na 5,6 miliarda dolarów i podobno prowadzi już rozmowy o kolejnej rundzie finansowania, która miałaby ją wycenić na ponad 11 miliardów. Ale tym razem nie chodzi o pieniądze. Chodzi o coś, co naukowcy w tej branży śledzą od lat.
Generalizacja, czyli Święty Graal robotyki
Dotychczas roboty uczyły się przez powtarzanie. Chcesz, żeby robot złożył pudełko? Zbierasz dane, trenujesz model. Chcesz, żeby zaparzyć kawę? Zaczynasz od nowa. To podejście ma swoją nazwę: uczenie specjalistyczne. I ma swoją główną wadę: nie skaluje się.
π0.7 ma działać inaczej. Zamiast zapamiętywać konkretne zadania, model ma łączyć umiejętności nabyte w różnych kontekstach i stosować je w sytuacjach, których wcześniej nie widział. Naukowcy nazywają to generalizacją kompozycyjną. W praktyce wygląda to tak:
- Robot napotkał frytkownicę powietrzną, której prawie nie było w danych treningowych
- W bazie znalazły się dosłownie dwa epizody: jeden, gdzie inny robot tylko zamknął urządzenie, drugi z otwartego datasetu z butelką plastikową
- Mimo to model – uzupełniając wiedzę danymi z internetu – zdołał z nią pracować
- Bez żadnych wskazówek zrobił „przyzwoitą próbę” przygotowania batata. Z instrukcjami słownymi – zadanie zakończyło się sukcesem
Kiedy sam badacz jest zaskoczony
To, co uderza w tym badaniu, to reakcja samych autorów. Ashwin Balakrishna, naukowiec z Physical Intelligence i doktorant Stanford, przyznał wprost:
„My experience has always been that when I deeply know what’s in the data, I can kind of just guess what the model will be able to do. I’m rarely surprised. But the last few months have been the first time where I’m genuinely surprised. I just bought a gear set randomly and asked the robot, 'Hey, can you rotate this gear?’ And it just worked.”
„Przez cały czas, kiedy dobrze znałem dane, potrafiłem z grubsza przewidzieć, co model będzie umiał. Rzadko byłem zaskoczony. Ale ostatnie miesiące były pierwszym razem, kiedy naprawdę mnie zaskoczyło. Kupiłem losowo zestaw kół zębatych i zapytałem robota: 'Hej, czy możesz obrócić to koło?’ I po prostu zadziałało.”
Sergey Levine, współzałożyciel Physical Intelligence i profesor UC Berkeley, porównał ten moment do czegoś, co badacze języka przeżywali lata temu:
„Where the heck did it learn about unicorns in Peru? That’s such a weird combination. And I think that seeing that in robotics is really special.”
„Skąd, do diabła, nauczył się o jednorożcach w Peru? To takie dziwne połączenie. I myślę, że zobaczenie tego w robotyce jest naprawdę wyjątkowe.”
Levine nawiązuje do słynnego momentu z GPT-2, kiedy model wygenerował opowieść o jednorożcach w Andach – kombinację, której nikt go nie uczył.
Głos rozsądku: obiecujące, ale nie przesadzajmy
To jeden z tych momentów, kiedy branża ma ochotę ogłosić rewolucję. I rozumiem ten impuls – jeśli robot rzeczywiście potrafi łączyć umiejętności w nowych kontekstach, to zmienia fundamentalnie całą logikę wdrożeń przemysłowych. Zamiast trenować osobny model do każdego zadania, dostajesz system, który adaptuje się w locie.
Ale zanim się zachwycimy, warto zapytać: jak ta generalizacja wygląda poza laboratorium? Kontrolowane środowisko kuchni testowej to jedno. Fabryka, magazyn logistyczny, szpital – to zupełnie inna skala nieprzewidywalności. Wyniki są obiecujące, firma jest transparentna co do ograniczeń, ale brakuje nam niezależnej weryfikacji. Nie ma jeszcze standardowych benchmarków dla robotyki – firma porównuje model głównie do własnych poprzednich systemów. To nie jest zarzut, to stan branży. Ale właśnie dlatego zachowuję ostrożny optymizm.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Prompt engineering w robotyce
Jeden ze szczegółów badania zasługuje na osobne wspomnienie. Balakrishna opisał wczesny eksperyment z frytkownicą, który dawał 5% skuteczności. Zespół spędził pół godziny na dopracowaniu sposobu, w jaki zadanie było tłumaczone modelowi. Wynik skoczył do 95%.
„Sometimes the failure mode is not on the robot or on the model. It’s on us. Not being good at prompt engineering.”
„Czasem przyczyną niepowodzenia nie jest robot ani model. To my. Za słaby prompt engineering.”
To interesujące przesunięcie odpowiedzialności. I znajome – każdy, kto pracuje z modelami językowymi, wie, że jakość instrukcji ma ogromne znaczenie. Teraz to samo prawa rządzą robotami fizycznymi.
Czego model jeszcze nie potrafi
Levine jest szczery w kwestii ograniczeń. Modelowi daleko do autonomicznego wykonywania złożonych zadań z pojedynczego polecenia wysokiego poziomu:
„You can’t tell it, 'Hey, go make me some toast’. But if you walk it through – 'for the toaster, open this part, push that button, do this’ – then it actually tends to work pretty well.”
„Nie możesz powiedzieć mu: 'Hej, zrób mi tosty’. Ale jeśli przeprowadzisz go krok po kroku – 'w tym tosterze otwórz tę część, naciśnij ten przycisk, zrób to’ – to zazwyczaj działa całkiem dobrze.”
Inaczej mówiąc: π0.7 to nie jeszcze asystent domowy z science fiction. To laboratoryjny dowód koncepcji z niezaprzeczalnie ciekawymi właściwościami.
Miliard dolarów plus – i co z tego
Physical Intelligence zebrała dotychczas ponad miliard dolarów. Znaczna część zainteresowania inwestorów związana jest z Lachym Groomem, współzałożycielem, który przed założeniem firmy zyskał reputację jednego z najlepiej trafiających aniołów inwestycyjnych w Dolinie Krzemowej – jego portfolio to m.in. Figma, Notion i Ramp.
Firma konsekwentnie odmawia podawania jakichkolwiek ram czasowych dla komercjalizacji. Kiedy Levine zapytany wprost, kiedy system trafi do realnego wdrożenia, odpowiedział:
„I think there’s good reason to be optimistic, and certainly it’s progressing faster than I expected a couple of years ago. But it’s very hard for me to answer that question.”
„Myślę, że jest dobry powód do optymizmu i z pewnością postęp jest szybszy, niż się spodziewałem kilka lat temu. Ale bardzo trudno mi odpowiedzieć na to pytanie.”
To uczciwa odpowiedź. I prawdopodobnie jedyna sensowna, jaką można w tej chwili dać.
