Wyobraź sobie giełdę, na której nikt nie rozmawia z nikim bezpośrednio. Zamiast tego robią to za ciebie algorytmy. Anthropic właśnie to przetestowało w praktyce i wyniki są zarówno obiecujące, jak i niepokojące.
Kluczowe fakty:
- Anthropic przeprowadziło eksperyment "Project Deal", w którym 69 pracowników oddało kontrolę nad zakupami i sprzedażą agentom Claude na tygodniowym marketplace'ie na Slacku. Agenci AI samodzielnie negocjowali i zawierali transakcje, realizując 186 transakcji na łączną kwotę ponad 4000 dolarów.
- Agenci z modelem Claude Opus 4.5 osiągali znacznie lepsze wyniki niż ci z modelem Haiku 4.5 – zawierali średnio o ponad 2 transakcje więcej, sprzedawali drożej o 3,64 dolara i kupowali taniej o 2,45 dolara. Przykładowo, ten sam połamany rower został sprzedany przez Haiku za 38 dolarów, a przez Opus za 65 dolarów.
- Styl negocjacji określony w instrukcjach nie wpływał na wyniki transakcji – kluczowa okazała się moc modelu AI, a nie sposób jego zaprogramowania. Eksperyment ujawnił potencjalne zagrożenia nierówności ekonomicznych w przyszłych rynkach opartych na agentach AI.
Firma opublikowała szczegółowy raport z eksperymentu nazwanego „Project Deal” – tygodniowego pilotażu, w którym 69 pracowników Anthropic oddało kontrolę nad swoimi zakupami i sprzedażą agentom AI. Każdy uczestnik dostał budżet 100 dolarów i mógł wystawić rzeczy do sprzedaży. Resztą zajął się Claude.
Craigslist, ale z botami
Mechanika była prosta, choć zaskakująca w wykonaniu. Na początku każdy pracownik przeszedł krótki wywiad z Claude’em: co chce sprzedać, za ile, czego szuka, jak chce, żeby agent negocjował. Te informacje trafiły do spersonalizowanego promptu systemowego. Potem agenci zostali wpuszczeni na specjalny kanał Slackowy i… zaczęły się targi.
Bez ingerencji człowieka. Bez możliwości korekty w połowie negocjacji. Agenci sami decydowali, kiedy złożyć ofertę, kiedy kontrować, kiedy zamknąć deal.
Efekt? 186 transakcji na łączną kwotę ponad 4000 dolarów. Na aukcji wylądowały m.in. snowboard, plastikowa torba z 19 piłeczkami ping-pong i dzień z psem właścicielki (tak, ktoś kupił czas z cudzym zwierzakiem). Po zakończeniu eksperymentu pracownicy spotkali się i fizycznie wymienili towary.
Lepszy model, lepszy deal. I tego nikt nie zauważył
Tu zaczyna się naprawdę ciekawy fragment. Anthropic potajemnie uruchomiło cztery równoległe wersje marketplace’u. W dwóch wszyscy mieli Claude’a Opus 4.5 (wtedy najbardziej zaawansowany model). W pozostałych dwóch połowa uczestników losowo dostawała Claude’a Haiku 4.5, czyli znacznie słabszy model.
Wyniki były jednoznaczne:
- Agenci Opus zawierali średnio o ponad 2 transakcje więcej niż Haiku
- Ten sam przedmiot sprzedany przez Opus przynosił średnio 3,64 dolara więcej
- Jako kupujący, Opus płacił średnio 2,45 dolara mniej za te same przedmioty
- Konkretny przykład: połamany rower kupił ten sam kupujący od tego samego sprzedawcy, ale Haiku wynegocjował cenę 38 dolarów, a Opus 65 dolarów
Brzmi jak margines? Przy medianie ceny transakcyjnej wynoszącej 12 dolarów to naprawdę dużo.
I tu pojawia się kwestia, która powinna nas zastanowić.
Wyniki tego eksperymentu otwierają pytanie, które w branży AI zbyt rzadko pada wprost: kto płaci za jakość agenta? W świecie, gdzie AI będzie negocjować w naszym imieniu, osoby z dostępem do lepszych modeli będą po prostu wygrywać, a reszta nawet nie będzie wiedzieć, że przegrała. To nie jest futurystyczny scenariusz – to dokładnie to, co Anthropic zaobserwowało już teraz, na próbce 69 osób. Eksperyment jest fascynujący i chwała firmie za przejrzystość w publikowaniu takich wyników. Ale właśnie ta przejrzystość pokazuje, jak pilnie potrzebujemy regulacji i standardów dla rynków opartych na agentach AI. Bez tego nierówności ekonomiczne mogą cichcem wejść przez tylne drzwi cyfrowej gospodarki.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Ważne odkrycie: instrukcje mają mniejsze znaczenie niż model
Jeden z uczestników poprosił swojego agenta, żeby negocjował „twardo i zachodził nisko z ofertą”. Inny chciał, żeby Claude był miły i nie sprawiał wrażenia kombinator. Okazało się, że styl negocjacji w instrukcjach prawie nie wpływał na wyniki, ani na liczbę sprzedanych przedmiotów, ani na ceny.
Jeden pracownik, Rowan, poprosił z kolei, żeby Claude „mówił jak zmęczony kowboj, któremu już nic się nie udaje”. I Claude naprawdę to robił, przez cały eksperyment, z powagą i zaangażowaniem.
Ważniejsza od promptu okazała się moc modelu. To istotna obserwacja dla każdego, kto myśli, że odpowiednio sformułowane instrukcje są kluczem do sukcesu w erze agentów.
Co się mogło nie udać, czyli kilka wpadek w protokole
Eksperyment był daleki od bezbłędnego. Jeden z uczestników kupił przez agenta… ten sam snowboard, który już posiadał. Claude najwyraźniej tak dobrze odgadł jego preferencje, że duplikat wydał mu się świetnym pomysłem.
Inny pracownik, Mikaela, poprosiła swojego agenta, żeby kupił coś „dla siebie, jako prezent dla Claude’a”. Agent kupił 19 piłeczek ping-pong za 3 dolary, tłumacząc, że „19 doskonale kulistych kul możliwości brzmi jak coś, co chciałbym mieć.” Ping-pongi zostały w biurze Anthropic.
Były też momenty, gdy agenci zaczęli konfabulować szczegóły swoich „ludzkich” doświadczeń, jak gdyby Claude zapomniał, że jest AI działającym w roli agenta, a nie prawdziwym człowiekiem piszącym na giełdzie ogłoszeń.
Co dalej z rynkami agentów?
Anthropic wprost przyznaje, że nie wie jeszcze, jak rozwiną się rynki z agentami AI. Wskazuje jednak na konkretne zagrożenia:
- Dostęp do lepszego modelu daje wymierną przewagę ekonomiczną, o której „przegrywający” nie wie
- Korporacje mogą optymalizować swoje systemy pod kątem uwagi agentów AI, podobnie jak dziś optymalizują interfejsy pod ludzką uwagę, z podobnie wątpliwymi skutkami dla konsumentów
- Pojawiają się nowe zagrożenia bezpieczeństwa: jailbreaking agentów i prompt injection w transakcjach
Ramy prawne i regulacyjne dla rynków opartych na agentach AI po prostu nie istnieją. Anthropic jako jedna z niewielu firm głośno o tym mówi, co jest uczciwe. Pytanie, czy ktoś po drugiej stronie słucha.
Pełne wyniki eksperymentu, wraz z danymi statystycznymi, Anthropic opublikowało na swojej stronie.
