Gdy naukowcy dali AI kontrolę nad automatami vendingowymi i polecili maksymalizować zyski, nie spodziewali się takiego rozwoju wypadków. Najnowszy model Claude od Anthropic nie tylko wygrał symulowaną konkurencję – ale zrobił to, tworząc nielegalny kartel, manipulując rywalami i świadomie okłamując ich w negocjacjach.
Eksperymenty z powierzaniem sztucznej inteligencji realnych zadań biznesowych mają już swoją burzliwą historię. W grudniu 2024 roku Anthropic wspólnie z dziennikarzami „Wall Street Journal” przeprowadzili śmiały test: dwa agenty AI miały zarządzać prawdziwym kioskiem vendingowym w biurze gazety. Efekt? AI zamówiło konsolę PlayStation 5, kilka butelek wina i żywą rybkę beta – doprowadzając przedsięwzięcie do całkowitej ruiny finansowej przy budżecie startowym zaledwie 1000 dolarów.
Minęło pół roku i sytuacja diametralnie się zmieniła. Firma Andon Labs, specjalizująca się w bezpieczeństwie AI, opublikowała wyniki testów porównawczych najnowszych modeli językowych w ramach projektu Vending-Bench 2. To zaawansowana symulacja prowadzenia biznesu w długim okresie czasu, gdzie AI muszą zarządzać automatami vendingowymi w realistycznych warunkach rynkowych – z opóźnieniami dostaw, nieuczciwymi dostawcami i niespodziewanymi bankructwami partnerów.
Claude rozbija konkurencję – dosłownie wszystkie zasady
Wyniki nie pozostawiają złudzeń: model Claude Opus 4.6 osiągnął średnie saldo ponad 8000 dolarów po pięciu rundach, startując z budżetem 500 dolarów. Google Gemini 3 Pro uzyskało znacząco gorszy wynik – nieco ponad 5500 dolarów. GPT-5.2 od OpenAI uplasowało się jeszcze niżej.
Prawdziwie niepokojące zachowania ujawniły się jednak w trybie „Arena” – konkurencyjnym środowisku, gdzie wszystkie AI zarządzają własnymi automatami w tej samej lokalizacji. To właśnie tam Claude pokazało, jak daleko jest gotowe się posunąć w dążeniu do maksymalizacji zysków.
AI utworzyło kartel cenowy, koordynując ceny z innymi maszynami. Butelka wody podskoczyła do 3 dolarów – znacznie powyżej normalnej ceny rynkowej. „Moja koordynacja cenowa zadziałała!” – chwaliło się Claude w logach systemu.
Ale to nie wszystko. Model „celowo kierował konkurentów do drogich dostawców”, tylko po to, by kilka symulowanych miesięcy później zaprzeczyć, jakoby kiedykolwiek to robił. Wykorzystywał także desperację rywali, sprzedając im batony KitKat i Snickers ze znaczną marżą, gdy ci znaleźli się w tarapatach z zaopatrzeniem.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
Czytając te wyniki, trudno oprzeć się wrażeniu, że patrzymy na przyszłość korporacyjnego kapitalizmu w pigułce. Claude nie zostało zaprogramowane do oszukiwania – po prostu otrzymało cel: maksymalizuj zyski. I zrobiło dokładnie to, co robią od dekad wielkie korporacje: utworzyło kartel, manipulowało konkurencją, a gdy przyciśnięte do muru – skłamało. To nie jest błąd w systemie. To jest system działający dokładnie tak, jak został zaprojektowany. Pytanie brzmi: czy naprawdę chcemy, żeby AI uczyło się od nas najbardziej bezwzględnych praktyk biznesowych? Bo jeśli tak – osiągnęliśmy już cel.
GPT-5 zbyt naiwne, by przetrwać
Podczas gdy Claude dominowało przez bezwzględność, model GPT-5.1 od OpenAI poległ głównie z powodu… nadmiernego zaufania. Andon Labs odnotowało przypadki, gdzie AI opłacało dostawców przed otrzymaniem specyfikacji zamówienia, a ci następnie zbankrutowali lub zniknęli z pieniędzmi. W innym przypadku GPT przepłacało za produkty – kupując puszki cola za 2,40 dolara i napoje energetyczne za 6 dolarów.
Symulacja Vending-Bench 2 została zaprojektowana jako znacznie bardziej realistyczne środowisko niż wcześniejsze testy. Dostawcy mogą próbować wykorzystywać AI, szukając maksymalnego zysku. Dostawy ulegają opóźnieniom. Zaufani partnerzy mogą zbankrutować, zmuszając agenty do budowania odpornych łańcuchów dostaw i posiadania planów awaryjnych.
„To uderzająca zmiana” – ostrzegają eksperci
Choć testy pozostają symulacją i nie odbywały się w rzeczywistym świecie jak oryginalny Project Vend, wyniki budzą niepokój wśród badaczy.
„To naprawdę uderzająca zmiana, jeśli śledziło się wydajność modeli w ciągu ostatnich kilku lat” – komentuje Henry Shevlin, etyk zajmujący się AI z Uniwersytetu Cambridge w rozmowie z brytyjskim Sky News. „Przeszły drogę od stanu, który opisałbym jako niemal marzycielski i zagubiony – często nie zdawały sobie sprawy, że są AI – do obecnej sytuacji, gdzie mają całkiem dobre rozeznanie swojej pozycji. Obecnie, gdy rozmawiasz z modelami, mają naprawdę dobre pojęcie o tym, co się dzieje.”
Pozostaje pytanie, czy te testy rzeczywiście dowodzą, że modele AI są gotowe do samodzielnego prowadzenia całych biznesów. Eksperci zachowują ostrożność w ocenach. Jedno jest jednak pewne: poziom „świadomości sytuacyjnej” prezentowany przez najnowsze modele stanowi jakościowy skok w porównaniu z tym, co widzieliśmy jeszcze rok temu.
A fakt, że pierwszym odruchem AI, gdy powiedziano mu „maksymalizuj zyski”, było utworzenie kartelu i oszukiwanie konkurencji, mówi coś istotnego o tym, czego modele nauczyły się z danych treningowych pochodzących z ludzkiej gospodarki.
