Amazon postanowił zmierzyć, jak bardzo jego programiści korzystają ze sztucznej inteligencji. Stworzył ranking. Pracownicy natychmiast zaczęli go… oszukiwać. Historia wewnętrznego narzędzia KiroRank to krótka, ale pouczająca lekcja o tym, że nie wszystko, co daje się zmierzyć, warto mierzyć.
Kluczowe fakty:
- Amazon wprowadził wewnętrzny system rankingowy KiroRank, który przyznawał pracownikom punkty za korzystanie z narzędzi AI w ramach platformy Kiro, stawiając sobie za cel, by ponad 80% programistów używało AI co tydzień.
- Pracownicy zaczęli stosować praktykę zwaną tokenmaxxingiem – tworzyli agentów AI wykonujących zbędne zadania wyłącznie po to, by sztucznie zawyżać swoje wyniki w rankingu bez realnej wartości dla produktów.
- Tokenmaxxing doprowadził do wzrostu kosztów infrastruktury, a ranking zamiast odzwierciedlać faktyczną produktywność, wypełnił się pozorną aktywnością.
Tablica wyników, która miała motywować
Amazon uruchomił wewnętrzny system śledzenia aktywności pracowników w korzystaniu z platformy Kiro — firmowego środowiska programistycznego wspieranego przez AI — i nazwał go KiroRank. Użytkownicy zdobywali punkty za każde użycie narzędzi sztucznej inteligencji podczas pracy. Założenie było proste: mierzyć, jak bardzo pracownicy korzystają z AI, rankingować ich wyniki i w ten sposób zachęcać do szerszego wdrożenia technologii w całej firmie.
Amazon wyznaczył cele zakładające, że ponad 80 procent programistów firmy ma korzystać z AI co tydzień. Ranking miał ten proces napędzać i pokazywać postępy. Niestety, szybko okazało się, że napędza coś zupełnie innego.
Tokenmaxxing, czyli jak wyglądać produktywnie, nic nie robiąc
Kierownictwo Amazona odkryło, że pracownicy tworzą agentów AI do wykonywania zbędnych zadań, próbując w ten sposób podbić swoje wyniki w rankingu. Praktykę tę zaczęto nazywać tokenmaxxingiem.
Tokeny to jednostki, w których modele językowe przetwarzają tekst — każde zapytanie do AI generuje ich określoną liczbę. Im więcej tokenów, tym wyższy wynik w rankingu. Pracownicy szybko odkryli, że możliwe jest sztuczne pompowanie tych liczb bez żadnej realnej wartości dla produktu.
Wynikiem były wyższe koszty infrastruktury i ranking pełen aktywności, która wyglądała produktywnie, ale taka nie była.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
To klasyczny przypadek prawa Goodharta: kiedy miara staje się celem, przestaje być dobrą miarą. Amazon nie jest tu wyjątkiem — ta sama dynamika pojawia się wszędzie, gdzie zarząd próbuje zmierzyć pracę intelektualną za pomocą liczb. Z jednej strony rozumiem presję: firmy zainwestowały w AI ogromne pieniądze i chcą wiedzieć, czy wdrożenie ma sens. Z drugiej — tokenmaxxing doskonale pokazuje, że zamiast mierzyć wartość, często mierzymy po prostu aktywność. A to dwie zupełnie różne rzeczy. Warto zapytać, ile innych korporacyjnych wskaźników dotyczących AI mierzy dziś to samo — pozory zaangażowania, a nie realne efekty.
Dave Treadwell mówi: „nie używajcie AI tylko dlatego, że możecie”
Dave Treadwell, starszy wiceprezes Amazona, powiedział pracownikom: „Please don’t use AI just for the sake of using AI. Use AI to help you solve customer problems, to help you solve business problems, to innovate” / „Nie używajcie AI tylko po to, żeby używać AI. Używajcie AI, żeby rozwiązywać problemy klientów, problemy biznesowe — żeby tworzyć”.
Przyznał przy tym, że KiroRank powstał w dobrych intencjach. Intencje jednak nie wystarczyły.
Amazon potwierdził, że wewnętrzny ranking o nazwie KiroRank został wycofany. Firma podkreśliła, że narzędzie nigdy nie było częścią oficjalnego systemu oceny pracowników — istniało jako eksperymentalne rozwiązanie.
Amazon nie jest sam w tym problemie
Przypadek Amazona to nie wyjątek, a część szerszego trendu, który zaczyna niepokojić całą branżę:
- Meta w kwietniu 2026 roku wycofała nieoficjalny ranking stworzony przez pracowników o nazwie „Claudeonomics”, który rankingował około 85 000 pracowników firmy według zużycia tokenów. W ciągu 30 dni łączne użycie na panelu przekroczyło 60 bilionów tokenów.
- Uber przyznał publicznie, że do kwietnia 2026 roku firma zużyła już cały roczny budżet przeznaczony na Claude Code — i nie widzi produktywności proporcjonalnej do wydatków.
- Microsoft wbudował Copilota w całą swoją ofertę produktową, nakładając na pracowników podobną presję dokumentowania aktywności.
Łączne wydatki kapitałowe Amazona, Microsoftu, Alphabetu i Mety w 2026 roku sięgają prawie 700 miliardów dolarów, a prognozy Wall Street na rok 2027 przekraczają bilion. Przy takich liczbach potrzeba pokazania zwrotu z inwestycji staje się ogromna — i to właśnie ta presja prowadzi do tworzenia rankingów, które mierzą nie to, co powinny.
Co teraz mierzy Amazon?
Amazon przeszedł z surowych liczb tokenów na wskaźnik zwany „normalized deployments”, który ma mierzyć pracę napędzaną przez AI, a nie samą aktywność modeli. Nowe narzędzie od firmy Metrika ma oceniać, czy AI pomaga programistom regularnie tworzyć użyteczny kod wdrażany do produktów.
To zmiana w dobrym kierunku, choć sam mechanizm pozostaje podobny — liczba wdrożeń jako metryka sukcesu też może stać się celem samym w sobie. Pracownicy nauczyli się już, że metryki nagradzające wolumen bez oceny jakości będą przez nich optymalizowane. Koszt to nie tylko zmarnowane zasoby obliczeniowe — to trudniej mierzalny koszt uczenia się pozorowania użycia AI zamiast rozwijania realnych kompetencji.
Lekcja dla każdej organizacji wdrażającej AI
Historia KiroRanka brzmi jak anegdota z życia korporacji. Ale kryje w sobie poważne pytanie, które powinni sobie zadać wszyscy menedżerowie wdrażający dziś AI w swoich firmach: czy nasze wskaźniki mierzą wartość, którą AI tworzy — czy tylko jej widoczność?
Różnica jest fundamentalna. I jak pokazuje Amazon, mylenie jednego z drugim może być całkiem kosztowne.
