W tym tygodniu branżę AI wstrząsnęła informacja, której nikt nie chciał usłyszeć: Mercor, jeden z kluczowych dostawców danych treningowych dla największych laboratoriów AI na świecie, padł ofiarą poważnego ataku cybernetycznego. Meta wstrzymała współpracę ze startem bezterminowo, a inne firmy zaczęły nerwowo liczyć straty.
Czym jest Mercor i dlaczego to ważne
Mercor to trzyletni startup wyceniany na 10 miliardów dolarów, który rekrutuje ekspertów z dziedzin takich jak medycyna, prawo czy literatura, by dostarczać dane usprawniające modele AI. Brzmi może jak niszowa usługa, ale w praktyce chodzi o coś znacznie więcej. Firma zatrudnia ogromne sieci ludzkich wykonawców do tworzenia dedykowanych, własnościowych zestawów danych dla laboratoriów AI, które są z reguły trzymane w ścisłej tajemnicy, bo to kluczowy składnik w przepisie na wartościowe modele AI napędzające produkty takie jak ChatGPT czy Claude Code.
Klientami Mercor są między innymi OpenAI, Anthropic i Meta. To nie jest przypadkowe zestawienie, to praktycznie cała czołówka światowej branży AI.
Co się stało
Na stronach wycieku pojawiły się dane zawierające informacje ze Slacka, wewnętrzne dane z systemów ticketingowych oraz nagrania wideo z rozmów między systemami AI Mercor a wykonawcami. Według dostępnych informacji skradziono około 4 terabajtów danych, w tym rekordy z baz danych i kod źródłowy.
Incydent powiązano z atakiem na łańcuch dostaw dotyczącym LiteLLM, szeroko stosowanej biblioteki open source służącej do łączenia aplikacji z usługami AI. Mercor potwierdziło, że było „jedną z tysięcy firm” dotkniętych tym atakiem.
Grupa TeamPCP umieściła złośliwy kod w LiteLLM, narzędziu pozwalającym deweloperom podłączać aplikacje do usług AI od firm takich jak OpenAI czy Anthropic, pobieranym miliony razy dziennie. Kod przez jakiś czas zbierał poświadczenia i rozprzestrzeniał się po systemach firm, zanim go wykryto i usunięto. Do odpowiedzialności przyznała się natomiast znana z wymuszania hakerska grupa Lapsus$.
Skala potencjalnych strat
Tu zaczyna się naprawdę niepokojąca część tej historii. Laboratoria AI są wrażliwe na ujawnienie takich danych, bo mogą one zdradzić konkurentom, w tym innym laboratoriom AI w USA i Chinach, kluczowe szczegóły dotyczące sposobów trenowania modeli.
Prezes Y Combinator, Garry Tan, nie owijał w bawełnę. Na platformie X napisał, że atak ujawnił online ogromną ilość najnowocześniejszych danych treningowych „od każdego większego laboratorium”, wartą miliardy dolarów, dostępną teraz dla rywali takich jak Chiny, co stwarza problem bezpieczeństwa narodowego.
https://twitter.com/garrytan/status/1907xxx
Warto też dodać, że według doniesień Mercor zapłaciło okup grupie ShinyHunters, by wykupić dane na wyłączność, co prawdopodobnie oznacza zniknięcie danych ze strony grupy Lapsus$.
Komentarz redakcji
Wyciek danych z Mercor to jeden z tych incydentów, który zmusza całą branżę do zatrzymania się i zadania sobie niewygodnego pytania: jak dobrze chronimy to, co napędza nasz wyścig technologiczny?
Z jednej strony rozumiem logikę outsourcingu danych treningowych. To kosztowne, czasochłonne i wymaga rzadkich kompetencji. Firmy takie jak Mercor istnieją właśnie dlatego, że nawet giganci jak Meta czy OpenAI wolą skupić się na modelach, a nie na żmudnym procesie pozyskiwania danych. To ma sens ekonomiczny.
Z drugiej strony, to co ujawnia ten incydent, jest niepokojące. Najbardziej strzeżone sekrety branży AI trafiają do firm zewnętrznych, które niekoniecznie mają te same standardy bezpieczeństwa co ich klienci. Dane treningowe to nie tylko zestawy liczb. To metodologie, priorytety badawcze, ujawnienie kierunków rozwoju. Jeśli te informacje trafiają w ręce chińskich podmiotów, mamy do czynienia z czymś więcej niż korporacyjną kradzieżą własności intelektualnej.
Pytanie, które warto zadać: czy branża AI jest w ogóle gotowa na to, że jej łańcuch dostaw stał się polem bitwy wywiadowczej? I czy regulacje, które dziś budujemy wokół AI, biorą pod uwagę bezpieczeństwo całego ekosystemu, a nie tylko samych modeli?
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Jak technicznie doszło do ataku
Szczegóły techniczne ataku są pouczające. Naruszenie nie pochodzi z podatności w kodzie własnym Mercor, lecz z zainfekowanego komponentu w łańcuchu dostaw oprogramowania. LiteLLM służy jako uniwersalny interfejs pozwalający deweloperom integrować wielu dostawców AI za pomocą jednego zestawu poleceń.
To klasyczny atak na łańcuch dostaw (supply chain attack), gdzie hakerzy celują nie w ofiarę bezpośrednią, ale w popularny komponent, od którego ta ofiara zależy. Im popularniejsza biblioteka, tym większy zasięg potencjalnego ataku. Według firmy Snyk, LiteLLM jest pobierany miliony razy dziennie.
Mercor na celowniku projektu Chordus
Wykonawcy Mercor nie zostali poinformowani o dokładnych przyczynach wstrzymania projektów Meta. W kanale Slack związanym z inicjatywą Chordus, projektem Meta polegającym na nauczaniu modeli AI korzystania z wielu źródeł internetowych do weryfikacji odpowiedzi na zapytania użytkowników, lider projektu poinformował pracowników, że Mercor „currently reassessing the project scope” / „dokonuje aktualnie ponownej oceny zakresu projektu”.
Co dalej dla branży
Incydent ujawnił coś, o czym eksperci ds. bezpieczeństwa mówili od dawna:
- Łańcuch dostaw AI to słabe ogniwo w systemie bezpieczeństwa całej branży
- Biblioteki open source o masowym zasięgu są atrakcyjnym celem dla grup hakerskich
- Firmy dostarczające dane treningowe muszą być traktowane jak infrastruktura krytyczna, nie jak zwykli podwykonawcy
- Standardy bezpieczeństwa takie jak SOC 2 Type II będą prawdopodobnie wymagane od dostawców danych w nowych kontraktach
Mercor może być wczesnym sygnałem nadchodzącej fali prób wymuszeń związanych z tym atakiem na łańcuch dostaw. Grupa TeamPCP publicznie ogłosiła zamiar współpracy z grupami ransomware i wymuszenia, by atakować dotknięte firmy na dużą skalę.
OpenAI potwierdziło, że bada incydent bezpieczeństwa. Mercor wciąż pozostaje jednym z najgorętszych startupów Doliny Krzemowej, ale ten tydzień mocno to pojęcie skomplikował.
