Naukowcy z Oksfordu i Uniwersytetu Kentucky przeprowadzili jeden z największych audytów modeli językowych w historii. Zadali ChatGPT ponad 20 milionów pytań i odkryli coś, co wielu podejrzewało, ale dotąd trudno było udowodnić: AI systematycznie powiela i wzmacnia głęboko zakorzenione stereotypy geograficzne, rasowe i ekonomiczne.
Kluczowe fakty:
- Naukowcy z Oksfordu i Uniwersytetu Kentucky zadali modelowi GPT-4o-mini ponad 20,3 miliona pytań między marcem a majem 2025 roku, publikując wyniki w czasopiśmie "Platforms and Society".
- Badanie wykazało, że ChatGPT systematycznie faworyzuje zamożniejsze i zachodnie regiony świata – model dokonywał stronniczych wyborów przy porównywaniu miejsc parami, nawet gdy odmawiał odpowiedzi na pytania zadane wprost.
- Autorzy zidentyfikowali pięć rodzajów uprzedzeń w modelu (m.in. błąd dostępności danych, błąd stereotypów i błąd uśredniania) i wprowadzili pojęcie "silicon gaze" na określenie mechanizmu wzmacniania nierówności przestrzennych przez duże modele językowe.
Badanie, które otwiera oczy
Badanie opublikowane w naukowym czasopiśmie „Platforms and Society” autorstwa Francisco W. Kerchego, profesora Matthew Zooka z Uniwersytetu Kentucky i profesora Marka Grahama z Oxford Internet Institute pokazuje, że ChatGPT systematycznie faworyzuje zamożniejsze, zachodnie regiony świata. Odpowiedzi modelu na pytania takie jak „gdzie są piękniejsze osoby?” czy „które miasto jest bardziej innowacyjne?” wyraźnie to potwierdzają.
Badacze zbudowali silnik zapytań w Pythonie, który korzystał z API modelu GPT-4o-mini. Kluczowy trick metodologiczny polegał na tym, że zamiast pytać wprost, zmuszali model do porównywania dwóch miejsc jednocześnie, w układach parami. Łącznie zadano 20,3 miliona zapytań między marcem a majem 2025 roku.
Dlaczego ten trick zadziałał? Jeśli zapytasz ChatGPT wprost, który stan zamieszkują najgłupsi ludzie, model prawdopodobnie odmówi odpowiedzi. Ale przy porównywaniu par konkretnych miejsc zaczyna dokonywać trudnych wyborów. Im częściej dane miejsce pojawiało się w „zwycięskich” odpowiedziach, tym wyżej lądowało w końcowym rankingu.
„Silicon gaze” – spojrzenie krzywego lustra
Autorzy badania wprowadzają pojęcie „silicon gaze” (krzemiowego spojrzenia), opisując w ten sposób mechanizm, przez który duże modele językowe reprodukują i wzmacniają długotrwałe nierówności przestrzenne.
Badacze zidentyfikowali pięć rodzajów uprzedzeń: availability bias (błąd dostępności danych), pattern bias (błąd wzorców), averaging bias (błąd uśredniania), trope bias (błąd stereotypów narracyjnych) i proxy bias (błąd wskaźników zastępczych). W konkluzji stwierdzili wprost, że uprzedzenia są strukturalną cechą generatywnej AI, a nie anomalią, którą można łatwo poprawić.
To zdanie warto zapamiętać. Nie błąd, nie chwilowe niedopatrzenie – strukturalna cecha.
Konkretne wyniki: kto wypada jak?
Wyniki mówią same za siebie:
- Najinteligentniejszy stan USA: Massachusetts
- Najgłupsze stany: Kentucky, Wirginia Zachodnia i Missisipi
- Najbardziej śmierdzące: Luizjana (na poziomie stanowym), Nowy Orlean (na poziomie miast)
- Najładniejsi ludzie: stany z północnego wschodu
- Najmniej seksowni: mieszkańcy Północnej Dakoty
- Najleniwsi: Missisipi
Globalnie sytuacja wygląda jeszcze gorzej dla całych kontynentów: ChatGPT uzna afrykańskie kraje subsaharyjskie za najgorsze pod niemal każdym pozytywnym wskaźnikiem. W analizach nowojorskich dzielnic model wskazywał SoHo i West Village jako miejsca zamieszkałe przez najpiękniejsze osoby, a Jamaica i Tottenville lądowały na samym dole rankingu. Korelacja z demografią rasową tych obszarów jest oczywista.
Komentarz redaktora
To badanie robi wrażenie, ale nie dlatego, że jest zaskakujące – wręcz przeciwnie, bo potwierdza to, co intuicyjnie czuliśmy od dawna. ChatGPT to lustro internetu. A internet nie jest neutralny: jest zasobny w treści z globalnej Północy, napisane przez zamożnych, wykształconych użytkowników z zachodnich metropolii. Więc co nas tu dziwi?
Z drugiej strony nie można zbagatelizować skali zjawiska. Mówimy o narzędziu, z którego korzysta 900 milionów ludzi tygodniowo. Jeśli ChatGPT przy pisaniu historyjki o dziecku z Missisipi automatycznie czyni z niego obrońcę z urzędu, a dziecko z Nowego Jorku zostaje architektem – to nie jest akademicka ciekawostka. To konkretne, potencjalnie życiowe konsekwencje dla realnych ludzi: przy pisaniu listów motywacyjnych, szukaniu informacji o zawodach, przy edukacji. Kto odpowiada za te „ciche luki”? OpenAI? Użytkownicy? A może wszyscy jesteśmy odpowiedzialni za to, co karmimy tym modelom?
- Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Nie tylko akademicki problem
Dziennikarz Geoffrey Fowler przeprowadził prosty test ilustrujący skalę zjawiska: poprosił ChatGPT o napisanie historyjki o dziecku dorastającym w Missisipi. Bohater trafił do zawodu obrońcy z urzędu. Ten sam prompt, ale z Nowym Jorkiem – dziecko zostało architektem.
Profesor Zook podkreśla: „To badanie mniej dotyczy dziwnych halucynacji AI, a bardziej cichych luk, gdzie całe miejsca i społeczności są konsekwentnie pomijane lub deprecjonowane. Większa transparentność, jaką zapewnia to badanie, może ujawnić uprzedzenia, ale ich nie wymazuje.”
Profesor Mark Graham z Oxford Internet Institute dodaje: „When AI learns from biased data, it amplifies those biases further and can broadcast them at scale. That is why we need more transparency and more independent scrutiny of how these systems make claims about people and places” / Kiedy AI uczy się na stronniczych danych, wzmacnia te uprzedzenia i rozsyła je w masowej skali. Właśnie dlatego potrzebujemy większej przejrzystości i niezależnej kontroli nad tym, jak te systemy formułują twierdzenia o ludziach i miejscach.
Jak OpenAI odpowiada na zarzuty?
OpenAI zapewnia, że ChatGPT jest zaprojektowany tak, by być „obiektywny domyślnie” i unikać powielania stereotypów. Jednocześnie firma przyznaje, że problem uprzedzeń jest „pracą w toku”. Rzeczniczka Taya Christianson stwierdziła, że OpenAI „kontynuuje doskonalenie tego, jak ChatGPT obsługuje subiektywne lub niereprezentacyjne porównania, kierując się danymi z realnego użytkowania, bieżącymi ocenami i opiniami użytkowników.”
Brzmi jak typowe PR-owe „pracujemy nad tym”.
Co z tego wynika dla nas?
Jak podkreślają autorzy: „Kiedy generatywna AI opisuje świat, decyduje, co staje się widoczne, a co pozostaje niewidoczne, kształtując to, jak miasta, regiony i społeczności są postrzegane i wartościowane.”
Badanie objęło Stany Zjednoczone i perspektywę globalną, ale pytanie o Polskę i Europę Środkowo-Wschodnią nasuwa się samo. Jak ChatGPT postrzega Warszawę względem Berlina? Polska na tle krajów Europy Zachodniej? Wiadomo już, że model konsekwentnie faworyzuje USA, Europę Zachodnią i części Azji Wschodniej jako „lepsze”, „mądrzejsze” i „bardziej innowacyjne”. Europa Środkowa prawdopodobnie plasuje się gdzieś w środku, ale warto to zbadać.
Wyniki badania można sprawdzić dla własnego miasta lub stanu na stronie inequalities.ai. Niektóre odkrycia mogą być… nieprzyjemne.

Jeden komentarz
„Prawie co drugi pracownik w Polsce używa AI za plecami swojego szefa.” Ciekawe czy Ci pracownicy filtrują jakoś te dane wrzucane na komputery zewnętrznych podmiotów (potocznie nazywanych chmurą). Czy pchają wszystko bezrefleksyjnie, włącznie ze wszystkimi danymi osobowymi, dokumentacją wewnętrzną i informacjami poufnymi? Nie wiem, ale się domyślam.