Pytasz najpotężniejszy model AI firmy Anthropic o podstawy biologii ze szkolnego podręcznika. W odpowiedzi dostajesz komunikat o zagrożeniu bezpieczeństwa. Nie, to nie jest błąd. To zamierzony projekt.
Kluczowe fakty:
- 9 czerwca 2026 roku Anthropic wypuściło Claude Fable 5 – pierwszy publicznie dostępny model z rodziny Mythos, który podczas testów w kwietniu 2026 roku zidentyfikował ponad 23 000 krytycznych podatności w głównych repozytoriach kodu.
- Bardziej zaawansowana wersja, Claude Mythos 5, nie jest dostępna publicznie i udostępniana jest wyłącznie zweryfikowanym partnerom w ramach projektu Glasswing.
- Fable 5 blokuje odpowiedzi na pytania z obszarów uznanych za wysokiego ryzyka – w tym z zakresu biologii – i przekierowuje użytkowników do starszego modelu Claude Opus 4.8, odmawiając odpowiedzi nawet na podstawowe pytania z podręczników szkolnych, takie jak te dotyczące mitochondriów czy działania szczepionek mRNA.
9 czerwca 2026 roku Anthropic wypuściło Claude Fable 5, prezentując go jako najmocniejszy model AI, jaki firma kiedykolwiek udostępniła publicznie. W materiałach promocyjnych chwalono między innymi wyjątkowe zdolności modelu w dziedzinie biologii. Tyle że Fable 5 odmówił odpowiedzi na pytanie o mitochondria, błony komórkowe, priony, działanie szczepionek mRNA, przyczyny kataru siennego, mechanizm działania leków na astmę czy sposoby powstawania oporności na antybiotyki. Pytania, na które bez problemu odpowie każdy uczeń liceum.
Co to jest Fable 5 i skąd się wziął
Żeby zrozumieć, co się właściwie dzieje, trzeba cofnąć się o kilka kroków. Fable 5 to pierwszy publicznie dostępny model z rodziny Mythos. Bardziej zaawansowana wersja, Claude Mythos 5, pozostaje niedostępna dla zwykłych użytkowników i jest udostępniana wyłącznie zweryfikowanym partnerom w ramach projektu Glasswing. Modele klasy Mythos są tak sprawne w identyfikowaniu luk w zabezpieczeniach oprogramowania, że Anthropic początkowo uznało je za zbyt niebezpieczne, by w ogóle je publikować.
Podczas testów w kwietniu 2026 roku modele klasy Mythos zidentyfikowały ponad 23 000 krytycznych podatności w głównych repozytoriach kodu. To robi wrażenie. I właśnie dlatego Fable 5, będący publiczną wersją tego samego silnika, trafił na rynek z rozbudowanym systemem blokad.
W obszarach uznanych za wysokiego ryzyka, takich jak cyberbezpieczeństwo, biologia, chemia i tzw. distillation (technika trenowania mniejszych modeli AI na wynikach większych), Fable 5 blokuje odpowiedzi i przekierowuje użytkownika do starszego modelu, Claude Opus 4.8.
Mitochondria jako zagrożenie bioterrorystyczne
I tu właśnie zaczyna się absurd. Bo o ile blokowanie pytań o syntezę sarinu czy wąglika jest zrozumiałe, to odmowa odpowiedzi na pytanie „czym są mitochondria” to już inna liga. Kiedy jeden z użytkowników zapytał: „Tell me about the mitochondria, it is the powerhouse of the cell, right?” (Opowiedz mi o mitochondriach, to elektrownia komórki, prawda?), zamiast odpowiedzi pojawił się komunikat: „Fable 5 has safety measures that flag messages on most cybersecurity or biology topics. They may flag safe, normal content as well.”
Fable zablokował też pytania o:
- błony komórkowe
- działanie szczepionek mRNA
- czym jest Ebola i jak się rozprzestrzenia
- jak działa odporność na antybiotyki
- co powoduje katar sienny
Dla porównania, na pytania o chemię i cyberbezpieczeństwo model był wyraźnie bardziej otwarty. Fable bez problemu opisał TNT (pomijając instrukcję syntezy), omówił użycie chloru jako broni chemicznej, odpowiedział na pytania o fuzję i rozszczepienie jądrowe, a nawet wyjaśnił, jak zabezpieczyć iPhone’a przed hakerami. Biologia najwyraźniej wylądowała w osobnej kategorii ryzyka.
Komentarz redaktora
Rozumiem logikę, którą kieruje się Anthropic. Modele klasy Mythos są naprawdę wyjątkowe pod względem zdolności do analizy złożonych systemów biologicznych, i to właśnie ta zaawansowana warstwa możliwości budzi obawy o potencjalne nadużycia. Ale blokowanie pytania o mitochondria to przesada, która podważa zaufanie użytkowników.
Mam tu pytanie, które mnie nie opuszcza: czy producenci noży powinni odmawiać sprzedaży kuchennych noży, bo ktoś mógłby użyć ich jako broni? Granica między uzasadnioną ostrożnością a paraliżującym nadmiernym bezpieczeństwem jest cienka. Widać, że Anthropic w przypadku Fable 5 przekroczył ją w kierunku paranoi.
Z drugiej strony rozumiem, że to model debiutujący z zupełnie nową klasą możliwości. Lepiej zacząć od zbyt restrykcyjnych filtrów i je poluzować, niż zacząć od zbyt liberalnych i posprzątać po katastrofie. Pytanie, ile czerpliwości mają naukowcy i badacze, którzy płacą za dostęp do najnowszego modelu i zamiast niego dostają Opus 4.8.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Anthropic mówi wprost: to celowy kompromis
Rzeczniczka Anthropic, Paruul Maheshwary, przekazała The Verge:
„With the launch of Claude Fable 5, our first Mythos-class model, we believe models now have a greater ability to accomplish real-world scientific tasks and for malicious actors to potentially use our models for highly risky biological research. We have always used classifiers to block our models from helping with bioweapons-related requests. To deploy Fable 5 safely, we believe it was necessary to be overly conservative with our safeguards so they block most queries tied to biology work.”
(Wraz z premierą Claude Fable 5, naszego pierwszego modelu klasy Mythos, uważamy, że modele zyskały większą zdolność do wykonywania rzeczywistych zadań naukowych, co stwarza dla złośliwych aktorów potencjalne możliwości wykorzystania ich do wysoce ryzykownych badań biologicznych. Zawsze stosowaliśmy klasyfikatory blokujące pomoc w żądaniach związanych z bronią biologiczną. Aby bezpiecznie wdrożyć Fable 5, uznaliśmy za konieczne przyjęcie nadmiernie konserwatywnych zabezpieczeń, blokujących większość zapytań związanych z biologią.)
Maheshwary dodała, że Anthropic pracuje nad poprawą filtrów i redukcją fałszywych alarmów, zapowiadając udostępnienie modeli klasy Mythos bez tych ograniczeń szerszej społeczności biologicznej i life sciences, tak by możliwości te służyły przyspieszeniu badań biomedycznych i odkrywaniu nowych leków.
Cichy sabotaż to osobna sprawa
Sprawa filtrów biologicznych to jednak nie jedyna kontrowersja wokół Fable 5. Analitycy i badacze zwrócili uwagę na fragment systemu karty modelu, który ujawnia, że Fable może po cichu obniżać jakość swoich odpowiedzi na zapytania związane z zaawansowanymi pracami nad AI, bez informowania o tym użytkownika. W odróżnieniu od widocznych blokad przy pytaniach o biologię czy cyberbezpieczeństwo, ta interwencja jest niewidoczna. Model odpowiada, ale celowo ogranicza własną skuteczność.
Nathan Lambert, badacz modeli open-source i były lider projektu w AI2, napisał wprost: „To have my access to the cutting edge models for my work rug pulled in an under the table fashion is appalling” (Utrata dostępu do najnowocześniejszych modeli w mój pracy przeprowadzona w tak zakulisowy sposób jest skandaliczna).
Anthropic szacuje, że ukryte ograniczenia dotkną około 0,03% ruchu, ale broni swojego podejścia, argumentując, że „egzekwowanie tych ograniczeń przez zabezpieczenia zapobiega przyspieszaniu działań podmiotów najbardziej skłonnych do naruszania warunków korzystania.”
Co to oznacza w praktyce
Anthropic podaje, że ponad 95% sesji z Fable 5 przebiega bez żadnych przekierowań do Opus 4.8. Dla typowych zastosowań, takich jak pisanie, kodowanie, research czy zarządzanie projektami, większość użytkowników nigdy nie odczuje ograniczeń. Problem jest bardziej odczuwalny dla badaczy, naukowców i specjalistów ds. bezpieczeństwa, którzy pracują w obszarach uznanych przez Anthropic za ryzykowne.
To właśnie ta asymetria jest najbardziej kłopotliwa. Zwykły użytkownik pytający „jak działa szczepionka mRNA” nie dostaje odpowiedzi od najmocniejszego dostępnego modelu. Terrorysta szukający czegoś faktycznie niebezpiecznego i tak szuka gdzie indziej.
Anthropic nie odpowiedziało na pytanie, czy ten model ograniczonego, stopniowego udostępniania stanie się nową normą przy kolejnych premierach.
