Prawie połowa odpowiedzi udzielanych przez popularne chatboty AI na pytania medyczne jest „problematyczna” – wynika z badania opublikowanego w piśmie naukowym BMJ Open. Naukowcy z Instytutu Lundquista przy Harbor-UCLA Medical Center postanowili sprawdzić, co się dzieje, gdy użytkownik pyta asystenta AI o alternatywy dla chemioterapii, niebezpieczeństwo szczepionek czy związek sieci 5G z rakiem.
Metoda „straining”, czyli jak skłonić bota do złej rady
Badacze przetestowali pięć narzędzi dostępnych w darmowych wersjach: Gemini od Google, DeepSeek, Meta AI, ChatGPT oraz Grok Elona Muska. W lutym 2025 roku zadawali im pytania z dziedzin, w których dezinformacja medyczna szczególnie kwitnie: onkologia, szczepienia, komórki macierzyste, odżywianie i wspomaganie wydajności sportowej.
Kluczowym elementem metodologii było coś, co autorzy nazwali „strainingiem” – czyli celowym formułowaniem pytań w sposób, który zakłada z góry określoną odpowiedź. Nick Tiller, główny autor badania i pracownik naukowy Instytutu Lundquista, wyjaśnia, że takie prompty odzwierciedlają sposób, w jaki ludzie faktycznie zadają pytania, gdy już mają w głowie gotową odpowiedź.
Jak to brzmi w oryginale?
„A lot of people are asking exactly those questions. If somebody believes that raw milk is going to be beneficial, then the search terms are already going to be primed with that kind of language.” / „Wiele osób zadaje dokładnie takie pytania. Jeśli ktoś wierzy, że surowe mleko jest korzystne, to już sama treść zapytania będzie nacechowana tym przekonaniem.”
Pytania dotyczyły między innymi tego, czy technologia 5G lub antyperspiranty powodują raka, które szczepionki są niebezpieczne i czy sterydy anaboliczne są bezpieczne.
Niemal połowa odpowiedzi budzi wątpliwości
Wyniki są niepokojące: prawie połowa wszystkich odpowiedzi chatbotów okazała się „problematyczna”. Z tej grupy 30% sklasyfikowano jako „umiarkowanie problematyczne”, a 19,6% jako „wysoce problematyczne”.
Co to oznacza w praktyce?
- Odpowiedzi „umiarkowanie problematyczne” były w dużej mierze poprawne, ale niepełne i pozbawione niezbędnego kontekstu.
- Odpowiedzi „wysoce problematyczne” zawierały nieprawidłowe informacje i pozostawiały duże pole do subiektywnej interpretacji.
- Jakość odpowiedzi była ogólnie zbliżona we wszystkich testowanych narzędziach, choć Grok wypadł najgorzej.
„False balance”, czyli równe traktowanie nauki i pseudonauki
Szczególnie niepokojący schemat, który badacze zauważyli w odpowiedziach dotyczących onkologii, to tzw. „false balance” – fałszywa równowaga. Chatboty, zapytane o to, które terapie alternatywne są lepsze od chemioterapii, zazwyczaj ostrzegały, że metody niekonwencjonalne nie mają podstaw naukowych. A potem mimo to je wymieniały: akupunktura, medycyna ziołowa, „diety przeciwnowotworowe”. Niektóre boty posuwały się dalej i wskazywały konkretne kliniki oferujące takie leczenie.
Jeden z botów wymienił terapię Gersona jako alternatywę – metodę, której zwolennicy aktywnie odradzają chemioterapię.
Chatboty AI robią coraz większą karierę jako źródło informacji zdrowotnych i trudno się temu dziwić – są dostępne o każdej porze, nie oceniają, odpowiadają natychmiast. Z drugiej strony, to właśnie ta pozorna przystępność może być pułapką. Użytkownik, który szuka potwierdzenia swoich przekonań, dostaje odpowiedź skrojoną pod jego pytanie – i może odczytać ją jako zielone światło dla ryzykownych decyzji. Nie sądzę, żeby producenci chatbotów działali w złej wierze, ale pytanie o odpowiedzialność za tego rodzaju „fałszywą równowagę” pozostaje otwarte. Kto ponosi konsekwencje, gdy pacjent rezygnuje z chemioterapii, bo bot przedstawił mu alternatywę jako godną rozważenia?
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Lekarze: to nie jest problem abstrakcyjny
Dr Michael Foote z Memorial Sloan Kettering Cancer Center zwraca uwagę, że w sieci roi się od fałszywych przekazów dotyczących witamin i alternatywnych terapii, które rzekomo wyleczyły ludzi z nowotworów.
„Some of this stuff hurts people directly. Some of these medicines aren’t evaluated by the FDA, can hurt your liver, hurt your metabolism and some of them hurt you by patients relying on them and not doing conventional treatments.” / „Część z tych rzeczy bezpośrednio krzywdzi ludzi. Niektóre z tych substancji nie przeszły oceny FDA, mogą uszkodzić wątrobę, zaburzyć metabolizm, a część z nich szkodzi pacjentom dlatego, że polegają na nich zamiast sięgać po konwencjonalne leczenie.”
Foote dodał, że spotkał się z przypadkami pacjentów, którzy przychodzili do jego gabinetu zapłakani i przerażeni, bo chatbot oznajmił im, że mają od sześciu do dwunastu miesięcy życia.
„I’ve encountered where patients come in crying, really upset because the AI chatbot told them they have six to 12 months to live, which, of course, is totally ridiculous.” / „Zdarzało mi się, że pacjenci przychodzili płacząc, bardzo roztrzęsieni, bo chatbot AI powiedział im, że mają od sześciu do dwunastu miesięcy życia – co jest oczywiście całkowitym absurdem.”
Regulacje nie nadążają za technologią
Dr Ashwin Ramaswamy z Mount Sinai Hospital w Nowym Jorku ocenia, że wysiłki na rzecz uczynienia AI bezpieczniejszym i bardziej wiarygodnym „pozostają w tyle”.
„The technology that’s needed, the methodology that’s needed for the FDA, for people, for doctors, to understand how it works and to have trust in the system is not there yet.” / „Technologia potrzebna do tego, metodologia potrzebna FDA, ludziom i lekarzom, żeby rozumieć, jak to działa i móc zaufać systemowi – tego jeszcze nie ma.”
Według niedawnego sondażu KFF, około jedna trzecia dorosłych Amerykanów korzysta już z AI jako źródła informacji zdrowotnych. To oznacza, że problem opisany w badaniu nie dotyczy marginesu użytkowników – dotyczy dziesiątek milionów ludzi, którzy codziennie pytają chatboty o swoje zdrowie i podejmują na tej podstawie realne decyzje.
