Cztery najpopularniejsze chatboty AI – ChatGPT, Microsoft Copilot, Google Gemini i Perplexity – błędnie przedstawiają informacje prasowe w niemal połowie przypadków. To nie hipoteza, nie przypuszczenie. To wynik największego tego typu badania na świecie, przeprowadzonego przez BBC wspólnie z Europejską Unią Nadawców (EBU).
Badanie objęło ponad 3000 odpowiedzi wygenerowanych przez cztery systemy AI. Wyniki nie pozostawiają złudzeń: 45 procent odpowiedzi zawierało przynajmniej jeden poważny błąd. 31 procent miało istotne problemy ze źródłami. A co piąta odpowiedź zawierała „poważne nieścisłości faktyczne, w tym halucynacje i nieaktualne informacje”. Jeśli uwzględnimy drobniejsze potknięcia, liczba odpowiedzi zawierających jakikolwiek błąd skacze do 81 procent.
Najgorzej wypadł Google Gemini. Aż 76 procent jego odpowiedzi miało „poważne problemy” z reprezentowaniem treści użytych jako źródło. To dwukrotnie więcej niż u pozostałych chatbotów.
Papież wciąż żyje, astronauci nigdy nie utknęli na orbicie
Przykłady konkretnych błędów są miejscami wręcz kuriozalne. ChatGPT twierdził, że papież Franciszek nadal pełni urząd – tygodnie po jego śmierci. Gemini z kolei przekonywał, że żaden astronauta NASA nigdy nie utknął w kosmosie, ignorując fakt, że dwóch członków załogi spędziło dziewięć miesięcy na uwięzieniu na Międzynarodowej Stacji Kosmicznej. Gdy badacze dopytywali, Gemini odparł, że pytający myli to pewnie z filmem science fiction.
Copilot, zapytany o zagrożenie ptasią grypą, powołał się na artykuł BBC z 2006 roku – sprzed niemal dwóch dekad – informując użytkownika o trwających próbach szczepionki w Oksfordzie.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl: Nie dajmy się jednak ponieść panice. BBC jest zainteresowaną stroną – broni swojej treści i swojego rynku, co jest zrozumiałe i uzasadnione. Zarazem, wyniki tego badania nie są zaskoczeniem dla nikogo, kto chatbotów używa regularnie. Pytanie brzmi: jaka jest alternatywa? Wyszukiwarki internetowe też kłamią, też promują dezinformację, też zwracają nieaktualne wyniki. Różnica polega na tym, że chatbot odpowiada pewnym głosem, bez linków, bez możliwości weryfikacji. To jest prawdziwy problem. Nie sam błąd, ale pewność siebie, z jaką jest podawany. Czy regulacja cokolwiek tu zmieni? I kto miałby ją egzekwować?
Zaufanie jest, weryfikacji nie ma
Co szczególnie niepokoi w tym badaniu, to kontrast między skalą zaufania użytkowników a skalą błędów. Towarzyszące badanie firmy Ipsos, przeprowadzone na grupie 2000 dorosłych Brytyjczyków, pokazuje, że 42 procent z nich ufa AI w kwestii dostarczania rzetelnych podsumowań wiadomości. Wśród osób poniżej 35. roku życia ten wskaźnik sięga już połowy.
Jednocześnie 84 procent badanych deklaruje, że jeden wykryty błąd faktyczny poważnie podważyłby ich zaufanie do AI. Innymi słowy: ufamy, bo nie sprawdzamy. A kiedy w końcu sprawdzimy, zaufanie runie.
W samym OpenAI jest tego świadomość. We wrześniowym raporcie firma przyznała wprost, że jej modele są „zaprojektowane, by brzmieć pewnie nawet wtedy, gdy nie znają odpowiedzi”. Chatboty są nagradzane za zgadywanie, nie za przyznawanie się do niewiedzy. To systemowy problem zakodowany na poziomie treningu.
Dziennikarze kontra algorytmy
W badaniu wzięły udział 22 organizacje mediów publicznych z 18 krajów. Odpowiedzi chatbotów oceniały dziennikarki i dziennikarze będący ekspertami w tematach, których dotyczyły pytania. Oceniano dokładność, bezstronność i wierność wobec źródeł.
Problemy, które identyfikowali najczęściej, to:
- fakty wyrwane z kontekstu lub całkowicie zmyślone,
- cytaty zniekształcone bądź nieistniejące w przywołanych artykułach,
- informacje przestarzałe, podawane jako aktualne,
- mieszanie opinii z faktami bez żadnego rozróżnienia.
Deborah Turness, CEO BBC News and Current Affairs, napisała wprost: „It’s not hard to see how quickly AI’s distortion could undermine people’s already fragile faith in facts and verified information. We live in troubled times, and how long will it be before an AI-distorted headline causes significant real world harm?”
Pete Archer, dyrektor programowy BBC ds. generatywnej AI, dodał, że wydawcy powinni mieć kontrolę nad tym, czy i jak ich treści są wykorzystywane przez systemy AI – a same firmy technologiczne powinny ujawniać, jak ich asystenci przetwarzają newsy oraz jaka jest skala i zakres generowanych błędów.
Co dalej z AI w redakcjach?
BBC nie zamierza odwrócić się od technologii plecami. Stacja już teraz używa AI wewnętrznie – do generowania napisów, tłumaczenia artykułów czy automatyzacji rutynowych zadań redakcyjnych. Oficjalny przekaz brzmi: „AI przyniesie realną wartość, gdy jest używana odpowiedzialnie.”
Jednocześnie raport zawiera konkretny toolkit – zestaw narzędzi dla deweloperów i organizacji medialnych, który ma pomóc w szkoleniu chatbotów tak, by nie „blefowały”, gdy nie znają odpowiedzi.
Jean Philip De Tender, zastępca dyrektora generalnego EBU, podsumował całość chłodno: „This research conclusively shows that these failings are not isolated incidents.”
To nie są jednostkowe wypadki przy pracy. To wzorzec.
