Mama płacze. Syn siedzi w areszcie. Córka miała wypadek. Musisz przelać pieniądze natychmiast, bo inaczej będzie za późno. Brzmi jak scenariusz z serialu kryminalnego, ale to codzienność tysięcy rodzin, które odebrały telefon i usłyszały głos kogoś bliskiego w opałach. Głos, który nigdy nie wydostał żadnego dźwięku.
Kluczowe fakty:
- W 2025 roku Amerykanie stracili ponad 5 milionów dolarów na oszustwach z klonowaniem głosu typu "rodzinny kryzys", a łączne straty z oszustw podszywania się wyniosły 3,5 miliarda dolarów.
- Do sklonowania czyjegoś głosu wystarczą jedynie trzy sekundy nagrania, które przestępcy mogą pozyskać z mediów społecznościowych, podcastów czy poczty głosowej.
- Oszuści wykorzystują przejęte konta w mediach społecznościowych, przez co weryfikacja tożsamości rozmówcy staje się niemożliwa – klon głosowy odpowiada z prawdziwego profilu ofiary.
Oszustwa z użyciem klonowania głosu (ang. voice cloning scams) stają się jednym z najszybciej rosnących rodzajów cyberprzestępczości na świecie. Badacze z firmy Trend Micro ustalili, że w samym 2025 roku Amerykanie stracili ponad 5 milionów dolarów wyłącznie na skutek tzw. scamów „rodzinnego kryzysu”, w których przestępcy podszywali się pod bliskich. Ale to tylko wycinek szerszego obrazu. Federalna Komisja Handlu (FTC) odnotowała ponad milion zgłoszeń dotyczących oszustw podszywania się pod inne osoby w 2025 roku, a łączne straty zbliżyły się do 3,5 miliarda dolarów.
Trzy sekundy to wystarczająco dużo
Kluczowym przełomem, który zamienił voice cloning z ciekawostki technologicznej w broń masowego rażenia, jest to, jak mało materiału wystarczy do stworzenia kopii głosu. Badacze potwierdzają, że przestępcy potrzebują zaledwie trzech sekund nagrania, by sklonować czyjś głos wraz z tonem, wzorcem mowy i akcentem na tyle wiarygodnie, że większość ludzi nie jest w stanie odróżnić kopii od oryginału.
Skąd biorą te trzy sekundy? Wszędzie:
- z filmów na TikToku, Instagramie, Facebooku
- z powitania w poczcie głosowej
- z podcastów i wywiadów wideo
- z nagranych wcześniej rozmów telefonicznych, które sam zainicjował oszust
- ze skradzionych kont w mediach społecznościowych
Szczególnie podstępny scenariusz pojawia się, gdy ktoś próbuje zweryfikować rozmówcę przez media społecznościowe i oddzwania na konto bliskiej osoby. Jeśli to konto zostało przejęte, po drugiej stronie ponownie odpowiada klon głosowy, korzystając z prawdziwego profilu ofiary. Krąg się zamyka.
Polskie podwórko nie jest bezpieczne
Choć większość danych statystycznych pochodzi z USA, problem ma globalny zasięg i Polska nie jest wyjątkiem. Krajowe organy bezpieczeństwa, w tym CERT Polska, od kilku lat ostrzegają przed ewolucją klasycznych metod oszustw „na wnuczka” czy „na policjanta” właśnie w kierunku AI. Fundacja Obywatelski Wschód dokumentuje przypadki, w których podczas warsztatów z edukacji cyfrowej na telefony uczestników przychodziły wiadomości zawierające elementy deepfake, w tym preparowany wizerunek i głos.
Polska miała też swój precedens na poziomie prawnym: w listopadzie 2025 roku do Sądu Okręgowego w Warszawie trafił pierwszy w Polsce pozew o kradzież głosu z użyciem AI, w którym znany lektor Jarosław Łukomski oskarżył firmę o wykorzystanie jego głosu w reklamach bez zgody i wynagrodzenia. To co prawda sprawa cywilna, a nie kryminalna, ale dobrze ilustruje, jak łatwo można przywłaszczyć czyjś głos.
Komentarz redaktora
Voice cloning to jeden z tych tematów, przy których mam mieszane uczucia. Z jednej strony technologia klonowania głosu ma masę legalnych, pożytecznych zastosowań: od audiobooków, przez dostępność dla osób z niepełnosprawnościami, po produkcję filmową. Z drugiej strony trafia w najczulszy punkt ludzkiej psychiki, czyli zaufanie do głosu bliskiej osoby. I to jest naprawdę trudne do obronienia za pomocą jakiejkolwiek edukacji cyfrowej, bo mózg reaguje na znajomy głos instynktownie, zanim zdążymy uruchomić racjonalne myślenie.
Pytanie, które mnie niepokoi, brzmi: kto ponosi odpowiedzialność? Platformy społecznościowe, które są kopalniami nagrań głosowych? Twórcy narzędzi do klonowania głosu? Regulatorzy? Unia Europejska powoli zbliża się do tematu w ramach AI Act, ale przepisy powstają wolniej niż technologia. Tymczasem przestępcy nie czekają na regulacje.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
„Nie możemy oczekiwać, że ludzie to rozpoznają”
Eksperci są jednomyślni w jednej kwestii: próba wykrycia klonu głosowego na podstawie samego brzmienia to dziś ślepa uliczka. Henry Ajder, jeden z czołowych na świecie ekspertów od syntetycznych mediów doradzający rządom i korporacjom, mówi wprost:
„For the everyday person, it is just not fair to expect them to be able to spot this stuff. I struggle with it. Most people do.” / „Dla przeciętnego człowieka po prostu nie jest fair oczekiwać, że będzie w stanie to rozpoznać. Ja sam mam z tym problem. Większość ludzi ma.”
Fortune w grudniu 2025 roku opisało moment, który branża cyberbezpieczeństwa określa jako „próg nierozróżnialności”: ludzkie ucho nie jest już w stanie niezawodnie odróżnić sklonowanego głosu od prawdziwego. Dawne sygnały ostrzegawcze, takie jak nienaturalne pauzy czy metaliczne brzmienie, przestały być wiarygodnym wyznacznikiem.
Jak się chronić, skoro nie można ufać uszom?
Skoro detekcja techniczna zawodzi, eksperci zalecają skupienie się na wzorcach zachowań oszustów, a nie na jakości nagrania.
Czerwone flagi do zapamiętania:
- Presja czasu – „musisz działać teraz, bo będzie za późno”
- Nakaz tajemnicy – „nikomu nie mów, co się dzieje”
- Niecodzienny sposób płatności – przelew BLIK, kryptowaluty, gotówka przez kuriera
- Niemożność oddzwonić na znany numer – rozmówca prosi o kontakt wyłącznie przez niego
Ajder radzi też bez wahania rozłączyć się i skontaktować z bliską osobą przez inny kanał, najlepiej SMS lub telefon na dobrze znany numer. „Ultimately, if you suspect that something might not be right, it is much better to have your mum or your brother or your friend laugh at you for thinking that they’re a robot than it is to potentially be running to an ATM.” / „Ostatecznie, jeśli coś cię niepokoi, o wiele lepiej, żeby mama lub brat śmiali się z ciebie, że wzięłeś ich za robota, niż żebyś miał biec do bankomatu.”
Kod rodzinny, czyli stara metoda na nowe zagrożenie
Jednym z najprostszych, a zarazem najskuteczniejszych mechanizmów obronnych jest tzw. kod rodzinny. To umówione z góry słowo lub fraza, znana wyłącznie wąskiemu gronu bliskich, której użycie w rozmowie telefonicznej może potwierdzić tożsamość rozmówcy. Kluczowe jest, by kod nie pojawił się nigdzie w sieci i żeby był regularnie odświeżany.
Co trzecia osoba, która angażuje się w rozmowę z AI-powered scam call, traci pieniądze, a średnia strata w badanych przypadkach przekracza 18 tysięcy dolarów. Kod rodzinny kosztuje zero.
Skala zjawiska będzie rosnąć. Liczba plików deepfake wzrosła z 500 tysięcy w 2023 roku do 8 milionów w 2025 roku, a globalne straty z tytułu oszustw opartych na deepfake mogą osiągnąć 40 miliardów dolarów do 2027 roku. Technologia jest dostępna, tania i działa. Jedyne co może ją zatrzymać, to więcej wiedzy po stronie potencjalnych ofiar, solidniejsze regulacje i odpowiedzialność platform, które dostarczają surowego materiału głosowego całemu przestępczemu ekosystemowi.
