Darmowy model od OpenAI zamienia nagrania w tekst z dokładnością, której żadne płatne narzędzie nie dorównuje – i możesz uruchomić go lokalnie, bez wysyłania danych na żaden serwer.
Whisper pojawił się na świecie we wrześniu 2022 roku i od razu wywrócił branżę transkrypcji do góry nogami. OpenAI wypuściło go jako projekt otwartoźródłowy na licencji MIT, co oznacza: możesz go pobrać, zainstalować i używać za darmo, bez limitów i bez rejestracji. Jeśli pracujesz z nagraniami audio lub wideo – rozmowy, wywiady, podcasty, spotkania – to jest narzędzie, które warto znać.
W tym artykule dowiesz się:
- Czym dokładnie jest Whisper i co go wyróżnia na tle konkurencji
- Jak zainstalować go lokalnie na Windows, macOS i Linux
- Jak wybrać właściwy rozmiar modelu dla swoich potrzeb
- Jak używać Whisper przez wiersz poleceń i przez kod Pythona
- Jak korzystać z Whisper przez API OpenAI bez lokalnej instalacji
- Z jakimi narzędziami zewnętrznymi można go połączyć
Jeśli interesujesz się szerzej tematem sztucznej inteligencji w pracy z materiałami audiowizualnymi, zajrzyj do naszego centrum wiedzy o AI do video – tam znajdziesz przegląd narzędzi, porównania i praktyczne poradniki z tej dziedziny.
Czym jest Whisper i dlaczego wszyscy o nim mówią
Whisper to model rozpoznawania mowy opracowany przez OpenAI. Wytrenowano go na 680 tysięcy godzin różnorodnych nagrań audio z całego internetu, co przekłada się na wyjątkową odporność na akcenty, szumy tła i specjalistyczny słownik techniczny. Najnowsza wersja, Large-v3, była trenowana na zbiorze przekraczającym 5 milionów godzin materiału.
Co odróżnia Whisper od starszych narzędzi do transkrypcji? Kilka rzeczy:
- Obsługa 99 języków – w tym polskiego, co w tej klasie narzędzi wciąż nie jest oczywistością
- Tłumaczenie mowy – możliwość bezpośredniego tłumaczenia wypowiedzi z dowolnego języka na angielski
- Praca lokalna – po jednorazowym pobraniu modelu działa bez dostępu do internetu
- Brak cenzury danych – nagrania nie opuszczają twojego komputera
- Darmowość – kod źródłowy i wagi modelu są dostępne na licencji MIT
„W świecie, gdzie każde narzędzie AI chce dostępu do twoich danych, Whisper to rzadki przypadek – naprawdę dobrego modelu, który możesz uruchomić w zupełnej prywatności.” – Piotr Wolniewicz, Redakcja AIPORT.pl – AI w Praktyce
Whisper działa w oparciu o architekturę Transformer sequence-to-sequence, czyli te same fundamenty, które stoją za nowoczesnymi modelami językowymi. Przetwarza nagranie przez przesuwające się okno 30 sekund, co pozwala obsłużyć pliki dowolnej długości.
Według danych z Hugging Face, Whisper Large-v3 notuje ponad 4 miliony pobrań miesięcznie i jest najczęściej używanym otwartoźródłowym modelem do rozpoznawania mowy na świecie. Dla porównania: wdrożenie Whisper jako API kosztuje 0,006 USD za minutę – czyli ok. 0,36 USD za godzinę – co stanowi o 75% mniej niż porównywalne usługi Google Cloud Speech-to-Text i AWS Transcribe.
Whisper ma oczywiste zastosowanie jako element szerszego procesu produkcji wideo – generowanie napisów, automatyczne streszczenia materiałów, transkrypcje nagrań ze spotkań. Jeśli chcesz zobaczyć, jakie inne narzędzia wspierają generowanie video AI, mamy dla Ciebie obszerny przegląd na stronie głównej klastra.
Modele Whisper – który wybrać
OpenAI udostępnia Whisper w kilku rozmiarach. Wybór właściwego to jeden z pierwszych kroków i nie jest oczywisty – każdy wariant to inny kompromis między dokładnością, szybkością i zapotrzebowaniem na pamięć.
| Model | Parametry | Pamięć RAM/VRAM | Względna szybkość | Kiedy używać |
|---|---|---|---|---|
| tiny | 39 mln | ok. 1 GB | najszybszy | szybkie notatki, słabe sprzęty |
| base | 74 mln | ok. 1 GB | bardzo szybki | proste nagrania po angielsku |
| small | 244 mln | ok. 2 GB | szybki | codzienna transkrypcja, dobry CPU |
| medium | 769 mln | ok. 5 GB | umiarkowany | wyższa jakość, GTX 1060+ |
| large-v3 | 1550 mln | ok. 10 GB | bazowy | maksymalna dokładność, GPU |
| turbo | 809 mln | ok. 6 GB | 6x szybszy niż large | najlepszy stosunek jakości do czasu |
Turbo to szczególny przypadek – jest to zoptymalizowana wersja large-v3, w której zredukowano liczbę warstw dekodera z 32 do 4. Efekt? Prędkość zbliżona do modelu base przy dokładności bliskiej large-v2. Dla zdecydowanej większości zastosowań turbo to po prostu najrozsądniejszy wybór.
Kilka zasad przy wyborze:
- Jeśli masz komputer bez dedykowanej karty graficznej: zacznij od small lub turbo
- Jeśli zależy ci na maksymalnej dokładności i masz GPU z 10 GB VRAM: large-v3
- Jeśli transkrybujesz tylko angielski: rozważ warianty .en (np.
small.en) – działają sprawniej - Jeśli transkrybujesz język polski: minimum medium, najlepiej large-v3 lub turbo
Uwaga: model turbo nie obsługuje zadania tłumaczenia (flaga --task translate). Jeśli potrzebujesz przetłumaczyć polskie nagranie na angielski, użyj medium lub large.
Instalacja Whisper lokalnie – krok po kroku
Wymagania wstępne
Zanim zaczniesz, musisz mieć na komputerze:
- Python 3.8–3.11 (wersja 3.12 może powodować problemy z zależnościami)
- pip – instalator pakietów Pythona (zwykle dostarczany razem z Pythonem)
- FFmpeg – biblioteka do obsługi formatów audio
- GPU z CUDA (opcjonalnie, ale bardzo przyspiesza pracę)
FFmpeg to element, o którym łatwo zapomnieć – a bez niego Whisper nie przetworzy pliku audio i wyrzuci błąd już na starcie.
Instalacja FFmpeg
System operacyjny decyduje o metodzie instalacji:
- Windows – przez Chocolatey:
choco install ffmpeg - macOS – przez Homebrew:
brew install ffmpeg - Ubuntu/Debian:
sudo apt install ffmpeg
Po instalacji sprawdź, czy FFmpeg jest dostępny w PATH: ffmpeg -version
Instalacja samego Whisper
Najprościej przez pip:
pip install openai-whisper
Uwaga: poprawna nazwa pakietu to openai-whisper z łącznikiem. Wiele osób wpisuje pip install whisper i kończy z innym pakietem.
Dla najbardziej aktualnej wersji prosto z repozytorium:
pip install git+https://github.com/openai/whisper.git
Jeśli instalacja kończy się błędem No module named 'setuptools_rust', doinstaluj:
pip install setuptools-rust
Dobrą praktyką jest stworzenie przed instalacją wirtualnego środowiska:
python -m venv whisper-env
source whisper-env/bin/activate # macOS/Linux
whisper-env\Scripts\activate.bat # Windows
pip install openai-whisper
Izoluje to zależności Whisper od reszty środowiska Pythona i zapobiega konfliktom wersji.
Pierwszy model pobierze się automatycznie
Wagi modelu nie są częścią pakietu pip. Whisper pobierze je automatycznie przy pierwszym uruchomieniu i zapisze lokalnie. Przykładowo model large-v3 waży ok. 3 GB – pobieranie przy wolniejszym połączeniu może zająć kilka minut.
Jak używać Whisper z wiersza poleceń
Po instalacji masz do dyspozycji polecenie whisper. Składnia jest prosta:
whisper plik_audio.mp3
To tyle, żeby zacząć. Whisper wybierze model turbo i spróbuje wykryć język automatycznie.
Przydatne opcje:
whisper nagranie.mp3 --model large-v3 --language Polish
whisper wywiad.wav --model turbo --output_format srt
whisper spotkanie.mp4 --model medium --task translate
Co robią poszczególne flagi:
--model– wybór rozmiaru modelu (tiny, base, small, medium, large-v3, turbo)--language– wymuszenie języka (bez tego Whisper wykrywa automatycznie)--output_format– format wyjścia: txt, srt, vtt, tsv, json--task–transcribe(domyślnie) lubtranslate(tłumaczenie na angielski)
Whisper obsługuje pliki mp3, mp4, wav, flac, m4a i wiele innych. Wyniki zapisywane są domyślnie w tym samym folderze co plik wejściowy.
Użycie Whisper w Pythonie
Jeśli chcesz zintegrować transkrypcję z własnym kodem:
import whisper
model = whisper.load_model("turbo")
wynik = model.transcribe("nagranie.mp3", language="pl")
print(wynik["text"])
Trzy linie i masz gotowy tekst. Jeśli potrzebujesz znaczników czasu:
for segment in wynik["segments"]:
print(f"[{segment['start']:.1f}s – {segment['end']:.1f}s]: {segment['text']}")
Do wykrywania języka bez pełnej transkrypcji:
audio = whisper.load_audio("plik.mp3")
audio = whisper.pad_or_trim(audio)
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)
_, probs = model.detect_language(mel)
print(f"Wykryty język: {max(probs, key=probs.get)}")
Whisper przez API OpenAI – bez lokalnej instalacji
Jeśli nie chcesz instalować niczego lokalnie, OpenAI udostępnia Whisper jako usługę w chmurze. Wystarczy konto na platform.openai.com i klucz API.
Koszt: 0,006 USD za minutę (ok. 0,36 USD za godzinę). Dla porównania, model GPT-4o Mini Transcribe kosztuje 0,003 USD za minutę i jest wystarczający do większości zastosowań.
Prosty przykład w Pythonie:
from openai import OpenAI
client = OpenAI()
with open("nagranie.mp3", "rb") as audio_file:
transkrypcja = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
language="pl"
)
print(transkrypcja.text)
Ograniczenia API warte uwagi:
- Limit pliku: 25 MB – większe nagrania trzeba podzielić lub skonwertować do niższego bitratu
- Płatność za całą długość pliku, nie tylko fragmenty z mową
- Brak obsługi identyfikacji mówiących (diaryzacja wymaga osobnego narzędzia)
- Nie nadaje się do transkrypcji w czasie rzeczywistym
Kiedy więc wybierać API, a kiedy instalację lokalną?
| Scenariusz | Lokalna instalacja | API |
|---|---|---|
| Jednorazowe użycie | Zbędna konfiguracja | Szybszy start |
| Wysokie wolumeny (>500 h/m-c) | Opłacalniejsze | Droższe |
| Prywatność danych | Dane nie opuszczają komputera | Dane wysyłane do OpenAI |
| Brak dobrego GPU | Może być wolno | Bez znaczenia |
| Integracja z kodem produkcyjnym | Wymaga zarządzania infrastrukturą | Prostsze API |
Narzędzia i integracje oparte na Whisper
Whisper stał się podstawą dla całego ekosystemu aplikacji. Jeśli nie chcesz konfigurować Pythona, możesz skorzystać z gotowych nakładek, które oferują interfejs graficzny lub dodatkowe funkcje.
Najpopularniejsze narzędzia zbudowane na Whisper:
- Whisper.cpp – implementacja w C++, działa błyskawicznie nawet bez GPU, obsługuje Apple Silicon (Metal)
- Faster Whisper – implementacja oparta na CTranslate2, do 4 razy szybsza niż oryginał przy tej samej dokładności
- WhisperX – wersja ze znacznikami czasu na poziomie słów i diaryzacją mówców
- Whisper Transcriber (GUI) – prosta aplikacja okienkowa, bez znajomości Pythona
- Podkasty, Descript, Otter.ai – aplikacje komercyjne, wiele z nich używa Whisper pod spodem
Whisper jest też coraz częściej integrowany z narzędziami do tworzenia filmów AI – zarówno w celu automatycznego generowania napisów, jak i jako wejście dla systemów generujących opisy czy streszczenia wideo.
„Whisper to już nie jest niszowe narzędzie dla programistów. Stał się standardem infrastrukturalnym – tak jak FFmpeg dla wideo. Coraz więcej aplikacji używa go bez rozgłosu, po cichu, gdzieś pod maską.” – Piotr Wolniewicz, Redakcja AIPORT.pl – AI w Praktyce
Typowe problemy i jak je rozwiązać
Kilka błędów pojawia się przy instalacji Whisper wyjątkowo często. Warto wiedzieć, co za nimi stoi.
Błąd: FileNotFoundError: [Errno 2] No such file or directory: 'ffmpeg' Whisper nie może znaleźć FFmpeg. Zainstaluj go i dodaj do zmiennej środowiskowej PATH. Na Windows zrestartuj terminal po instalacji.
Błąd: No module named 'whisper' po instalacji Pakiet zainstalował się w innym środowisku Pythona niż to, którego używasz. Sprawdź, czy wirtualne środowisko jest aktywne i powtórz instalację.
Błąd: CUDA out of memory Model jest za duży dla twojej karty graficznej. Zejdź do mniejszego rozmiaru modelu lub dodaj flagę --device cpu (wolniej, ale zadziała).
Transkrypcja jest po angielsku, mimo że nagranie po polsku Whisper błędnie wykrył język. Dodaj --language Polish do polecenia lub language="pl" w kodzie Pythona.
Instalacja zawiesza się lub kończy błędem setuptools Zainstaluj ręcznie: pip install setuptools-rust, następnie powtórz pip install openai-whisper.
Whisper a polszczyzna – co warto wiedzieć
Whisper radzi sobie z polskim dobrze, ale nie idealnie. Na czystych nagraniach w dobrej jakości model large-v3 osiąga wyniki na poziomie zawodowej transkrypcji. Przy nagraniach z szumem tła, silnym akcentem regionalnym lub specjalistycznym słownictwem pojawiają się błędy – szczególnie w nazwach własnych i żargonie branżowym.
Kilka wskazówek praktycznych dla polskich nagrań:
- Zawsze podawaj
--language Polishzamiast polegać na automatycznym wykrywaniu - Dla podcastów i wywiadów w dobrej jakości: model turbo jest wystarczający
- Dla nagrań ze spotkań z kilkoma mówcami i szumem: large-v3 lub WhisperX z diaryzacją
- Przy transkrypcji nazw własnych, skrótów i terminów technicznych: zawsze weryfikuj ręcznie
- Słownictwo medyczne, prawnicze i techniczne warto post-przetwarzać przez model językowy
Warto też wiedzieć, że wskaźnik błędów słów (Word Error Rate) dla języka polskiego w modelu large-v3 wynosi poniżej 10% dla czystych nagrań – to wynik porównywalny z droższymi rozwiązaniami komercyjnymi.
FAQ – najczęstsze pytania o Whisper
Czy Whisper jest całkowicie bezpłatny?
Model otwartoźródłowy dostępny przez pip jest w 100% darmowy i możesz go używać bez żadnych opłat. Płatność pojawia się tylko przy korzystaniu z API OpenAI – 0,006 USD za minutę nagrania. Nie ma ukrytych limitów ani subskrypcji.
Jakie formaty plików obsługuje Whisper?
Whisper obsługuje wszelkie formaty audio i wideo, które potrafi przetworzyć FFmpeg. W praktyce oznacza to mp3, mp4, wav, flac, m4a, ogg, webm i wiele innych. Ograniczenie pliku przy użyciu API wynosi 25 MB – przy instalacji lokalnej brak tego limitu.
Czy Whisper działa w czasie rzeczywistym?
Standardowy Whisper nie jest zaprojektowany do transkrypcji na żywo. Przetwarza nagrania przesuwnym oknem 30 sekund, co wprowadza opóźnienie. Istnieją zewnętrzne biblioteki (np. whisper-live, faster-whisper-server) umożliwiające transkrypcję zbliżoną do czasu rzeczywistego, ale wymagają dodatkowej konfiguracji.
Jak długo trwa transkrypcja godzinnego nagrania?
To zależy od modelu i sprzętu. Model turbo na karcie RTX 3060 przetworzy godzinne nagranie w ok. 3-5 minut. Na samym procesorze bez GPU to samo zajmie 20-40 minut. Model large-v3 Turbo może transkrybować 60-minutowe nagranie w ok. 17 sekund na szybkiej karcie A100.
Czy Whisper potrafi rozróżnić różnych mówców?
Nie – standardowy Whisper nie ma wbudowanej diaryzacji mówców. Jeśli potrzebujesz oznaczenia „kto mówi”, skorzystaj z WhisperX lub Pyannote.audio, które dodają tę funkcję na podstawie osobnego modelu segmentacji.
Czy mogę używać Whisper komercyjnie?
Tak. Model jest dostępny na licencji MIT, która pozwala na użycie komercyjne bez opłat. Możesz go wbudować w swój produkt, oferować jako usługę lub używać wewnętrznie w firmie.
Co to jest model turbo i czym różni się od large-v3?
Turbo (pełna nazwa: large-v3-turbo) to zoptymalizowana wersja large-v3 z ograniczoną liczbą warstw dekodera – z 32 do zaledwie 4. Efekt to kilkukrotny wzrost prędkości przy minimalnym spadku dokładności. Uwaga: turbo nie obsługuje trybu tłumaczenia (--task translate). Do tego celu nadal potrzebujesz modelu medium lub large.
Jak zainstalować Whisper na komputerze bez GPU?
Instalacja przebiega tak samo jak z GPU. Różnica pojawia się przy uruchamianiu: Whisper automatycznie korzysta z CPU, jeśli nie wykryje kompatybilnej karty graficznej z CUDA. Praca na CPU jest wolniejsza, ale w pełni funkcjonalna. Dla lepszej wydajności na procesorze rozważ bibliotekę Faster Whisper lub Whisper.cpp.
Czy Whisper potrafi transkrybować nagrania telekonferencji z Zooma?
Tak. Eksportuj nagranie z Zooma jako plik mp4 lub mp3 i przekaż go do Whisper. Jakość zależy od jakości połączenia podczas rozmowy. Przy kilku mówcach warto użyć WhisperX dla diaryzacji. Formaty m4a i mp4 są obsługiwane bez konwersji.
Podsumowanie
Whisper to jeden z tych rzadkich przypadków, gdy model otwartoźródłowy jest jednocześnie najlepszy, darmowy i po prostu użyteczny w codziennej pracy. Nie wymaga płacenia za każdą minutę, nie wysyła twoich danych do żadnej chmury i działa na każdym systemie operacyjnym. Instalacja trwa tyle co kawa, a pierwsze nagranie transkrybujesz w pięć minut od otwarcia terminala.
Jeśli miałbym polecić jedno narzędzie każdemu, kto regularnie pracuje z nagraniami audio – konferencje, wywiady, podcasty, spotkania, wykłady – to właśnie Whisper byłby tym wyborem. Model turbo to dzisiaj złoty środek: działa błyskawicznie, ma świetną dokładność i nie potrzebuje kosmicznego GPU. Large-v3 zostawiam na te sytuacje, gdy każde słowo musi być idealne.
Whisper ma też swoją drugą twarz: to fundament, na którym zbudowane są dziesiątki innych narzędzi. Faster Whisper, WhisperX, niezliczone aplikacje z interfejsem graficznym – wszystkie stoją na tych samych wagach modelu. Instalujesz raz, korzystasz w dziesiątkach konfiguracji.
Na koniec mała przewrotność: OpenAI stworzyło narzędzie, które tak dobrze działa za darmo, że trudno uzasadnić płacenie za API. Chyba że nie chcesz zawracać sobie głowy Pythonem i FFmpegiem – wtedy 0,006 USD za minutę to naprawdę godziwa cena.
Masz swoje triki związane z Whisperem? Znalazłeś jakiś ciekawy sposób na integrację z innymi narzędziami? Napisz w komentarzu – chętnie uzupełnimy ten poradnik o Twoje doświadczenia. I jeśli artykuł okazał się pomocny, podziel się nim z kimś, kto właśnie szuka dobrego narzędzia do transkrypcji.
