OpenAI Whisper – instalacja, modele i transkrypcja krok po kroku

0:00

Darmowy model od OpenAI zamienia nagrania w tekst z dokładnością, której żadne płatne narzędzie nie dorównuje – i możesz uruchomić go lokalnie, bez wysyłania danych na żaden serwer.

Whisper pojawił się na świecie we wrześniu 2022 roku i od razu wywrócił branżę transkrypcji do góry nogami. OpenAI wypuściło go jako projekt otwartoźródłowy na licencji MIT, co oznacza: możesz go pobrać, zainstalować i używać za darmo, bez limitów i bez rejestracji. Jeśli pracujesz z nagraniami audio lub wideo – rozmowy, wywiady, podcasty, spotkania – to jest narzędzie, które warto znać.

W tym artykule dowiesz się:

Czym dokładnie jest Whisper i co go wyróżnia na tle konkurencji
Jak zainstalować go lokalnie na Windows, macOS i Linux
Jak wybrać właściwy rozmiar modelu dla swoich potrzeb
Jak używać Whisper przez wiersz poleceń i przez kod Pythona
Jak korzystać z Whisper przez API OpenAI bez lokalnej instalacji
Z jakimi narzędziami zewnętrznymi można go połączyć

Jeśli interesujesz się szerzej tematem sztucznej inteligencji w pracy z materiałami audiowizualnymi, zajrzyj do naszego centrum wiedzy o AI do video – tam znajdziesz przegląd narzędzi, porównania i praktyczne poradniki z tej dziedziny.

Spis treści:

Czym jest Whisper i dlaczego wszyscy o nim mówią

Whisper to model rozpoznawania mowy opracowany przez OpenAI. Wytrenowano go na 680 tysięcy godzin różnorodnych nagrań audio z całego internetu, co przekłada się na wyjątkową odporność na akcenty, szumy tła i specjalistyczny słownik techniczny. Najnowsza wersja, Large-v3, była trenowana na zbiorze przekraczającym 5 milionów godzin materiału.

Co odróżnia Whisper od starszych narzędzi do transkrypcji? Kilka rzeczy:

Obsługa 99 języków – w tym polskiego, co w tej klasie narzędzi wciąż nie jest oczywistością
Tłumaczenie mowy – możliwość bezpośredniego tłumaczenia wypowiedzi z dowolnego języka na angielski
Praca lokalna – po jednorazowym pobraniu modelu działa bez dostępu do internetu
Brak cenzury danych – nagrania nie opuszczają twojego komputera
Darmowość – kod źródłowy i wagi modelu są dostępne na licencji MIT

„W świecie, gdzie każde narzędzie AI chce dostępu do twoich danych, Whisper to rzadki przypadek – naprawdę dobrego modelu, który możesz uruchomić w zupełnej prywatności.” – Piotr Wolniewicz, Redakcja AIPORT.pl – AI w Praktyce

Whisper działa w oparciu o architekturę Transformer sequence-to-sequence, czyli te same fundamenty, które stoją za nowoczesnymi modelami językowymi. Przetwarza nagranie przez przesuwające się okno 30 sekund, co pozwala obsłużyć pliki dowolnej długości.

Według danych z Hugging Face, Whisper Large-v3 notuje ponad 4 miliony pobrań miesięcznie i jest najczęściej używanym otwartoźródłowym modelem do rozpoznawania mowy na świecie. Dla porównania: wdrożenie Whisper jako API kosztuje 0,006 USD za minutę – czyli ok. 0,36 USD za godzinę – co stanowi o 75% mniej niż porównywalne usługi Google Cloud Speech-to-Text i AWS Transcribe.

Whisper ma oczywiste zastosowanie jako element szerszego procesu produkcji wideo – generowanie napisów, automatyczne streszczenia materiałów, transkrypcje nagrań ze spotkań. Jeśli chcesz zobaczyć, jakie inne narzędzia wspierają generowanie video AI, mamy dla Ciebie obszerny przegląd na stronie głównej klastra.

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Jeśli chcesz otrzymać raport przed oficjalną premierą oraz zobaczyć nazwę swojej firmy wśród uczestników badania – zostaw adres email na końcu ankiety.

Modele Whisper – który wybrać

OpenAI udostępnia Whisper w kilku rozmiarach. Wybór właściwego to jeden z pierwszych kroków i nie jest oczywisty – każdy wariant to inny kompromis między dokładnością, szybkością i zapotrzebowaniem na pamięć.

Model	Parametry	Pamięć RAM/VRAM	Względna szybkość	Kiedy używać
tiny	39 mln	ok. 1 GB	najszybszy	szybkie notatki, słabe sprzęty
base	74 mln	ok. 1 GB	bardzo szybki	proste nagrania po angielsku
small	244 mln	ok. 2 GB	szybki	codzienna transkrypcja, dobry CPU
medium	769 mln	ok. 5 GB	umiarkowany	wyższa jakość, GTX 1060+
large-v3	1550 mln	ok. 10 GB	bazowy	maksymalna dokładność, GPU
turbo	809 mln	ok. 6 GB	6x szybszy niż large	najlepszy stosunek jakości do czasu

Turbo to szczególny przypadek – jest to zoptymalizowana wersja large-v3, w której zredukowano liczbę warstw dekodera z 32 do 4. Efekt? Prędkość zbliżona do modelu base przy dokładności bliskiej large-v2. Dla zdecydowanej większości zastosowań turbo to po prostu najrozsądniejszy wybór.

Kilka zasad przy wyborze:

Jeśli masz komputer bez dedykowanej karty graficznej: zacznij od small lub turbo
Jeśli zależy ci na maksymalnej dokładności i masz GPU z 10 GB VRAM: large-v3
Jeśli transkrybujesz tylko angielski: rozważ warianty .en (np. small.en) – działają sprawniej
Jeśli transkrybujesz język polski: minimum medium, najlepiej large-v3 lub turbo

Uwaga: model turbo nie obsługuje zadania tłumaczenia (flaga --task translate). Jeśli potrzebujesz przetłumaczyć polskie nagranie na angielski, użyj medium lub large.

Instalacja Whisper lokalnie – krok po kroku

Wymagania wstępne

Zanim zaczniesz, musisz mieć na komputerze:

Python 3.8–3.11 (wersja 3.12 może powodować problemy z zależnościami)
pip – instalator pakietów Pythona (zwykle dostarczany razem z Pythonem)
FFmpeg – biblioteka do obsługi formatów audio
GPU z CUDA (opcjonalnie, ale bardzo przyspiesza pracę)

FFmpeg to element, o którym łatwo zapomnieć – a bez niego Whisper nie przetworzy pliku audio i wyrzuci błąd już na starcie.

Instalacja FFmpeg

System operacyjny decyduje o metodzie instalacji:

Windows – przez Chocolatey: choco install ffmpeg
macOS – przez Homebrew: brew install ffmpeg
Ubuntu/Debian: sudo apt install ffmpeg

Po instalacji sprawdź, czy FFmpeg jest dostępny w PATH: ffmpeg -version

Instalacja samego Whisper

Najprościej przez pip:

pip install openai-whisper

Uwaga: poprawna nazwa pakietu to openai-whisper z łącznikiem. Wiele osób wpisuje pip install whisper i kończy z innym pakietem.

Dla najbardziej aktualnej wersji prosto z repozytorium:

pip install git+https://github.com/openai/whisper.git

Jeśli instalacja kończy się błędem No module named 'setuptools_rust', doinstaluj:

pip install setuptools-rust

Dobrą praktyką jest stworzenie przed instalacją wirtualnego środowiska:

python -m venv whisper-env
source whisper-env/bin/activate   # macOS/Linux
whisper-env\Scripts\activate.bat  # Windows
pip install openai-whisper

Izoluje to zależności Whisper od reszty środowiska Pythona i zapobiega konfliktom wersji.

Pierwszy model pobierze się automatycznie

Wagi modelu nie są częścią pakietu pip. Whisper pobierze je automatycznie przy pierwszym uruchomieniu i zapisze lokalnie. Przykładowo model large-v3 waży ok. 3 GB – pobieranie przy wolniejszym połączeniu może zająć kilka minut.

Jak używać Whisper z wiersza poleceń

Po instalacji masz do dyspozycji polecenie whisper. Składnia jest prosta:

whisper plik_audio.mp3

To tyle, żeby zacząć. Whisper wybierze model turbo i spróbuje wykryć język automatycznie.

Przydatne opcje:

whisper nagranie.mp3 --model large-v3 --language Polish
whisper wywiad.wav --model turbo --output_format srt
whisper spotkanie.mp4 --model medium --task translate

Co robią poszczególne flagi:

--model – wybór rozmiaru modelu (tiny, base, small, medium, large-v3, turbo)
--language – wymuszenie języka (bez tego Whisper wykrywa automatycznie)
--output_format – format wyjścia: txt, srt, vtt, tsv, json
--task – transcribe (domyślnie) lub translate (tłumaczenie na angielski)

Whisper obsługuje pliki mp3, mp4, wav, flac, m4a i wiele innych. Wyniki zapisywane są domyślnie w tym samym folderze co plik wejściowy.

Użycie Whisper w Pythonie

Jeśli chcesz zintegrować transkrypcję z własnym kodem:

import whisper

model = whisper.load_model("turbo")
wynik = model.transcribe("nagranie.mp3", language="pl")
print(wynik["text"])

Trzy linie i masz gotowy tekst. Jeśli potrzebujesz znaczników czasu:

for segment in wynik["segments"]:
    print(f"[{segment['start']:.1f}s – {segment['end']:.1f}s]: {segment['text']}")

Do wykrywania języka bez pełnej transkrypcji:

audio = whisper.load_audio("plik.mp3")
audio = whisper.pad_or_trim(audio)
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)
_, probs = model.detect_language(mel)
print(f"Wykryty język: {max(probs, key=probs.get)}")

Whisper przez API OpenAI – bez lokalnej instalacji

Jeśli nie chcesz instalować niczego lokalnie, OpenAI udostępnia Whisper jako usługę w chmurze. Wystarczy konto na platform.openai.com i klucz API.

Koszt: 0,006 USD za minutę (ok. 0,36 USD za godzinę). Dla porównania, model GPT-4o Mini Transcribe kosztuje 0,003 USD za minutę i jest wystarczający do większości zastosowań.

Prosty przykład w Pythonie:

from openai import OpenAI
client = OpenAI()

with open("nagranie.mp3", "rb") as audio_file:
    transkrypcja = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        language="pl"
    )

print(transkrypcja.text)

Ograniczenia API warte uwagi:

Limit pliku: 25 MB – większe nagrania trzeba podzielić lub skonwertować do niższego bitratu
Płatność za całą długość pliku, nie tylko fragmenty z mową
Brak obsługi identyfikacji mówiących (diaryzacja wymaga osobnego narzędzia)
Nie nadaje się do transkrypcji w czasie rzeczywistym

Kiedy więc wybierać API, a kiedy instalację lokalną?

Scenariusz	Lokalna instalacja	API
Jednorazowe użycie	Zbędna konfiguracja	Szybszy start
Wysokie wolumeny (>500 h/m-c)	Opłacalniejsze	Droższe
Prywatność danych	Dane nie opuszczają komputera	Dane wysyłane do OpenAI
Brak dobrego GPU	Może być wolno	Bez znaczenia
Integracja z kodem produkcyjnym	Wymaga zarządzania infrastrukturą	Prostsze API

Narzędzia i integracje oparte na Whisper

Whisper stał się podstawą dla całego ekosystemu aplikacji. Jeśli nie chcesz konfigurować Pythona, możesz skorzystać z gotowych nakładek, które oferują interfejs graficzny lub dodatkowe funkcje.

Najpopularniejsze narzędzia zbudowane na Whisper:

Whisper.cpp – implementacja w C++, działa błyskawicznie nawet bez GPU, obsługuje Apple Silicon (Metal)
Faster Whisper – implementacja oparta na CTranslate2, do 4 razy szybsza niż oryginał przy tej samej dokładności
WhisperX – wersja ze znacznikami czasu na poziomie słów i diaryzacją mówców
Whisper Transcriber (GUI) – prosta aplikacja okienkowa, bez znajomości Pythona
Podkasty, Descript, Otter.ai – aplikacje komercyjne, wiele z nich używa Whisper pod spodem

Whisper jest też coraz częściej integrowany z narzędziami do tworzenia filmów AI – zarówno w celu automatycznego generowania napisów, jak i jako wejście dla systemów generujących opisy czy streszczenia wideo.

„Whisper to już nie jest niszowe narzędzie dla programistów. Stał się standardem infrastrukturalnym – tak jak FFmpeg dla wideo. Coraz więcej aplikacji używa go bez rozgłosu, po cichu, gdzieś pod maską.” – Piotr Wolniewicz, Redakcja AIPORT.pl – AI w Praktyce

Typowe problemy i jak je rozwiązać

Kilka błędów pojawia się przy instalacji Whisper wyjątkowo często. Warto wiedzieć, co za nimi stoi.

Błąd: FileNotFoundError: [Errno 2] No such file or directory: 'ffmpeg' Whisper nie może znaleźć FFmpeg. Zainstaluj go i dodaj do zmiennej środowiskowej PATH. Na Windows zrestartuj terminal po instalacji.

Błąd: No module named 'whisper' po instalacji Pakiet zainstalował się w innym środowisku Pythona niż to, którego używasz. Sprawdź, czy wirtualne środowisko jest aktywne i powtórz instalację.

Błąd: CUDA out of memory Model jest za duży dla twojej karty graficznej. Zejdź do mniejszego rozmiaru modelu lub dodaj flagę --device cpu (wolniej, ale zadziała).

Transkrypcja jest po angielsku, mimo że nagranie po polsku Whisper błędnie wykrył język. Dodaj --language Polish do polecenia lub language="pl" w kodzie Pythona.

Instalacja zawiesza się lub kończy błędem setuptools Zainstaluj ręcznie: pip install setuptools-rust, następnie powtórz pip install openai-whisper.

Whisper a polszczyzna – co warto wiedzieć

Whisper radzi sobie z polskim dobrze, ale nie idealnie. Na czystych nagraniach w dobrej jakości model large-v3 osiąga wyniki na poziomie zawodowej transkrypcji. Przy nagraniach z szumem tła, silnym akcentem regionalnym lub specjalistycznym słownictwem pojawiają się błędy – szczególnie w nazwach własnych i żargonie branżowym.

Kilka wskazówek praktycznych dla polskich nagrań:

Zawsze podawaj --language Polish zamiast polegać na automatycznym wykrywaniu
Dla podcastów i wywiadów w dobrej jakości: model turbo jest wystarczający
Dla nagrań ze spotkań z kilkoma mówcami i szumem: large-v3 lub WhisperX z diaryzacją
Przy transkrypcji nazw własnych, skrótów i terminów technicznych: zawsze weryfikuj ręcznie
Słownictwo medyczne, prawnicze i techniczne warto post-przetwarzać przez model językowy

Warto też wiedzieć, że wskaźnik błędów słów (Word Error Rate) dla języka polskiego w modelu large-v3 wynosi poniżej 10% dla czystych nagrań – to wynik porównywalny z droższymi rozwiązaniami komercyjnymi.

FAQ – najczęstsze pytania o Whisper

Czy Whisper jest całkowicie bezpłatny?

Model otwartoźródłowy dostępny przez pip jest w 100% darmowy i możesz go używać bez żadnych opłat. Płatność pojawia się tylko przy korzystaniu z API OpenAI – 0,006 USD za minutę nagrania. Nie ma ukrytych limitów ani subskrypcji.

Jakie formaty plików obsługuje Whisper?

Whisper obsługuje wszelkie formaty audio i wideo, które potrafi przetworzyć FFmpeg. W praktyce oznacza to mp3, mp4, wav, flac, m4a, ogg, webm i wiele innych. Ograniczenie pliku przy użyciu API wynosi 25 MB – przy instalacji lokalnej brak tego limitu.

Czy Whisper działa w czasie rzeczywistym?

Standardowy Whisper nie jest zaprojektowany do transkrypcji na żywo. Przetwarza nagrania przesuwnym oknem 30 sekund, co wprowadza opóźnienie. Istnieją zewnętrzne biblioteki (np. whisper-live, faster-whisper-server) umożliwiające transkrypcję zbliżoną do czasu rzeczywistego, ale wymagają dodatkowej konfiguracji.

Jak długo trwa transkrypcja godzinnego nagrania?

To zależy od modelu i sprzętu. Model turbo na karcie RTX 3060 przetworzy godzinne nagranie w ok. 3-5 minut. Na samym procesorze bez GPU to samo zajmie 20-40 minut. Model large-v3 Turbo może transkrybować 60-minutowe nagranie w ok. 17 sekund na szybkiej karcie A100.

Czy Whisper potrafi rozróżnić różnych mówców?

Nie – standardowy Whisper nie ma wbudowanej diaryzacji mówców. Jeśli potrzebujesz oznaczenia „kto mówi”, skorzystaj z WhisperX lub Pyannote.audio, które dodają tę funkcję na podstawie osobnego modelu segmentacji.

Czy mogę używać Whisper komercyjnie?

Tak. Model jest dostępny na licencji MIT, która pozwala na użycie komercyjne bez opłat. Możesz go wbudować w swój produkt, oferować jako usługę lub używać wewnętrznie w firmie.

Co to jest model turbo i czym różni się od large-v3?

Turbo (pełna nazwa: large-v3-turbo) to zoptymalizowana wersja large-v3 z ograniczoną liczbą warstw dekodera – z 32 do zaledwie 4. Efekt to kilkukrotny wzrost prędkości przy minimalnym spadku dokładności. Uwaga: turbo nie obsługuje trybu tłumaczenia (--task translate). Do tego celu nadal potrzebujesz modelu medium lub large.

Jak zainstalować Whisper na komputerze bez GPU?

Instalacja przebiega tak samo jak z GPU. Różnica pojawia się przy uruchamianiu: Whisper automatycznie korzysta z CPU, jeśli nie wykryje kompatybilnej karty graficznej z CUDA. Praca na CPU jest wolniejsza, ale w pełni funkcjonalna. Dla lepszej wydajności na procesorze rozważ bibliotekę Faster Whisper lub Whisper.cpp.

Czy Whisper potrafi transkrybować nagrania telekonferencji z Zooma?

Tak. Eksportuj nagranie z Zooma jako plik mp4 lub mp3 i przekaż go do Whisper. Jakość zależy od jakości połączenia podczas rozmowy. Przy kilku mówcach warto użyć WhisperX dla diaryzacji. Formaty m4a i mp4 są obsługiwane bez konwersji.

Podsumowanie

Whisper to jeden z tych rzadkich przypadków, gdy model otwartoźródłowy jest jednocześnie najlepszy, darmowy i po prostu użyteczny w codziennej pracy. Nie wymaga płacenia za każdą minutę, nie wysyła twoich danych do żadnej chmury i działa na każdym systemie operacyjnym. Instalacja trwa tyle co kawa, a pierwsze nagranie transkrybujesz w pięć minut od otwarcia terminala.

Jeśli miałbym polecić jedno narzędzie każdemu, kto regularnie pracuje z nagraniami audio – konferencje, wywiady, podcasty, spotkania, wykłady – to właśnie Whisper byłby tym wyborem. Model turbo to dzisiaj złoty środek: działa błyskawicznie, ma świetną dokładność i nie potrzebuje kosmicznego GPU. Large-v3 zostawiam na te sytuacje, gdy każde słowo musi być idealne.

Whisper ma też swoją drugą twarz: to fundament, na którym zbudowane są dziesiątki innych narzędzi. Faster Whisper, WhisperX, niezliczone aplikacje z interfejsem graficznym – wszystkie stoją na tych samych wagach modelu. Instalujesz raz, korzystasz w dziesiątkach konfiguracji.

Na koniec mała przewrotność: OpenAI stworzyło narzędzie, które tak dobrze działa za darmo, że trudno uzasadnić płacenie za API. Chyba że nie chcesz zawracać sobie głowy Pythonem i FFmpegiem – wtedy 0,006 USD za minutę to naprawdę godziwa cena.

Masz swoje triki związane z Whisperem? Znalazłeś jakiś ciekawy sposób na integrację z innymi narzędziami? Napisz w komentarzu – chętnie uzupełnimy ten poradnik o Twoje doświadczenia. I jeśli artykuł okazał się pomocny, podziel się nim z kimś, kto właśnie szuka dobrego narzędzia do transkrypcji.

Oceń artykuł

Średnia: 4.9 (17 ocen)

OpenAI Whisper – instalacja, modele i transkrypcja krok po kroku

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Power Automate – automatyzacja pracy w Microsoft 365 krok po kroku

n8n – automatyzacja procesów w firmie bez kodowania (przewodnik 2026)

Microsoft Copilot dla firm – ceny, wdrożenie i czy się opłaca

Power Automate – automatyzacja pracy w Microsoft 365 krok po kroku

Narzędzia AI dla firm 2026 – przegląd i porównanie najlepszych rozwiązań

n8n – automatyzacja procesów w firmie bez kodowania (przewodnik 2026)

Google w okularach od Gucci. Luksusowe AI wchodzi na nos konsumentów

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Power Automate – automatyzacja pracy w Microsoft 365 krok po kroku

Narzędzia AI dla firm 2026 – przegląd i porównanie najlepszych rozwiązań

n8n – automatyzacja procesów w firmie bez kodowania (przewodnik 2026)

Google w okularach od Gucci. Luksusowe AI wchodzi na nos konsumentów

AIport.pl - o nas

OpenAI Whisper – instalacja, modele i transkrypcja krok po kroku

Darmowy model od OpenAI zamienia nagrania w tekst z dokładnością, której żadne płatne narzędzie nie dorównuje – i możesz uruchomić go lokalnie, bez wysyłania danych na żaden serwer.

Czym jest Whisper i dlaczego wszyscy o nim mówią

Modele Whisper – który wybrać

Instalacja Whisper lokalnie – krok po kroku

Wymagania wstępne

Instalacja FFmpeg

Instalacja samego Whisper

Pierwszy model pobierze się automatycznie

Jak używać Whisper z wiersza poleceń

Użycie Whisper w Pythonie

Whisper przez API OpenAI – bez lokalnej instalacji

Narzędzia i integracje oparte na Whisper

Typowe problemy i jak je rozwiązać

Whisper a polszczyzna – co warto wiedzieć

FAQ – najczęstsze pytania o Whisper

Czy Whisper jest całkowicie bezpłatny?

Jakie formaty plików obsługuje Whisper?

Czy Whisper działa w czasie rzeczywistym?

Jak długo trwa transkrypcja godzinnego nagrania?

Czy Whisper potrafi rozróżnić różnych mówców?

Czy mogę używać Whisper komercyjnie?

Co to jest model turbo i czym różni się od large-v3?

Jak zainstalować Whisper na komputerze bez GPU?

Czy Whisper potrafi transkrybować nagrania telekonferencji z Zooma?

Podsumowanie

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas