menu
Geef een of meerdere zoektermen op.
Gebruik dubbele aanhalingstekens om in de exacte woordvolgorde te zoeken.

Automatische spraakherkenning bij transcriberen?

 

Overwegingen bij het gebruik van spraakherkenning

Wanneer je overweegt automatische spraakherkenning (ASR) te gebruiken, is het belangrijk te beseffen dat bepaalde AV-bronnen geschikter zijn dan andere. Hier zijn enkele zaken om in gedachten te houden. Ten eerste, de audiokwaliteit moet hoog zijn. Dit betekent dat stemmen duidelijk moeten zijn, niet echoën, en bij voorkeur dicht bij de mond opgenomen met adequate microfoons.

Ten tweede werkt ASR het best bij monologen. Als een audiobestand vol is met mensen die elkaar onderbreken en door elkaar heen praten, kunnen de resultaten verwarrend zijn om te lezen, aangezien niet alle software in staat is verschillende mensen aan de hand van hun stem te herkennen. Idealiter zou het bestand voor elke spreker een apart kanaal moeten hebben.

Tenslotte is ASR over het algemeen niet erg goed in het omgaan met accenten en dialecten. Wanneer je te maken hebt met migranten of plattelandsbewoners met een accent dat voor jou misschien gemakkelijk te verstaan is, kan ASR daar toch grote moeite mee hebben. Laat staan met accenten die voor buitenstaanders moeilijk te begrijpen zijn.

 

ASR software

Bedenk bij het gebruik van online-software dat je privacy-gevoelige bestanden upload. 

Lees altijd de voorwaarden van een ASR-dienst, voordat je beslist of deze aan je privacy-eisen voldoet.

ASR met Subtitle Edit

Vanaf januari 2023 (versie 3.6.12) is er een nieuwe optie voor automatische spraakherkenning in Subtitle Edit ingebouwd.

 

Bij deze versie van Subtitle Edit zijn onder het tabblad Video twee spraakherkenningsfuncties ondergebracht:

  1. Vosk/Kaldi (een wat oudere ASR-methode)
  2. Whisper (op AI gebaseerde moderne ASR-functie) 

 

Korte installatiebeschrijving voor Subtitle Edit 3.6.12*, om het programma het best te laten werken voor Whisper spraakherkenning:

 

 

* Inmiddels is versie 4.0.6 beschikbaar, met weer meer opties voor Whisper. Voor de engines OpenAI, CTranslate2 en WhisperX is aparte installatie van Python vereist. De engines Purfview’s Faster Whisper (met taalmodel large-v3), CPP en ConstMe kunnen zonder Python gebruikt worden.

Met de Advanced optie bij het scherm Whisper “Audio to text” kunnen extra parameters voor de Whisper command line worden aangegeven. Ook Whisper post-processing kan nu via Settings geconfigureerd worden.

De installatie van Python is een hoofdstuk apart. Een vereenvoudigde manier om Python en Whisper op je computer te installeren is hieronder te lezen onder het kopje: Installeren Whisper en Python (Windows) – voor gevorderden.

 

 

MacWhisper

Snel en gemakkelijk audiobestanden omzetten in tekst met OpenAI’s geavanceerde transcriptietechnologie Whisper.

 

  • Het transcriberen gebeurt op je apparaat, je (gevoelige) gegevens verlaten je computer niet. 
  • Exporteren ondertitels in .srt & .vtt. Tekstexport in .csv 
  • Doorzoek het hele transcript en markeer woorden
  • Audio afspelen en synchroniseren met transcripties
  • Ondersteunt 100 verschillende talen
  • Automatisch verwijderen van ums, uhhs en andere soortgelijke opvulwoorden
  • Ondersteunde formaten: mp3, wav, m4a en mp4 video’s.
  • Ondersteunt Tiny en Base modellen

 

Voor de Pro versie is een kleine bijdrage vereist van € 29,- (Persoonlijk gebruik)

De Pro-versie maakt gebruik van Medium and Large models, waarbij het transcriptieresultaat vaak nog veel beter is.

AI Transcriptions by Riverside

Gebruikers die geen software op hun computer willen downloaden en toch gebruik willen maken van AI transcriberen kunnen gebruik maken van Riverside’s transcriber. Transcribeer audio en video in 100+ talen met slechts een paar klikken. Riverside’s transcriber biedt Ai transcripties helemaal gratis.

 

 

Er zitten wel wat nadelen aan het online gebruik:

(Gevoelige) gegevens upload je naar een internet space  
Transcriptietijden kunnen variëren afhankelijk van de bestandsgrootte, de lengte van de inhoud en hoe druk de servers van  Riverside het hebben.
 

Voordelen:

Ongelimiteerde upload van bestanden (MP3, Wav, MP4 en MOV)

Output in Caption – ondertitelbestand (srt) of Tekstbestand (txt)

 

Nadeel: Andere bestandsformaten, zoals m4a, moeten eerst omgezet worden naar een voor de website leesbaar formaat. Bijvoorbeeld met Convertio.co

 

Whisper SteveDigital online

Gebruikers die geen software op hun computer willen downloaden en toch gebruik willen maken van Whisper kunnen de gratis service op internet van SteveDigital gebruiken.

Online audiobestanden of YouTube-bestanden omzetten in tekst met OpenAI’s geavanceerde transcriptietechnologie Whisper.

 

Er zitten wel wat nadelen aan het online gebruik:

  • (Gevoelige) gegevens upload je naar een internet space  
  • Bij drukte is er een wachtrij, kan soms lang duren bij grote bestanden
  • Output is een tekstbestand (zonder tijdscodering) 

 

Voordelen:

  • Transcripties maken duurt 5-10 seconden per minuut audio
  •  Maakt gebruik van large-model

 

 

Installeren Whisper en Python (Windows) – voor gevorderden

Whisper AI maakt gebruik van de programmeertaal Python.

Om alles op je computer te installeren, van Pyhton tot en met de verschillende Whisper-modellen, is enige computerkennis wel vereist. Op de site van GitHub staan alle benodigde bestanden gegroepeerd:

github.com/openai/whisper

 

Het is best ingewikkeld om alles op je persoonlijke computer aan de praat te krijgen. Welke programma-onderdelen er moeten worden geinstalleerd is sterk afhankelijk van de specificaties van je computer.

 

Er is echter een installatie programma ontwikkeld door TroubleChute dat het hele installatieproces automatisch doorloopt, rekening houdend met de configuratie van jouw computer.  

 

Hieronder is een link naar de video waar stapsgewijs wordt uitgelegd hoe Python en Whisper eenvoudig te installeren is op je computer:

 

TroubleChute

 

One-click Whisper install windows install script

 

 

Korte beschrijving installatie:

 

ASR met Word 365

Automatische spraakherkenning

 

Automatische spraakherkenning met Word in Office 365.

Met een Microsoft registratie is de service online gratis te gebruiken.

 

Nadeel is dat het resultaat een document is zonder tijdcodes.

Via een optie in YouTube Studio zijn hier ondertitels met tijdcodes van te maken.

DOWNLOAD het aparte instructie-document.

 

Instructie-document voor automatische spraakherkenning in Word is hier te downloaden:

 

 

Automatische transcriptie

 

Automatische transcriptie met Word in Office 365.

Alleen met een Office 365-premium abonnement is de service te gebruiken.

(300 minuten spraakherkenning per maand)

 

Het resultaat is een document met begintijden per alinea. Om er een leesbaar ondertitel-bestand met tijdcodes van te maken kan gebruik worden gemaakt van een optie in YouTube Studio. 

Download het aparte instructie-document.

 

 

 

Instructie-document voor automatische transcriptie in Word is hier te downloaden:

 

ASR met Google Docs

De automatische spraakherkenning is te gebruiken met een Google Account.

 

Nadeel is dat het resultaat een document is zonder tijdcodes.

Via een optie in YouTube Studio zijn hier ondertitels met tijdcodes van te maken.

DOWNLOAD het aparte instructie-document.

 

 

Instructie-document voor automatische spraakherkenning in Google Docs is hier te downloaden:

 

 

 

 

 

 

 

ASR met YouTube

 

De automatische ondertitels zijn te maken met een Google / YouTube-account.

Alleen geschikt voor video-bestanden. 

 

Als je een geluidsbestand (mp3, wav, ogg, etc.) automatisch wil laten transcriberen, moet dat eerst omgezet worden naar een video-bestand om te kunnen uploaden naar YouTube. Daar zijn allerlei gratis programma’s voor te vinden. De truc is een geluidsspoor in te laden en een willekeurige foto over de hele lengte van het geluidsbestand te zetten. Het geheel dan wegschrijven als mp4-bestand. En het geluidsbestand is klaar om te uploaden naar YouTube.

 

Instructie-document is hier te downloaden

 

 

 

ASR voor academici

Transcriptie Portal

 

  • Gemakkelijk te gebruiken webbased ASR
  • Meertalig
  • Bewerken mogelijk
  • Gratis (academisch gebruik)

https://www.phonetik.uni-muenchen.de/apps/oh-portal

 

Het Transcriptie Portaal is een online ASR tool ontwikkeld en gehost door LMU München voor academische transcriptie doeleinden. De tool is zelf geen ASR-dienst, maar maakt het mogelijk om je audiobestanden via veel verschillende ASR-diensten te verwerken. Vervolgens kun je de resultaten binnen het OH-Portal corrigeren en bewerken, of exporteren in een bestandstype naar keuze.

 

 

 

Als je geïnteresseerd bent in hulpprogramma’s bij het maken van transcripties kijk dan hier:

 

TRANSCRIPTIE-TOOLS