Overwegingen bij het gebruik van spraakherkenning
Wanneer je overweegt automatische spraakherkenning (ASR) te gebruiken, is het belangrijk te beseffen dat bepaalde AV-bronnen geschikter zijn dan andere. Hier zijn enkele zaken om in gedachten te houden. Ten eerste, de audiokwaliteit moet hoog zijn. Dit betekent dat stemmen duidelijk moeten zijn, niet echoën, en bij voorkeur dicht bij de mond opgenomen met adequate microfoons.
Ten tweede werkt ASR het best bij monologen. Als een audiobestand vol is met mensen die elkaar onderbreken en door elkaar heen praten, kunnen de resultaten verwarrend zijn om te lezen, aangezien niet alle software in staat is verschillende mensen aan de hand van hun stem te herkennen. Idealiter zou het bestand voor elke spreker een apart kanaal moeten hebben.
Tenslotte is ASR over het algemeen niet erg goed in het omgaan met accenten en dialecten. Wanneer je te maken hebt met migranten of plattelandsbewoners met een accent dat voor jou misschien gemakkelijk te verstaan is, kan ASR daar toch grote moeite mee hebben. Laat staan met accenten die voor buitenstaanders moeilijk te begrijpen zijn.
ASR software
Bedenk bij het gebruik van online-software dat je privacy-gevoelige bestanden upload.
Lees altijd de voorwaarden van een ASR-dienst, voordat je beslist of deze aan je privacy-eisen voldoet.
ASR met aTrain – inclusief spreker-detectie
Accessible Transcription of Interviews
aTrain is een tool voor het automatisch transcriberen van spraakopnames met behulp van state-of-the-art machine learning modellen zonder gegevens te uploaden. Het is ontwikkeld door onderzoekers van het Business Analytics and Data Science-Center van de Universiteit van Graz en getest door onderzoekers van het Know-Center Graz.
Windows (10 en 11) gebruikers kunnen aTrain installeren via de Microsoft app store (Link) of door de installer te downloaden van de BANDAS-Center Website (Link).
aTrain biedt een gebruiksvriendelijke toegang tot de faster-whisper implementatie van het OpenAI’s Whisper model, waardoor de beste transcriptiekwaliteit in zijn klasse wordt gecombineerd met hogere snelheden op uw lokale computer. Transcriptie met het hoogste kwaliteitsmodel duurt slechts ongeveer drie keer zo lang als de audiolengte op de huidige mobiele CPU’s die doorgaans worden gebruikt in middenklasse zakelijke notebooks (bijv. Core i5 12e generatie, Ryzen Series 6000).
Sprekerdetectie
aTrain heeft een sprekerdetectiemodus gebaseerd op pyannote.audio en kan elk tekstsegment analyseren om te bepalen bij welke spreker het hoort.
Bescherming van privacy en AVG-naleving
aTrain verwerkt de geleverde spraakopnames volledig offline op uw eigen apparaat en verstuurt geen opnames of transcripties naar het internet. Dit helpt onderzoekers om de privacyvereisten voor gegevens te handhaven die voortvloeien uit ethische richtlijnen of om te voldoen aan wettelijke vereisten zoals de AVG.
MAXQDA, ATLAS.ti en NVivo compatibele output
aTrain levert transcriptiebestanden die naadloos geïmporteerd kunnen worden in de populairste tools voor kwalitatieve analyse, ATLAS.ti en MAXQDA. Hierdoor kun je direct audio afspelen voor het corresponderende tekstsegment door op de tijdstempel te klikken.
Naast deze output-bestanden levert het ook een ondertitelbestand (srt) die ingelezen kan worden in een ondertitelprogramma als Subtitle Edit.
NVIDIA GPU ondersteuning
aTrain kan zowel op de CPU als op een NVIDIA GPU draaien (CUDA toolkit installatie vereist). Een NVIDIA GPU met CUDA verbetert de snelheid van transcripties en de sprekerherkenning aanzienlijk, waardoor de transcriptietijd wordt teruggebracht tot 20% van de audiolengte op de huidige gaming-notebooks op instapniveau.
* aTrain heeft als standaardinstelling model large-v3-turbo en compute device CPU.
Als je beschikt over een computer met een groter videogeheugen krijg je betere resultaten als je model large-v2 of large-v3 download en bij Advanced Settings Compute Type schuift naar float16.
Sprekerherkenning geeft betere resultaten als je van tevoren aangeeft om hoeveel sprekers het gaat (Number of speakers).
ASR met Subtitle Edit
Vanaf januari 2023 (versie 3.6.12) is er een nieuwe optie voor automatische spraakherkenning in Subtitle Edit ingebouwd.
Bij deze versie van Subtitle Edit zijn onder het tabblad Video twee spraakherkenningsfuncties ondergebracht:
Korte installatiebeschrijving voor Subtitle Edit 4.0.6*, om het programma het best te laten werken voor Whisper spraakherkenning:
* Inmiddels is versie 4.0.10 beschikbaar, met verschillende opties voor Whisper. Voor de engines OpenAI, CTranslate2, WhisperX en stable-ts is aparte installatie van Python vereist. De engines Purfiew’s Faster Whisper-XXL, CPP en ConstMe kunnen zonder Python gebruikt worden.
Met de Advanced optie bij het scherm Whisper “Audio to text” kunnen extra parameters voor de Whisper command line worden aangegeven. Ook Whisper post-processing kan nu via Settings geconfigureerd worden.
De installatie van Python is een hoofdstuk apart. Een vereenvoudigde manier om Python en Whisper op je computer te installeren is hieronder te lezen onder het kopje: Installeren Whisper en Python (Windows) – voor gevorderden.
Snel en gemakkelijk audiobestanden omzetten in tekst met OpenAI’s geavanceerde transcriptietechnologie Whisper.
Voor de Pro versie is een kleine bijdrage vereist van € 49,- (1 Pro Licentie voor Persoonlijk gebruik)
De Pro-versie maakt gebruik van Medium and Large models, waarbij het transcriptieresultaat vaak nog veel beter is.
Gebruikers die geen software op hun computer willen downloaden en toch gebruik willen maken van AI transcriberen kunnen gebruik maken van Riverside’s transcriber. Transcribeer audio en video in 100+ talen met slechts een paar klikken. Riverside’s transcriber biedt Ai transcripties helemaal gratis.
Er zitten wel wat nadelen aan het online gebruik:
(Gevoelige) gegevens upload je naar een internet space
Transcriptietijden kunnen variëren afhankelijk van de bestandsgrootte, de lengte van de inhoud en hoe druk de servers van Riverside het hebben.
Voordelen:
Ongelimiteerde upload van bestanden (MP3, Wav, MP4 en MOV)
Output in Caption – ondertitelbestand (srt) of Tekstbestand (txt)
Nadeel: Andere bestandsformaten, zoals m4a, moeten eerst omgezet worden naar een voor de website leesbaar formaat. Bijvoorbeeld met Convertio.co
Gebruikers die geen software op hun computer willen downloaden en toch gebruik willen maken van Whisper kunnen de gratis service op internet van SteveDigital gebruiken.
Online audiobestanden of YouTube-bestanden omzetten in tekst met OpenAI’s geavanceerde transcriptietechnologie Whisper.
Er zitten wel wat nadelen aan het online gebruik:
Voordelen:
Whisper AI maakt gebruik van de programmeertaal Python.
Om alles op je computer te installeren, van Pyhton tot en met de verschillende Whisper-modellen, is enige computerkennis wel vereist. Op de site van GitHub staan alle benodigde bestanden gegroepeerd:
Het is best ingewikkeld om alles op je persoonlijke computer aan de praat te krijgen. Welke programma-onderdelen er moeten worden geinstalleerd is sterk afhankelijk van de specificaties van je computer.
Er is echter een installatie programma ontwikkeld door TroubleChute dat het hele installatieproces automatisch doorloopt, rekening houdend met de configuratie van jouw computer.
Hieronder is een link naar de video waar stapsgewijs wordt uitgelegd hoe Python en Whisper eenvoudig te installeren is op je computer:
One-click Whisper install windows install script
Korte beschrijving installatie:
Automatische spraakherkenning
Automatische spraakherkenning met Word in Office 365.
Met een Microsoft registratie is de service online gratis te gebruiken.
Nadeel is dat het resultaat een document is zonder tijdcodes.
Via een optie in YouTube Studio zijn hier ondertitels met tijdcodes van te maken.
DOWNLOAD het aparte instructie-document.
Instructie-document voor automatische spraakherkenning in Word is hier te downloaden:
Automatische transcriptie
Automatische transcriptie met Word in Office 365.
Alleen met een Office 365-premium abonnement is de service te gebruiken.
(300 minuten spraakherkenning per maand)
Het resultaat is een document met begintijden per alinea. Om er een leesbaar ondertitel-bestand met tijdcodes van te maken kan gebruik worden gemaakt van een optie in YouTube Studio.
Download het aparte instructie-document.
Instructie-document voor automatische transcriptie in Word is hier te downloaden:
De automatische spraakherkenning is te gebruiken met een Google Account.
Nadeel is dat het resultaat een document is zonder tijdcodes.
Via een optie in YouTube Studio zijn hier ondertitels met tijdcodes van te maken.
DOWNLOAD het aparte instructie-document.
Instructie-document voor automatische spraakherkenning in Google Docs is hier te downloaden:
De automatische ondertitels zijn te maken met een Google / YouTube-account.
Alleen geschikt voor video-bestanden.
Als je een geluidsbestand (mp3, wav, ogg, etc.) automatisch wil laten transcriberen, moet dat eerst omgezet worden naar een video-bestand om te kunnen uploaden naar YouTube. Daar zijn allerlei gratis programma’s voor te vinden. De truc is een geluidsspoor in te laden en een willekeurige foto over de hele lengte van het geluidsbestand te zetten. Het geheel dan wegschrijven als mp4-bestand. En het geluidsbestand is klaar om te uploaden naar YouTube.
Instructie-document is hier te downloaden
Transcriptie Portal
Het Transcriptie Portaal is een online ASR tool ontwikkeld en gehost door LMU München voor academische transcriptie doeleinden. De tool is zelf geen ASR-dienst, maar maakt het mogelijk om je audiobestanden via veel verschillende ASR-diensten te verwerken. Vervolgens kun je de resultaten binnen het OH-Portal corrigeren en bewerken, of exporteren in een bestandstype naar keuze.
Als je geïnteresseerd bent in hulpprogramma’s bij het maken van transcripties kijk dan hier: