Waarom moeilijk doen AIs het ook makkelijk kan?
Wanneer de term AI valt, trek ik altijd een wenkbrauw op maar daarbij tekent zich inmiddels ook steeds vaker ook een dikke glimlach af...
Whisper
Aberscript was een paar jaar de norm voor het automatisch generen van transcripts. Inmiddels stappen de meeste podcasters over op Whisper omdat dat simpelweg beter werkt.
Whisper is een open source AI model dat hele accurate resultaten levert in wel 100 talen. Het wordt ontwikkeld door OpenAI die ook achter ondermeer ChatGPT zit. Aangezien het open source is kan iedere codeknutselaar het model naar zijn hand zetten en er een mooi gebruikersinterface omheen bouwen. Vaak resulteert dat in dure online abonnementen, maar soms ook in fijne betaalbare oplossingen, zoals die van MacWhisper.
Dit pakket is zelfs gratis te gebruiken! En voor iets meer features moet je slechts 19 eurootjes afrekenen. De software kun je op jouw Mac installeren en offline gebruiken.
AI let wél op de inhoud
Het filteren van geluid was altijd iets abstracts. Tools zoals bijvoorbeeld het dure iZotope RX pakket benaderen geluid als een serie van frequenties met een bepaalde geluidssterkte. Een en ander kan afgebeeld worden in een spectrogram.
De spectrogram is een bijzonder abstracte visualisatie omdat je niet kunt zien welk gedeelte de menselijk stem inneemt. Ook het wegpoetsen van de frequenties waarin een langsrijdende auto zich bevindt is met die methode een soort hogere wiskunde.
Hierin gaat AI gigantisch het verschil maken. En doet dat al op dit moment. Nieuwe tools die gebruik maken van de AI-techniek maken het simpelweg doodeenvoudig om geluid te optimaliseren. Ik schreef er onlangs een blog over. Maar ik wil er nog een paar zaken aan toevoegen.
Goyo
De plugin GOYO noemt zich een voice separator. Het detecteert in real-time (!) de drie belangrijkste onderdelen van een geluidssignaal waarin gesproken wordt:
Voice, de stem
Ambience, omgevingsgeluid, ruis
Voice Reverb, room-echo
Deze plugin kun je dus als effect, zoals je een EQ of een compressor toepast, op een kanaal of bus (=groep van kanalen) gebruiken.
De plugin wordt op dit moment geperfectioneerd en is gratis als testversie te gebruiken. Op die manier kun je helpen deze plugin te verbeteren. Via de website kun je de plugin downloaden.
En daar waar de meeste van dit soort tools de stem optimaliseren kun je met deze tool ook het tegenovergestelde doen: je kunt de stem muten zodat je alleen de ambience overhoudt. Dit is handig als je bijvoorbeeld stille momenten juist wilt opvullen met achtergrondruis. En de parameters voor Voice, Ambience en Voice Reverb zijn natuurlijk ook te automatiseren zodat je ze in een bepaalde passage wat zachter of juist harder kunt zetten. Veel andere tools bieden die mogelijkheid niet, zoals Adobe Vocal Enhance, het is dan alles of niets.
Hush
Collega Wim Brons tipte me de tool Hush:
Hush is a macOS app that uses state-of-the-art AI to clean up recorded speech. It automatically suppresses background noise and room reflections — without audible artifacts or loss of clarity. The result preserves all the nuance of the original signal, as if it were recorded in a well-treated studio.
Het levert een soortgelijke oplossing als Adobe Vocal Enhance die ik in mijn blogpost aanhaalde. Maar in tegenstelling tot Adobe Vocal Enhance is de mix van het effect ook instelbaar. Ik quote Wim:
Zet de Mix op 90% and it sounds pretty natural.
Het fijne aan deze tool is dat het niet werkt op abonnementsbasis en ook niet via een webserver verloopt. Kortom: net als Whisper en de plugin van Goyo is het een tool die je offline kunt gebruiken.
Offline is beter
Abonnementsmodelletjes zijn gemeengoed geworden. Maar reken eens uit wat het je allemaal kost en je hebt een stoel of een tafel nodig om je balans weer te vinden. Naast dat het ontzettend duur is, kleven er nog meer nadelen aan die abonnementsvormen.
De meeste abonnementen gelden namelijk per maand maar je zult maanden hebben waarin je een bepaalde tool misschien helemaal niet gebruikt. Zonde van het geld dan. Daarnaast biedt geen enkele webservice 100%-uptime-garantie en het gebeurt altijd op het verkeerde moment dat het servertje down is.
Ook zijn er veel privacy-argumenten te verzinnen tegen het uploaden van opnames, met misschien wel heel gevoelige informatie, naar bijvoorbeeld een Amerikaanse webserver. Bovendien is het een traag proces om al die audio eerst te moeten uploaden, dan te wachten op de processing, om het vervolgens weer te moeten downloaden.
Kortom: voor het processen van audio is de keuze om het gewoon old skool offline en lokaal op jouw eigen computer te doen echt een enorm pré.
Tijd voor mensenwerk
Het moge duidelijk zijn: de impact die de AI-techniek op het vak podcasting heeft is gigantisch. Of het nu om het transcriberen, het weghalen van ruis of room-echo gaat, het waren klusjes die voorheen slechts weggelegd waren voor gekkies zoals ondergetekende. En dit is nog maar het begin!
Dankzij die moderne tools ligt het fatsoeneren van geluid binnen vrijwel ieders bereik. Met één druk op de knop klinkt het ineens als een klok. En mij hoor je niet klagen want het getrut om slecht klinkende opnames te fatsoeneren… laten we het erop houden dat ik wel betere dingen te doen heb!