“Automatische sprekervergelijking is herhaalbaar en betrouwbaar"

Automatische sprekervergelijking klaar voor gebruik

Forensisch spraakonderzoekers van het NFI krijgen regelmatig opnames van de politie met de onderzoeksvraag wie er aan het woord is. Bijvoorbeeld als iemand hoorbaar drugs verhandelt. De politie denkt te weten van wie de stem is, terwijl de verdachte dat ontkent. Ervaren spraakonderzoekers luisteren secuur naar stemmen. Ze vergelijken de opname met de stem van de verdachte om tot een conclusie te komen. Forensisch spraakonderzoeker David van der Vloed heeft onderzoek gedaan naar een aanvullende, meer objectieve methode: het automatiseren van de sprekervergelijking. Die is nu klaar voor gebruik.

Als er discussie is ontstaan over wie te horen is in afgeluisterde gesprekken die de politie in handen heeft, proberen taalkundigen voor opheldering te zorgen. Spraakonderzoekers van het NFI werken aan zo’n vijftig zaken per jaar. Ze luisteren naar eigenaardigheden in een stemklank, het spreektempo en het spreekritme. Maar ook of iemand een dialect heeft en of iemand vaak ‘eh’ zegt of niet. Aan die methode kleven echter wel nadelen. Wat een deskundige hoort als verschil of overeenkomst tussen stemmen en de waarde die hij daaraan verbindt, is een menselijke inschatting. Dat maakt de manier van onderzoeken niet waardeloos, maar wel subjectief: de meetmethode is immers een mens.

Betrouwbaarheid meetbaar

In tegenstelling tot de mens bestaat er ook een softwarevergelijking. Voor die vergelijking kun je twee audiobestanden uploaden in de software. Daar komt vervolgens een getal uit dat weergeeft in hoeverre de stemmen op elkaar lijken. De score interpreteren is weer mensenwerk, maar de stappen daarvoor zijn geautomatiseerd. Dat maakt de betrouwbaarheid beter meetbaar dan bij de menselijke methode.

Beide methodes hebben voor- en nadelen, meent spraakdeskundige David van der Vloed. “De mens kan veel verschillende kenmerken horen en beoordelen, terwijl een machine beperkt is tot waar hij voor geprogrammeerd is: de klank van een stem.” De stemklank wordt gevormd door de holtes in het spraakkanaal. Hoe iemand die holtes in zijn mond, neus en keel beweegt, bepaalt de klank van een stem. De machine registreert die unieke klank en gebruikt die om twee opnames met elkaar te vergelijken.

Woorden en dialecten

De deskundige geeft aan dat de stemklank een goed kenmerk is om onderzoek naar te doen. Maar er is meer. De deskundigen letten ook op woordgebruik. In tegenstelling tot de machine die geen woorden en dialectverschillen herkent. “De voordelen van de automatische sprekervergelijking zijn de herhaalbaarheid en betrouwbaarheid van het onderzoek”, laat Van der Vloed weten. “Wetenschappelijke vereisten waar de machine beter aan voldoet dan de mens.” Het deskundigheidsgebied Spraak-en Audio-onderzoek van het NFI gebruikt nu beide methodes in zaakonderzoek om tot een optimaal resultaat te kunnen komen.

De software voor de automatische vergelijking is op zich niet nieuw, maar het NFI koos een voorzichtige route. De betrouwbaarheid van de methode kun je pas beoordelen als je voldoende data hebt verzameld uit audio-opnames die lijken op wat het NFI in zaakonderzoek tegenkomt, zoals tapgesprekken en afgeluisterde gesprekkingen in woningen. De deskundige heeft die data sinds 2012 verzameld.

De beschikking over de schat aan informatie die het NFI nu in handen heeft, is uniek. In het zaakonderzoek kan Van der Vloed vanaf nu putten uit de database met achtergronddata. Hij zorgt ervoor dat hij een opname gebruikt met ongeveer dezelfde omstandigheden zodat die representatief is voor de specifieke zaak die hij onderzoekt.

Database telefoongesprekken

De spraakdeskundige heeft onder meer gebruik gemaakt van een database met gesprekken die vrijwilligers telefonisch met elkaar hebben gevoerd bij allerlei omstandigheden. Met behulp van die unieke achtergronddata kon Van der Vloed zijn onderzoek doen en de software voor zaakonderzoek van het NFI valideren.

De deskundige heeft zich vooral verdiept in onder welke omstandigheden de automatische vergelijking wel en niet meer werkt. Bijvoorbeeld wat de minimale lengte van een opname moet zijn om resultaat te hebben. Die informatie heeft hij zorgvuldig gedocumenteerd. De automatische methode blijkt betrouwbaar, maar nog altijd breidt Van der Vloed zijn onderzoek uit. Bij elke zaak doet hij een nieuw achtergrondonderzoek. “Dat is waarmee we ons onderscheiden van andere spraakonderzoekers. Per zaak kijk ik of het onder die specifieke omstandigheden ook werkt.”

Kinderstemmen

Een voorbeeld is een zaak waarin de spreker in de Ikea liep met hoorbaar kinderstemmen op de achtergrond. Het was even spannend of de schelle kinderstemmen mee zouden werken in de machine, waardoor je een afwijkend sprekermodel zou krijgen. Van der Vloed wilde graag testen of zo’n opname zich anders gedraagt dan anderen. Deze opname heeft hij onder deze omstandigheden niet kunnen gebruiken.

Een andere opname die de deskundige heeft moeten afwijzen voor de automatische sprekervergelijking is een opgenomen gesprek uit een strafzaak waarin een man Engels sprak. De spraakdeskundige heeft voor Engels niet genoeg opnamen om zo’n achtergrondonderzoek te kunnen doen. “De man sprak wel zo Hollands Engels dat ik nog even heb getwijfeld: misschien kunnen we wel gewoon Nederlandse opnamen gebruiken. Uiteindelijk heb ik dat niet gedaan omdat ik niet zeker weet wat de invloed van een taalverschil is.”

Deur open voor nieuwe vragen

De automatische sprekervergelijking is niet alleen waardevol voor één op één vergelijkingen, het opent ook deuren voor andere vragen van de politie. De deskundige geeft een voorbeeld. “Stel de politie heeft 10.000 tapgesprekken waar ze een specifiek persoon in willen terugvinden. De mens kan zo’n hoeveelheid nooit aan, een machine wel. Dat geeft perspectief op grotere vragen.” Ook voor het clusteren van personen biedt de techniek kansen om te achterhalen of bijvoorbeeld dezelfde sprekers in meerdere zaken voorkomen.

Hoewel er nu een objectieve, geautomatiseerde methode bestaat, is de verwachting niet dat de machines het vak volledig over zullen nemen. “De zorgvuldigheid van een deskundige met kennis van zaken die luistert, zal blijven. Juist de combinatie is zo mooi.”

Van der Vloed is blij met de zorgvuldige route die hij bij het NFI heeft mogen afleggen. Wereldwijd gebruiken sommige forensisch spraakonderzoekers de machines ook al, maar met de relevante data die het NFI nu in huis heeft, loopt het instituut voorop. De data dragen bovendien bij aan het objectiveren van de menselijke methode. “Als ik in een zaak heb gezegd dat een kenmerk van een stem zeldzaam is, kan ik die subjectieve waarneming nu opzoeken in de database en controleren.”

Het NFI heeft de software gereed voor gebruik in huis en zet het in bij zaakonderzoek.