Nieuw vakgebied kan identiteit van schrijvers onthullen in teksten die zij schrijven

Een slachtoffer met een strop om zijn nek. Het lijkt erop dat het slachtoffer zichzelf heeft opgehangen. Hij is boekhouder en heeft net duizenden euro’s overgeboekt naar een klant van hem. In een e-mail legt hij de begunstigden uit waarom hij de overboeking deed, voor hij een einde aan zijn leven maakt. Dit was de casus die het vakgebied Auteurschapsherkenning bij het Nederlands Forensisch Instituut (NFI) nieuw leven inblies. Deskundigen van het vakgebied onderzochten de opgestelde mail. Was die opgesteld door het slachtoffer of door iemand anders? Was het een zelfmoord, of was het toch moord of doodslag?

“Het was een opvallende zaak”, zegt Wauter Bosma, een van de onderzoekers van het deskundigheidsgebied Forensische Statistiek en Big Data Analyse (FSBDA). Hij en collega’s onderzochten deze casus. “Het vonnis leest bijna als het script voor een thriller.” Het bleek uiteindelijk geen zelfmoord. Een van de personen aan wie het geld moest worden overgemaakt, wordt door de rechtbank, en later door het hof, veroordeeld voor gekwalificeerde doodslag en moet zestien jaar de gevangenis in. De veroordeelde heeft het slachtoffer vermoedelijk gedwongen tot het maken van de overboeking of het afgeven van bankpas en pincode. Niet het slachtoffer, maar veroordeelde is degene die de e-mail heeft geschreven om een verklaring te geven voor de overboeking, concludeerde de rechtbank naar aanleiding van de bevindingen van de auteurschapsanalyse door het NFI.

Elkaar versterken

Bosma studeerde Informatica aan de Technische Universiteit in Enschede en promoveerde op automatische taalverwerking door computerprogramma’s. Hij en zijn collega’s van FSBDA voerden het onderzoek uit, samen met linguïsten van het onderzoeksgebied Spraak, Taal & Audio van het NFI, zoals Tina Cambier. Cambier studeerde taalkunde en promoveerde op de verlenging van klanken en hoe daarmee structuur wordt aangebracht in spraak. “We zijn deskundig op verschillende terreinen, maar we doen wel beiden iets met taal. Bij dit soort onderzoeken kan FSBDA het onderzoek door linguïsten ondersteunen”, zegt Bosma. 

Vingerafdruk schrijver

“Schrijvers laten bewust en onbewust een vingerafdruk achter in de teksten die zij opstellen”, legt Bosma uit. Wij doen samen met linguïsten onderzoek naar de vingerafdruk en maken die zichtbaar.” Ze willen toetsen hoe groot de kans is dat een tekst in de mail door het slachtoffer zelf geschreven is of toch door iemand anders. “We beantwoorden vragen zoals: komt een bericht meer overeen met de schrijfstijl van de verdachte of meer met die van een ander persoon?”, zegt Cambier.

Boekschrijvers

Auteurschapsherkenning an sich is niet nieuw, zegt Cambier: “Jaren geleden deed het NFI het ook, toen ging het vrijwel altijd om handgeschreven teksten en werd samengewerkt met handschriftexperts. Nadat handschriftanalyse als vakgebied wegging bij het NFI, kwamen er ook lange tijd geen zaken meer.” De wetenschap van auteurschapsanalyse ontwikkelde zich wel verder, maar dan buiten het forensische veld, zegt Cambier: “Men probeert bijvoorbeeld de schrijver te achterhalen van boeken die onder pseudoniem zijn geschreven. Of men wilde weten: is een boek echt geschreven door Shakespeare of door iemand anders?” Bosma vult aan: “In de Verenigde Staten wilden ze weten wie de constitutie heeft opgesteld. Daar hebben ze ook onderzoek naar auteurschap gedaan.”

Frequent gebruikte woorden

In 2018 kwam er dus weer een zaak van een zelfmoord, waarbij de mail forensisch onderzocht moest worden. De vraag kwam binnen bij Spraak, Taal & Audio. Cambier wist van de recente technieken met behulp van Big Data technieken, en schakelde de hulp in van FSBDA. “We konden gebruik maken van de auteurherkenningsmodellen die al ontwikkeld waren buiten het forensisch onderzoeksveld. Dan wil je er ook een bewijskracht aan kunnen koppelen. Je wilt meten hoe sterk de overeenkomsten zijn”, zegt Bosma. Cambier: “In ons soort zaken is het cruciaal dat het gaat om woorden die niet aan een specifiek onderwerp kleven. Met de deskundigen van FSBDA gingen we op zoek naar kenmerken die juist niet bepaald worden door inhoud.”

Ze kwamen uit op de meest frequent gebruikte woorden: voorzetsels, lidwoorden en persoonlijke voornaamwoorden, zoals ‘dus, je, het, een, is, zijn’.” Bosma vult haar aan: “Deze woorden worden in elke context gebruikt. De frequentie waarmee je ze toepast, varieert sterk per persoon. Deze woorden bepalen mede de stijl waarmee je schrijft. Omdat het gebruik van deze woorden zo onbewust is, kan je het moeilijk nadoen. Het is lastig om iemand ermee te imiteren.” Bij forensisch onderzoek zijn er vaak geen bergen onderzoeksmateriaal, dus kijken naar de meest frequente woorden is een logische keuze. “We gebruikten statistische modellen om er ook een bewijskracht aan te koppelen. Het tellen van verschillende frequent gebruikte woorden is waar het op neerkomt”, zegt Bosma. Het is de kracht van dit middel, zegt Cambier: “Je kan bewijskracht bepalen aan de hand van data, en dat is objectiever dan een eigen inschatting maken van hoe onderscheidend iets is.” 

Opvallende kenmerken

In auteurschapsanalyses wordt standaard niet alleen naar meest frequente woorden gekeken. De taalkundigen van het NFI bekijken ook welke andere opvallende kenmerken er zijn in het onderzoeksmateriaal die potentieel identificerend kunnen zijn. “We letten dan op bijzonderheden, bijvoorbeeld het gebruik van uitroeptekens, verhaspelde gezegdes, taalfouten. De dingen die mij opvallen zijn vaak juist niet de functiewoorden.” Beide onderzoeken letten op verschillende dingen en vullen elkaar mooi aan bij auteurschapsanalyses.

Vergelijkingsmateriaal

In het onderzoek naar de mogelijke zelfmoord was het de vraag of de mail was geschreven door het slachtoffer zelf, of door een van de twee begunstigden die in de e-mail werden genoemd. “De politie en het Openbaar Ministerie gingen uit van drie mogelijke opstellers van de mail. Het lag niet voor de hand dat er nog een schrijver van de mail was die niet in beeld was”, vertelt Cambier. Om de auteurschapsvergelijking in de zaak uit te voeren was er vergelijkingsmateriaal nodig. Cambier: “We hebben veel e-mails van alle drie de betrokkenen opgevraagd. Het ging om honderden mails, die we moesten gaan vergelijken met de tekst uit de mail.” In deze zaak wees de analyse van frequent gebruikte woorden dezelfde kant op als de taalkundige analyse van de bijzonderheden. “Achteraf bleek dat onze bevindingen ook aansloten bij de bevindingen van de politie. Zo lag de muis aan de linkerkant van het toetsenbord en de verdachte was linkshandig, de andere twee betrokkenen niet.” Daarnaast waren er nog verklaringen en een DNA-spoor van de veroordeelde in de knoop van het touw.

Meer aanvragen

Na de zaak van de zelfmoord die geen zelfmoord was, volgden er nog meer aanvragen van auteurschapsvergelijkingen door het NFI. “De ervaring die we opdeden in deze zaak bleek ook voor andere onderzoeken bruikbaar. De latere aanvragen gingen vaak over berichtenverkeer. Dan stuurt een persoon bijvoorbeeld appjes vanaf een anoniem toestel. Dan wil de politie weten hoe waarschijnlijk het is dat twee verschillende accounts van dezelfde auteur zijn. Of ze willen weten of een telefoon in een bepaalde periode mogelijk bij iemand anders was”, vertelt Bosma. 

Tijdrovende klus

De onderzoekers maken de auteurschapsvergelijkingen bijna altijd met onderzoeksmateriaal uit een specifieke zaak. “Het vergelijkingsmateriaal waarmee je vergelijkt is cruciaal. In groepen wordt vaak bepaald taalgebruik gebruikt, je neemt dingen van elkaar over. Je wil de kans op een toevallige overeenkomst zo klein mogelijk maken.” Dat maakt dat auteurschapsanalyse tijd kost. “Het duurt vaak zo’n drie tot vier maanden, omdat je ook het andere materiaal uit de zaak moet analyseren en opschonen. Dat is best een tijdrovende klus. Soms levert het wel een belangrijk puzzelstukje in de waarheidsvinding op en dan heb je dit ervoor over.”