Van droge data naar praktische tools: data scientists steeds belangrijker voor forensisch onderzoek
Data science: een stoffig vakgebied voor wiskundenerds? Welnee! Grote hoeveelheden data bieden kansen voor de waarheidsvinding. Data scientists kunnen hier patronen en zaaksoverstijgende verbanden in ontdekken. Anne Fleur van Luenen en Marieke Vinkenoog zijn data scientists bij het Nederlands Forensisch Instituut (NFI). Zij leggen uit wat data science bij het NFI precies inhoudt.
De data scientists van het NFI richten zich op het intelligent analyseren van data. Door computertechnieken toe te passen maken zij gegevens inzichtelijk en halen essentiële informatie uit grote hoeveelheden data. Met bijna dertig data scientists in dienst heeft het NFI op dit moment het grootste team van de Rijksoverheid. Een van de data scientists is Anne Fleur van Luenen: “Wij ondersteunen de onderzoeksgebieden van het NFI door met hen mee te denken over: Welke taken kunnen we door computers laten uitvoeren die onderzoekers heel veel tijd besparen? Welke handelingen kunnen we voor hen automatiseren? En hoe kunnen we computers inzetten om de bewijswaardering in rechtszaken te versterken?”
Data science versterkt zaakonderzoek
Ze geeft een voorbeeld van hoe data science het zaakonderzoek versterkt: “Stel, er is iemand vermoord en op de telefoon van de verdachte staat het bericht: ‘die gast moet slapen’. De rechter concludeert dat dit bewijst dat de verdachte betrokken is bij de moord, want het is zijn telefoon, dus zijn bericht. De verdachte kan echter zeggen: “Dat was ik niet, ik had mijn telefoon uitgeleend…” Hoe bewijs je dan of de verdachte de waarheid spreekt of niet?”
Hier komt auteurschapsherkenning om de hoek kijken. “Stel dat de verdachte verklaart dat hij zijn telefoon een week heeft uitgeleend. Dan is de vraag of we kunnen onderzoeken of de berichten in die week significant verschillen van de berichten in de weken ervoor en erna. We vergelijken dan de schrijfstijlen van de berichten en proberen uitspraken te doen die kunnen helpen in een rechtszaak.”
Ook draagt data science bij aan het efficiënter inrichten van onderzoeken. Binnen de deskundigheidsgebieden zijn er veel onderzoekers die handmatig taken uitvoeren die waarschijnlijk kunnen worden ondersteund door data science of kunstmatige intelligentie (AI). Van Luenen geeft een voorbeeld: “Neem bijvoorbeeld onderzoekers die de hele dag door een microscoop sporen bekijken. Kunnen we met afbeeldingstechnieken detecteren wat zij zoeken?” Van Luenen benadrukt dat data science niet het doel heeft om de mens te vervangen, maar om te ondersteunen en processen efficiënter te maken. “Het NFI groeit en het werk neemt alleen maar toe. Wij zoeken naar manieren om het werk van de onderzoekers te verlichten.”
Vuurwerksnipper-project
Hier kan Marieke Vinkenoog over meepraten. Als data scientist werkt zij speciaal voor de divisie Chemische en Fysische Sporen (CFS) van het NFI. Deze divisie bestaat uit diverse onderzoeksgebieden, waaronder Verdovende Middelen, Microsporen en Materialen, en Explosies en Explosieven. Voor dit laatste team werkte Vinkenoog aan het ‘vuurwerksnipper-project’.
“De politie of Forensische Opsporing schakelt team Explosies en Explosieven vaak in na bijvoorbeeld een bomaanslag op een woning, waarbij zwaar vuurwerk zoals een Cobra 6 is gebruikt om een voordeur op te blazen. Op de plaats delict (PD) vinden ze dan hele kleine snippertjes van etiketten van dit vuurwerk. Opsporingsdiensten vragen vervolgens aan de experts van het NFI om aan de hand van zo'n snippertje te achterhalen wat voor type vuurwerk dit is, om zo meer te weten te komen over de gevaarzetting en mogelijke verdachten”, vertelt Vinkenoog.
Tot voor kort werd deze identificatie gedaan door de onderzoekers zelf, die de snippers bekeken en deze op basis van hun ervaring identificeerden. “Dat is heel knap, maar deze kennis gaat verloren wanneer onderzoekers bijvoorbeeld met pensioen gaan”, zegt Vinkenoog. “Het visueel identificeren van zulke vuurwerksnippers is een taak die heel goed door AI kan worden uitgevoerd, met behulp van beeldherkenning. AI kan de politie ter plaatse ondersteunen bij de identificatie.” En dat is waar de data scientists van CFS mee aan de slag zijn gegaan.
Zij ontwikkelden een programma waarin een foto van gevonden vuurwerksnippers op de PD door een algoritme wordt geanalyseerd. “Het algoritme vergelijkt de snippers met een database van vuurwerketiketten van verschillende soorten vuurwerk die het NFI heeft verzameld. Het algoritme geeft als resultaat welke etiketten het beste overeenkomen met de gevonden snipper”, legt ze uit. Dit bleek zeer effectief te zijn. “In de meeste gevallen was het meest overeenkomende etiket ook het juiste etiket. In 95% van de gevallen zat het juiste etiket in ieder geval bij de top drie van matches.” Dit was een veelbelovend resultaat. Vinkenoog en haar collega’s ontwikkelden het programma tot een website, die inmiddels in gebruik is. “Opsporingsdiensten kunnen de applicatie gebruiken als ondersteuning ter plaatse. Dat is sneller dan wachten tot er een deskundige naar gekeken heeft.”
Programmeren in Python
Om zo’n programma als voor het vuurwerksnipper-project te schrijven, maken de data scientists gebruik van Python: een programmeertaal die de basis vormt van al hun werk. Om een model te trainen zijn veel data nodig en dat kan van alles zijn: tekst, afbeeldingen, getallen, of DNA-sequenties (de volgorde van bouwstenen waaruit DNA is opgebouwd). “Computers verstaan geen menselijke taal, dus moeten we innovatief zijn in hoe we computers met die data laten omgaan. Daar is de afgelopen tien jaar ontzettend veel ontwikkeling in geweest”, zegt Van Luenen.
Kunnen programmeren in Python is dus een essentiële vaardigheid als data scientist. Toch heeft Van Luenen van oorsprong een heel andere achtergrond en studeerde taalwetenschap. “Tijdens een stage besefte ik dat de richting die ik had gekozen niet goed bij mij paste, maar ik hield wel enorm van taal.” Ze was naar eigen zeggen totaal niet met computers bezig, maar begon zich na een gouden tip te verdiepen in taalmodellen: computerprogramma’s die getraind zijn om menselijke taal te begrijpen en te produceren op basis van patronen in grote hoeveelheden tekstdata. “Ik deed tijdens het laatste halfjaar van mijn studie een cursus Python en vertrok daarna naar Zweden voor een masteropleiding in taaltechnologie. Daar leerde ik programmeren en hoe je met taal als data omgaat.”
Andere vooropleiding
Een vergelijkbare start maakte Vinkenoog. Net als Van Luenen startte zij in een compleet andere richting; zij studeerde biologie. “Tijdens de bacheloropleiding kreeg ik het vak statistiek. Dat vond ik zo leuk, dat ik dacht: hier wil ik me in specialiseren”, vertelt Vinkenoog. Ze koos voor een masteropleiding statistiek, met een specialisatie in data science. Inmiddels is ze gepromoveerd. Voor haar promotieonderzoek ontwikkelde ze voorspellingsmodellen voor een bloedbank die het ijzergehalte in het bloed van donoren kunnen voorspellen. Hierdoor kan de bloedbank gerichter mensen uitnodigen om bloed te doneren. “Mijn werk draaide vooral om data science en programmeren, dus ik was niet op het laboratorium, maar werkte wel met biologische gegevens. Vanwege mijn achtergrond begreep ik dit beter dan wanneer ik alleen uit de wereld van data zou komen. Het was fantastisch om biologie en data science zo te combineren.”
Diversiteit binnen FBDA
Van Luenen en Vinkenoog zijn niet de enigen met zo’n diverse achtergrond: de data scientists van het NFI hebben heel uiteenlopende opleidingen en achtergronden, waaronder natuurkunde, biologie, softwareontwikkeling, statistiek, antropologie, computerwetenschappen, wiskunde, AI en psychologie. “Die diversiteit is ontzettend waardevol, juist omdat we binnen het NFI ook zoveel verschillende onderzoeksgebieden hebben”, zegt Van Luenen. “Als we bijvoorbeeld een DNA-project hebben, kan iemand van ons met een biologische achtergrond aansluiten.” Vinkenoog beaamt dit: “Soms merk je ook duidelijk uit welk vakgebied iemand komt. Zo benadert één van mijn directe collega’s data science meer vanuit formules en theorie, vanwege zijn wiskundige achtergrond. We vullen elkaar aan en leren van elkaar. Hoewel ik veel weet van modellen en data-analyse, heb ik mijn collega met een achtergrond als software engineer nodig om zo’n model een gebruikersinterface te geven om het bruikbaar te maken. Het klinkt als een cliché, maar als team zijn we echt sterker dan als individuele personen.”
Scrum
De data scientists passen Scrum toe in hun projecten, een veelgebruikte methode waarbij teams samenwerken in korte cycli, genaamd sprints, om snel en flexibel concrete resultaten te behalen. “We werken in groepjes van vijf à zes collega’s gedurende drie weken aan een project”, vertelt Van Luenen. Binnen de groep is er een duidelijke taakverdeling: iemand heeft de inhoudelijke leiding, een ander zit de meetings voor. “We hebben een gigantische actielijst. Aan het begin van de dag plaats ik mijn naam bij een bepaalde taak op het bord. Zodra ik klaar ben, schuif ik het door naar ‘review’ zodat een collega mijn werk kan controleren.” Alle geprogrammeerde codes worden minstens twee keer bekeken. “Dit helpt bij het opsporen van eventuele fouten, maar net zoals mensen verschillende schrijfstijlen hebben, hebben we ook onze eigen 'schrijfstijl' in programmeren. Het oplossen van problemen kun je op verschillende manieren benaderen, dus leren we ook veel van elkaar.”
Data zijn niet zomaar data
Elke dag is er een stand-up meeting om vraagstukken te bespreken, taken te verdelen en de voortgang bij te houden. “Vaak zijn er één of twee onderzoekers aanwezig van het deskundigheidsgebied waar we op dat moment voor werken”, zegt Vinkenoog. “Zij zijn nieuwsgierig naar onze voortgang, maar wij hebben ook vragen over hun data. Neem bijvoorbeeld de data uit een gaschromatograaf-massaspectrometer, een apparaat dat mengsels van stoffen kan scheiden en identificeren. Dit wordt veel gebruikt bij bijvoorbeeld drugsonderzoek. Hoe werkt zo’n apparaat? Wat voor data genereert het en wat kunnen we ermee? Data zijn niet zomaar data; de ene piek in een analyseresultaat is belangrijker dan de andere. We moeten altijd weten waar de data vandaan komen, hoe deze zijn verzameld en wat het betekent. De kennis van de onderzoekers hebben we nodig om de computer de juiste instructies te geven over hoe de data moeten worden verwerkt.”
Voor de divisie CFS werken Vinkenoog en haar collega’s meestal drie sprints, dus negen weken, achter elkaar aan hetzelfde project. Tijdens de eerste sprint van drie weken vormen ze een beeld van wat de data precies betekenen, wat ze ermee willen doen en hoe ze dat gaan programmeren. Daarna volgen twee sprints om dat te ontwikkelen.
Glasdatabase-project
Naast het vuurwerksnipper-project werkte Vinkenoog ook aan een algoritme voor de visuele herkenning van xtc-tabletten voor team Verdovende Middelen, en het glasdatabase-project voor team Microsporen & Materialen. Ze geeft een voorbeeld van een casus: “Stel, bij een inbraak is een winkelruit gebroken. Dan vind je op de plaats delict glasscherven. Als later een verdachte wordt opgepakt met een klein stukje glas in zijn kleding, wil je weten of de chemische samenstelling tussen dat glasstukje en de gebroken ruit hetzelfde is.” Dit onderzoek doet het team Microsporen & Materialen door chemische profielen van de samenstelling van het glas te vergelijken. Ook kunnen ze glasdeeltjes vergelijken met eerder gemeten glasdeeltjes in een database, waardoor verdachten aan delicten gekoppeld kunnen worden. “Dit wordt gedaan met een systeem in Excel met macro’s. Maar de database werd zo groot, dat Excel dit niet meer aankon.”
“We hebben nu hetzelfde proces geprogrammeerd in Python”, vertelt Vinkenoog. De applicatie is nog in ontwikkeling, maar naar verwachting kunnen de onderzoekers binnen enkele maanden via een webapplicatie hun bestanden uploaden, waarna de website al het rekenwerk uitvoert met behulp van een robuuste database die is gebouwd om grote hoeveelheden data aan te kunnen. “Vervolgens kunnen ze de resultaten downloaden en worden deze automatisch geformatteerd zoals ze gewend waren in Excel. Dit helpt de deskundigen straks bij hun werk.”
Niet alles lukt
De data scientists leveren mooie en bruikbare tools , maar niet alle projecten zijn succesvol, aldus Vinkenoog. “Het is ook niet de bedoeling dat alles slaagt, want dat zou betekenen dat we de lat niet hoog genoeg leggen.” Soms zijn de juiste data niet beschikbaar om een model te trainen. “In dat geval geven we feedback aan de onderzoekers en denken we met ze mee over welke data nodig zouden zijn om hun vraag wel te beantwoorden.”
Profiel van een data scientist
Wat zijn de belangrijkste vaardigheden van een data scientist? Volgens Van Luenen en Vinkenoog is programmeren in Python essentieel, dat staat voorop. “Je moet logisch kunnen denken”, voegt Vinkenoog toe. “Programmeren is eigenlijk niets anders dan de computer instructies geven. Als je verkeerde instructies geeft, doet de computer niet wat je wilt, maar precies wat je zegt. Het is als puzzelen, maar dan met data: welk model past het beste?”
Daarnaast moet je nieuwsgierig van aard zijn en continu willen blijven ontwikkelen, want de technieken staan nooit stil. Data science en de mogelijkheden op het gebied van AI ontwikkelen zich razendsnel. “En specifiek voor het NFI is een gevoel van maatschappelijke betrokkenheid ook van belang”, zegt Van Luenen. “We zijn nerds, maar we zijn ook bezig met wat er in de politiek en samenleving speelt.” Vinkenoog voegt toe: “Je moet gedreven zijn om iets bij te dragen aan de forensische opsporing en zo aan een veiliger Nederland.”
Herken jij jezelf in dit profiel en ben je enthousiast over de werkzaamheden van een data scientist bij het NFI? Bekijk dan onze beschikbare vacatures.