Alles
nl
Text Mining We leven in een informatiemaatschappij en dat zullen we weten ook. Wetenschappers en opsporingsdiensten hebben meer informatie te verwerken dan ze aankunnen: drie miljoen A4-tjes vlooi je niet zo maar door, op zoek naar mogelijke betalingen van smeergeld, of naar het bewijs dat meneer X wel degelijk contact had met mevrouw Y. Maar niet alleen bij justitie hebben ze last van een ‘information overload’; ook wetenschappers maken gebruik van zulke grote databestanden, dat zelf alle informatie lezen niet meer mogelijk is. Maar daar heeft de wetenschap iets op gevonden. ‘Text mining’ heet de tak van informatica die methoden ontwikkelt om in gigantische hooibergen piepkleine speldjes te vinden. Jan Scholtes, sinds april bijzonder hoogleraar text mining aan de Universiteit Maastricht, ontwerpt software om grote databestanden te doorzoeken. Dat kun je, bijvoorbeeld met Google, op trefwoord doen. Dan krijg je alle documenten waarin de gezochte woorden staan. Een zoektocht op Google naar ‘Endstra’ en ‘Holleeder’ levert 29.400 documenten op. Maar die moet je dan nog wel allemaal zelf lezen om erachter te komen of hun relatie ‘strictly business’ was, of meer, eventueel allerlei illegaals, behelsde. Bovendien, als je met Google niets vind, weet je nog steeds niet zeker dat er echt niets is. De informatie die je zoekt kan (misschien met opzet) vermomd zijn en dat ziet Google over het hoofd. Om die verborgen informatie boven water te krijgen, moet je niet zoeken naar trefwoorden maar naar taalkundige structuren. Kun je een verband leggen tussen Endstra en een bepaalde bankrekening? En blijkt uit andere documenten dat Holleeder zaken deed met dezelfde bankrekening? Om daar achter te komen heb je een leger rechercheurs nodig die alle relevante documenten van begin tot eind moeten lezen. En daar komt Text Mining van pas. Zo kan duidelijk worden wie van wie geld ontvangt, wie contact heeft met wie, maar bijvoorbeeld ook of er een sociale of familierelatie bestaat tussen een chef en een ondergeschikte. Als op een afdeling wel erg veel dorpsgenoten, neven en buurmeisjes van de chef werken, kan er sprake zijn van vriendjespolitiek bij het aannemen van nieuwe medewerkers. Ook kan de computer leren naar de context van een woord te kijken. Dan weet hij dat ‘de leeuw op de Keniaanse savanne’ iets anders is dan ‘meneer De Leeuw’, ‘Piet de Leeuw’ of ‘dokter de Leeuw’. Maar je kunt text mining ook gebruiken voor andere dingen dan de opsporing van misdadigers. De Tilburgse computer-taalkundige Marieke van Erp ontwerpt voor Naturalis een computerprogramma waarmee onderzoekers de weg kunnen vinden in de 30.000 handgeschreven pagina’s veldnotities die daar tussen 1850 en 1990 in het archief terecht zijn gekomen. Veel bestaande text-mine programma’s zijn ontworpen op basis van krantenberichten. Maar dat taalgebruik verschilt veel van de veldwerknotities van biologen, die in hun aantekeningen vaak vreemde termen of afkortingen gebruiken. Ook zitten er vaak spelfouten in, die de computer moet zien te herkennen. En op hoeveel manieren kun je opschrijven dat een terrein nat, moerassig, drassig of zompig is? Big Brother ligt natuurlijk op de loer bij deze methoden. Het ligt volgens Scholtes aan de opdrachtgever: Amerikaanse veiligheidsdiensten hoeven bijvoorbeeld veel minder rekening te houden met de privacy van de burgers dan hun Europese collega’s. Zijn bedrijf levert dan ook naar keuze programma’s met of zonder privacy-waarborgen. ----- Wetenschapsnieuws Baby's hebben ritmegevoel Pacifische Pioniers Koppensnellende kever ----- De Amanuensis Achter elke onderzoeker staat een assistent: een laborant, een dierenverzorger of een instrumentmaker. Zonder assistenten geen onderzoek, maar hun namen prijken zelden boven de publicaties. Voor Noorderlicht maakte Remy van den Brand een serie reportages over de onmisbare hulpjes van de wetenschap. Vandaag het vierde deel, met Hannie de Caluwe, analist in het wortellab van de vakgroep experimentele plantenecologie van de Radboud Universiteit in Nijmegen. (presentatie: Ger Jochems)nl