Big Data: ‘Help, de dokter verzuipt!’

De achilleshiel van Big Data

De achilleshiel van Big Data

Dr Peter-Bram ’t Hoen is Universtair Docent aan de afdeling Humane Genetica van het Leids Universitair Medisch Centrum en hoofd van de onderzoeksgroep Bioinformatica. ’t Hoen werkt onder andere binnen het Europese project RD Connect, waarin bijvoorbeeld databases en biobanken rond zeldzame aandoeningen worden gekoppeld.
 

Naast groei ook krimp
Waar Gordon Moore in 1965 nog stelde dat de computercapaciteit, en daarmee de hoeveelheid data, iedere twee jaar verdubbelt, moet ’t Hoen constateren dat de hoeveelheid gegevens uit het genetisch onderzoek zelfs iedere negen maanden verdubbelt. ‘Maar genereren en opslaan van gegevens is ook niet zo’n kunst. Het echte probleem zit in de toegankelijkheid van de gegevens. Ze zijn in verschillende formaten op verschillende plaatsen opgeslagen en zijn ook niet zondermeer overal en door iedereen te lezen en te interpreteren.’

Naast die exponentiële groei van de databerg verdwijnen er ook waardevolle gegevens, waarschuwt ’t Hoen. ‘Tien jaar na een wetenschappelijke publicatie is er vaak nog maar driekwart van de hoeveelheid originele data beschikbaar. Na twintig jaar is dat nog maar een kwart! Voor een deel komt dat door het verloop van onderzoekers. Een ander belangrijk probleem is gelegen in onze manier van publiceren, met de achterliggende data in een pdf als bijlage waar bijna niemand acht op slaat.’

Vindbaar onderzoek
Om dat probleem op te lossen, heeft de EU twee miljard euro gestoken in het ‘vindbaar’ maken van onderzoeksgegevens via een ‘Open Science Cloud’. ‘Ondanks dat het een Europees initiatief was, is die Open Science Cloud een wereldwijd project dat verdergaat dan Europa alleen. Het is ook niet Open in de strikte zin van het woord maar wel toegankelijk onder goed afgesproken voorwaarden. En de ‘Cloud’ in dit project is vooral een netwerk van onderzoeksinfrastructuren’

Samenwerken aan zeldzame ziekten
Het belang van gekoppelde databases wordt op weinig plaatsen zo duidelijk zichtbaar als in het onderzoek aan zeldzame aandoeningen, zoals de ziekte van Huntington. ‘t Hoen: ‘Bij dergelijk onderzoek is het koppelen van databases een absolute noodzaak. Eén onderzoeksgroep ziet per definitie niet voldoende patiënten voor statistisch verantwoord onderzoek. Maar dan lopen de onderzoekers al snel aan tegen de slechte match tussen de verschillende databases. Zelfs eenvoudige parameters als leeftijd of opleidingsniveau worden al op verschillende manieren vastgelegd.’

Om data bruikbaar te maken voor verschillende computers van verschillende onderzoekers en instituten moeten ze, zoals vaak wordt benadrukt in dit veld ‘FAIR’ worden (Vindbaar, Toepasbaar, Uitwisselbaar en Herbruikbaar). ‘In IT-termen betekent dat onder andere dat er uniform resource identifiers, of URI’s gebruikt moeten worden om gegevens op een eenduidige manier vast te leggen’, aldus ’t Hoen.

NFU Nederlandse Federatie van Universitair Medische Centra / Oudlaan 4, 3515 GA / Postbus 9696, 3506 GR Utrecht / T 030 273 98 80 / nfu@nfu.nl