Minimaliseren herleidingsrisico imputation server

Minimaliseren herleidingsrisico’s bij gebruik van de Michigan imputation server

Wat doet een imputation server? 

Deze server is bedoeld om ontbrekende genetische code aan te vullen als je geen whole genome sequencing (WGS) datasets hebt. WGS is nog steeds duur, en voor veel experimenten volstaat informatie van veel voorkomende DNA veranderingen (DNA markers), die gegenotypeerd kunnen worden op een goedkope ‘array’ (array-genotypering). 

Op basis van enorme referentiebibliotheken kan met een algoritme worden voorspeld wat de meest waarschijnlijke volgorde van de ontbrekende informatie (DNA sequentie) tussen de gegenotypeerde DNA markers is.

Werkwijze

De onderzoeker uploadt de gemeten marker-genotypes naar de “Michigan Server”, en hij vraagt de database de ontbrekende informatie aan te aanvullen (imputatie) en deze beschikbaar te maken voor download. De imputatie wordt gestart.  Het resultaat kan worden gedownload, waarna de geüploade en aangevulde gegevens op de Michigan Server worden vernietigd.

Wat is het risico op herleiding als deze data in handen zouden komen van onbevoegden?

Het artikel van Erlich et al., 2018, entitled “Identity inference of genomic data using long-range familial searches” laat zien dat bepaalde genetische gegevens herleid kunnen worden door ze te matchen met gegevens die beschikbaar zijn op DNA-databases.

Echter, in de praktijk zal hooguit een aantal individuen herleid kunnen worden, nl. diegenen die hun DNA hebben laten genotyperen én dit beschikbaar gemaakt hebben in publieke databases.

Als familieleden dit gedaan hebben kan er een match met een familie worden gevonden. Vervolgens moeten stambomen beschikbaar zijn om bepaalde familieleden als mogelijke persoonlijke match aan te wijzen.

Echter, stambomen met informatie over levende personen zijn normaliter vanwege privacy niet beschikbaar waardoor een match niet gemakkelijk gemaakt kan worden. Daarnaast is veel expertise en ervaring nodig om dit type gegevens te kunnen herleiden.

Kortom, voor dit type gegevens is er slechts een klein risico dat enkele onderzoeksdeelnemers herleid zouden kunnen worden.

Oplossing: Chromosoom mixen

Om dit risico te reduceren mixen de onderzoekers de chromosomen. De erfelijke gegevens van één individu zijn gegroepeerd in 24 discrete datasets (chromosomen).  Men mengt de chromosomen van verschillende personen met elkaar zodat er datasets ontstaan van niet-bestaande personen. Deze sets kunnen nooit gematched worden, aangezien de personen niet bestaan. 

Met deze maatregel, chromosoom mixen, is het redelijkerwijs niet meer mogelijk de geüploade of geïmputeerde sequenties te herleiden.

Auteur: Dr. Michel Paardekooper, Data Protection Officer VU Medisch Centrum