Mag je persoonsgegevens gebruiken om een AI mee te trainen?

01/02
2022
ahmedgad / Pixabay

Een lezer vroeg me:
Wij willen in onze organisatie gaan experimenteren met AI oftewel machine learning voor tekstanalyse. Onze bronbestanden bevatten persoonsgegevens (denk aan ingevulde aanvraagformulieren en onze beoordeling daarvan). Mogen we die meenemen in het bouwen van ons systeem?
Het gebruik van persoonsgegevens is natuurlijk gereguleerd onder de AVG. In principe is het niet de bedoeling dat je persoonsgegevens voor andere doeleinden gebruikt, zie mijn blog over testen met persoonsgegevens* als voorbeeld.

Er is echter een specifieke route bij het gebruik van data voor trainen van AI. AI oftewel machine learning is immers “alleen maar” statistiek, je zoekt naar patronen met wiskundige algoritmes, bijvoorbeeld lijnen die een heleboel metingen in twee groepen (ja/nee, gevaarlijk/normaal, etc) verdeelt of een formule waarmee je een nieuwe meting kunt plaatsen. In AVG terminologie noemen we dit een verwerking voor statistische doeleinden.

Vanwege artikel 5 lid 1 sub a AVG is dat dan in principe verenigbaar met het oorspronkelijke doel, wat dat doel ook was. Je mag statistisch onderzoek doen op je rechtmatig verkregen persoonsgegevens, daar is geen aparte toestemming voor nodig. De voornaamste eis is dat wat daaruit komt, niet rechtstreeks terug wordt toegepast op de betrokken personen, en al helemaal niet als een geautomatiseerde besluitvorming (artikel 22 AVG).

Dat is bij een AI model totaal niet aan de orde. Sterker nog, persoonsgegevens zijn gewoonlijk niet meer dan ruis – die paar keer dat er “Jansen” in een veld staat, heeft geen enkel effect. De vele duizenden bedragen waartussen geïnterpoleerd kan worden, of de velden met geslacht, werkzame status et cetera zijn veel belangrijker. Het statistisch model (“de AI”) dat eruit komt, zal dus niet of nauwelijks beïnvloed zijn door die namen of adressen in het bronbestand.

Het risico dat ik wel zie, is dat je een bron-dataset hebt waarin al die Jansens met naam en toenaam staan. Dat bestand zal dus goed moeten worden bewaakt, want daarin zitten dus leesbare persoonsgegevens en die zouden kunnen lekken of voor niet-statistische doelen worden ingezet. Tegelijk zul je dit bestand wel steeds nodig hebben bij iedere update, dus dit direct weggooien is ook weer geen optie.

Arnoud
* sed s/Wbp/AVG/g

Het bericht Mag je persoonsgegevens gebruiken om een AI mee te trainen? verscheen eerst op Ius Mentis.

Datum: dinsdag 1 februari 2022, 08:11
Bron: Iusmentis Blog
Categorie: Internet en ICT

Gerelateerde berichten:

Reacties:

Er zijn nog geen reacties op dit bericht.


Website by Web Chemistry