• Menu

0 recente resultaten

Levensloop van een algoritme

In het nieuws gaat het vaak over 'discriminerende algoritmes', maar wat houdt dat in? Waar komt die discriminerende werking precies vandaan? En als we weten waar het probleem ligt, kan het probleem dan niet worden opgelost?

Dit laatste is makkelijker gezegd dan gedaan. Discriminerende algoritmes zijn geen kwestie van 'slechte technologie'. Discriminatie kan ontstaan tijdens het hele proces: bij het bepalen waar het algoritme voor wordt ingezet, bij het trainen van het algoritme door de data, bij het bepalen van de gewenste eindresultaten en bij de wisselwerking tussen het algoritme en het daadwerkelijke effect ervan op de samenleving.

Bepalen waar het algoritme voor wordt ingezet

Voordat je als organisatie een algoritme inzet, moet eerst duidelijk zijn: welk probleem lossen we op? Denk bijvoorbeeld aan bijstandsuitkeringen. Je kunt niet zomaar 'het hele proces' automatiseren, van het beoordelen van een aanvraag tot het toekennen van een uitkering. Daar is een dergelijk proces te complex voor. In eerste instantie moet er dus een keuze worden gemaakt wat betreft de stap die zal worden geautomatiseerd. Hier ontstaat het eerste probleem: wat technisch mogelijk is, wordt vaak leidend. Vaak worden beslismomenten geautomatiseerd, omdat dat ‘nou eenmaal kan’. Hiermee gaan organisaties dus voorbij aan het probleem wat ze in eerste instantie proberen op te lossen.

Een voorbeeld: gemeenten zetten tegenwoordig steeds vaker algoritmes in om bijstandsaanvragen te controleren. Maar hier blijkt dat de meerderheid van de bijstandsaanvragen niet compleet of niet goed worden ingevuld. Waarom wordt het complexe aanvraagproces zelf onder handen genomen in plaats van het aanpakken van de consequenties ervan?

"Waarom wordt een algoritme überhaupt ingezet op dit specifieke probleem? Is een algoritme wel de meest geschikte methode?"

Het model om data te verwerken

Vervolgens moet je – wanneer je als organisatie een algoritme inzet – een bepaald model kiezen. Kies je voor een simpel ‘rule-based’ algoritme? Dit betekent dat je de regels op basis waarvan het algoritme de data moet verwerken, zelf invoert. Je kunt bijvoorbeeld direct wettelijk kaders in code vertalen. Maar zelfs zulke op het eerste gezicht simpel lijkende algortimen zijn in de praktijk helemaal niet zo simpel. Informatie over mensen kan zijn verouderd of niet kloppen. Ook kan het zo zijn dat informatie is  verspreid over verschillende dossiers. Een algoritme gaat alleen te werk binnen de data die jij aanlevert. Buiten de scope van die data ‘weet’ het algoritme niets.

Een voorbeeld: een vermogen van een bepaald persoon blijkt te hoog voor een uitkering, maar dit blijkt te komen doordat diegene een vergoeding kreeg voor de toeslagenaffaire. Een ambtenaar zou dat kunnen weten, maar het algoritme kan deze context onmogelijk kennen, tenzij daar rekening mee is gehouden bij het opzetten van het algoritme.

Daarnaast kan ook een relatief simpel algoritme leiden tot discriminatie, ondanks het feit dat de werking van een ‘rule-based’ model bekend is. De Dienst Uitvoering Onderwijs (DUO) maakte bijvoorbeeld gebruik van zo'n algoritme om te controleren of studenten die een uitwonende beurs ontvingen wel echt buitenshuis woonden. De medewerkers die dit werk jaren hadden uitgevoerd, bepaalden dat studenten die dichtbij hun ouders woonden, jonger waren en een mbo-opleiding deden een hogere kans hadden om fraudeur te zijn. Door deze regels aan te houden bij de inzet van het algoritme, bleek dat dit algoritme hierdoor disproportioneel vaak studenten met een migratieachtergrond selecteerde voor controleLees hier meer over het algoritme van DUO.

Wanneer niet direct wordt geselecteerd op beschermde gronden, maar groepen die gekenmerkt worden door die beschermde gronden toch vaker worden geselecteerd, dan is er sprake van indirecte discriminatie.

Naast deze ‘rule-based’ algoritmes zijn er complexere toepassingen mogelijk, waarbij het algoritme zelf de regels bepaalt. Dan kies je voor een ‘datagedreven’ algoritme. In dit geval train je een model op data van het verleden en laat je het zijn eigen conclusies trekken. De keerzijde daarvan is dat het niet duidelijk is op basis waarvan het algoritme keuzes maakt. Dit maakt deze methode minder transparant en moeilijk uitlegbaar. Ook hier kan het voorkomen dat het algoritme selecteert op beschermde gronden en onwenselijke resultaten oplevert.

De data

Als er al besloten is dat een algoritme de meest geschikte methode is, dan moet er data worden verzameld. Daarbij is het goed om te beseffen dat data niet neutraal is. Mensen bepalen wat wordt gemeten en wat niet.

Stel dat historische data worden gebruikt om fraude te voorspellen. Als in het verleden bepaalde groepen mensen vaker werden gecontroleerd, kan het lijken alsof zij meer fraude plegen. Dat hoeft in werkelijkheid echter helemaal niet zo te zijn.

Als een algoritme op basis van deze data wordt getraind, dan leert het van deze data en wordt deze ‘bias’ voortgezet, bijvoorbeeld wanneer het algoritme nieuwe data gaat beoordelen.

Er zijn manieren om dit te corrigeren. Je kunt ervoor zorgen dat de data representatief is. Dit houdt in dat de gehele bevolking vertegenwoordigd wordt in je data, dus dat er geen enkele groep te vaak of te weinig in de data voorkomt. Daarnaast kun je overgerepresenteerde gevallen minder zwaar laten wegen. Dit is echter geen garantie dat het algoritme niet bevooroordeeld zou zijn.

Daarnaast moet er een keuze worden gemaakt welke gegevens precies worden meegenomen. Bijzondere persoonsgegevens zoals biometrische gegevens, gegevens waaruit iemands ras of etniciteit blijkt of politieke opvattingen, mogen niet zomaar worden gebruikt. Dus er moet goed nagedacht worden welke gegevens relevant zijn en inhoudelijk gerelateerd zijn aan het probleem dat je probeert op te lossen.

Trainen en testen

Een algoritme wordt meestal getraind op 80% van de data en getest op de resterende 20%. Als je gaat evalueren hoe het algoritme presteert, dan moet je bepalen wat het gewenste resultaat is. Bij een algoritme dat fraude opspoort en waarbij de uitkomst een grote impact heeft op de mensen, worden minder fouten getolereerd dan een algoritme dat bijvoorbeeld spam van e-mail onderscheidt.

Je moet ook een afweging maken tussen hoe vaak een algoritme kan zeggen dat iets aanwezig / waar is terwijl dat niet zo is (‘false positive’) en hoe vaak een algoritme iets mag missen (‘false negative’). Bijvoorbeeld: een algoritme in een zelfrijdende auto moet mensen kunnen onderscheiden van de omgeving. Als het af en toe een lantaarnpaal als mens categoriseert (‘false positive’), dan is dat minder erg dan als het een mens niet herkent als mens (‘false negative'). Maar bij een algoritme dat crimineel gedrag voorspelt, kan een ‘false positive’ wel ernstige gevolgen hebben voor een persoon. Een onschuldig persoon kan worden beschuldigd van een misdaad die ze niet heeft gepleegd.

De context is dus bepalend voor het gewenste eindresultaat.

Daadwerkelijke toepassing

Wanneer een algoritme daadwerkelijk wordt toegepast, kunnen er allerlei zaken misgaan.

Ten eerste is de data waar het algoritme op is getraind historische data. De nieuwe data waar het op wordt toegepast kan er anders uitzien dan de trainingsdata. De wereld om ons heen verandert voortdurend; wat we meten is dus misschien anders. Het kan dan ook voorkomen dat het algoritme zich anders gedraagt dan in de test-fase.

Volgens de Algemene verordening gegevensbescherming (AVG) hebben mensen het recht om niet te worden onderworpen aan automatische besluitvorming. Dit houdt in dat een besluit uiteindelijk altijd door een mens gemaakt moet worden. Maar hoe betekenisvol is menselijke tussenkomst wanneer een mens uitgaat van de beoordeling van een algoritme? Wat als een algoritme iets identificeert als fraude, maar het blijkt een onschuldige fout te zijn? Als een mens dit blindelings overneemt zonder het goed te controleren, dan kan dit leiden tot onbedoelde gevolgen.

Daarnaast kan het toepassen van algoritmes leiden tot stigmatisering. Bijvoorbeeld: als er een algoritme wordt gebruikt om criminaliteit te voorspellen in bepaalde locaties, dan zal het leiden tot meer toezicht in die locaties. Dit leidt vervolgens weer tot meer data over criminaliteit in die omgeving. Het algoritme krijgt deze data vervolgens weer gevoed, waardoor het nog meer criminaliteit in die omgeving voorspelt. Zo krijg je een ‘self-fulfilling prophecy’.

'Eerlijke' algoritmes

Het ontwikkelen van 'eerlijke algoritmes' is dus niet een kwestie van het verbeteren van de werking van het algoritme. Organisaties moeten kijken naar het grotere plaatje. Waarom wordt een algoritme überhaupt ingezet op dit specifieke probleem? Is een algoritme de meest geschikte methode? Welke context verliezen we als we een algoritme inzetten? En weegt verhoogde efficiëntie op tegen een verlies van menswaardigheid? Dit zijn de vragen die beantwoord moeten worden voordat er gesleuteld wordt aan een ‘eerlijk algoritme’.

 

Help mee en steun ons

Door mijn bijdrage ondersteun ik Bits of Freedom, dat kan maandelijks of eenmalig.

Dankjewel supporter van vrij internet!

Je ontvangt de inlogcode via de mail.

Als donateur ontvang je elk kwartaal een speciale update, maar als je up-to-date wil blijven over ons werk kun je het beste abonneren op onze nieuwsbrieven. Schrijf je hieronder in!

    Gelukt!

    Je ontvangt nu ook onze nieuwsbrief. Je kunt deze popup sluiten.

    Er ging iets mis tijdens de betaling

    Je betaling is niet juist afgehandeld, probeer nog eens.

    Support en doneer!

    Meer weten over doneren aan ons? Lees er hier alles over.