‘Onkritische houdingen, onwetendheid en onbewustheid’ over data bias in de medische sector

Hoe data bias schadelijke effecten kan hebben in de medische sector – een interview met dr. Prabhakar Krishnamurthy

Data bias is een merkwaardig, een vaak dubbelzinnig fenomeen dat tegelijkertijd onzichtbaar lijkt. Hoewel er elke dag mogelijk miljoenen mensen worden getroffen, kunnen maar weinigen het herkennen en beschrijven. De meesten voelen aan de ontvangende kant van data bias alleen de gevolgen, maar weten wellicht niet eens dat data of algoritmen iets met hun situatie te maken hebben. In ieder geval niet meteen. Een gezichtsherkenningssysteem kan u niet zien? Misschien is het niet de verlichting in uw kamer, maar de tint van uw huid die de functionaliteit van de camera belemmert. Uw lening- of hypotheekaanvraag in een recordtijd afgewezen? Misschien heeft het niets te maken met hoe u uw financiën beheert, maar met waar u woont en met wie u omgaat.

Ondanks de ernst en reikwijdte ervan, blijft data-bias nog steeds grotendeels onduidelijk voor het grote publiek. Het is vooral een probleem voor experts om er over na te denken. En zelfs data-experts worstelen zelf met het begrijpen van het probleem, hoewel de meesten het erover eens zullen zijn dat het een belangrijke uitdaging is om dit vanuit meerdere fronten aan te pakken.

Het medische veld

Een gebied waar AI en data grote verbeteringen beloven, maar waar data-bias ook desastreuze gevolgen kan hebben, is de medische sector. Het is een concreet voorbeeld om data-bias een beetje beter te begrijpen. We spraken met een expert met jarenlange ervaring als datawetenschapper in de medische sector: dr. Prabhakar Krishnamurthy (PK). PK, gevestigd in de VS, werkt momenteel aan AI voor de gezondheidszorg. Hij heeft een achtergrond in techniek en wetenschap aan de University of Florida en Stanford University. Hij is ook een zeer actief man in de advertentiewetenschappen bij Yahoo! en werkt als mentor in Californië.

We bespraken met hem waarom data bias zo’n moeilijke, maar toch zo belangrijke uitdaging is voor ons allen. Hij legde ons uit dat veel van de risico’s van data bias diep-historische wortels hebben, drastische gevolgen kunnen hebben voor de getroffen mensen, maar dat er manieren zijn om het probleem aan te pakken door middel van meer openheid. Uiteindelijk, zegt PK, moeten dataprofessionals hun verantwoordelijkheid nemen voor datavooroordelen.

Interview met Dr. Prabhakar Krishnamurthy

Waarom concentreer je je op het medische veld?

Soms weten we niet dat we persoonlijk worden beïnvloed door gegevensbias. We weten niet welke methoden en algoritmen werkgevers gebruiken als we solliciteren. We hebben de details van die modellen niet. Ik kwam tot het besef dat de meesten van ons te maken hebben met gegevensvooringenomenheid op het gebied van de gezondheidszorg. We gaan allemaal naar een dokter, we krijgen voorgeschreven medicijnen, we krijgen de diagnose enzovoort. Het medische veld is gevuld met problemen met gegevensbias.

‘De meesten van ons hebben te maken met data-bias op gezondheidsgebied’

Bent u ooit een geval tegengekomen waarin u dus zelf werd beïnvloed door data bias op medisch gebied?

Ik kom uit India, dus ik ben Zuid-Aziatisch. Het blijkt dat Zuid-Aziaten een veel hoger aantal hartaandoeningen hebben dan anderen. Het is bijvoorbeeld bijna vier keer zo hoog als bij witte mannen. De meeste artsen zijn zich hier misschien niet van bewust, omdat ze misschien niet veel Zuid-Aziaten zien. Er is dus een standaardbereik van acceptabele cholesterolwaarden, wat normaal is. Maar voor Zuid-Aziaten is het een beetje anders, vanwege het hoger aantal hartaandoeningen. Dokters vertellen je dat niet, omdat ze zich daar niet van bewust zijn. Er zijn dus speciale klinieken voor Zuid-Aziaten die deze problemen aanpakken en die vanwege hun behandeling zelfs iets meer worden aanbevolen.

Heeft u een voorbeeld van een specifiek product dat met vooringenomen data gebouwd bleek te zijn?

Dit is niet mijn persoonlijke ontdekking, maar ik heb me hierin eens goed verdiept. In het geval van algoritmen voor het opsporen van huidkanker, zijn de meeste ervan getraind voor personen met een witte huid en doen ze het slechter bij het opsporen van huidkanker bij patiënten met een zwarte huid. Evenzo verminderen pulsoxymeters, die het zuurstofniveau in uw bloed meten, misleidende metingen voor patiënten met een zwarte huid. Ziekenhuizen beginnen softwareprogramma’s te gebruiken en ik kijk graag naar de uitkomsten. Voor de meeste patiënten die een behandeling ondergaan, is het resultaat goed, wordt hun risico geminimaliseerd en gaan ze er vaak gezond uit. Er is geen doelvariabele om op te trainen, dus gebruiken ze een proxyvariabele. Ze stellen vragen als: wat kost het om iemand te behandelen? Ze gaan ervan uit dat de kosten een weerspiegeling zijn van de hoeveelheid interventie die nodig is voor een positief resultaat.

Echter, het probleem is dat Afro-Amerikanen doorgaans minder toegang hebben tot gezondheidszorg en verzekeringen, terwijl er wellicht meer armoede is. Ze krijgen niet per se behandelingen van de beste kwaliteit of hebben soms geen toegang tot de nodige zorg, waardoor de kosten voor hen meestal lager zijn. Na analyse van de software realiseert de medische wereld zich nu dat de resultaten van de patiënten die door deze programma’s werden beheerd, uitkomsten van diverse sociale problemen zijn.

Denk je dat dat het geval zou kunnen zijn, omdat de ontwerpers voornamelijk wit zijn?

Ik zou niet zeggen dat het zoveel te maken heeft met wie het ontwerpt, maar het is gewoon dat er een algemeen gebrek aan bewustzijn is van het soort dingen dat kan gebeuren. Over het algemeen is er een gebrek aan bewustzijn van vooringenomenheid. Het heeft meer te maken met de traditionele manier van denken, omdat de meeste gegevens op het gebied van Amerikaanse gezondheid voor de witte man zijn. Het gaat terug tot de jaren 50 en 60, waar de meeste medische behandelingen voor mannen waren bedoeld. Bedrijven zijn gericht op efficiëntie, waardoor ze misschien niet de nodige aandacht besteden aan dit soort zaken.

‘Verschillende systemen gebruiken enigszins verschillende formaten, waardoor die gegevens mogelijk incompatibel worden’

Kunnen bedrijven nog steeds efficiënt zijn, terwijl ze deze vooroordelen in hun data vermijden door ze diverser te maken?

Het zou inderdaad gemakkelijker zijn om over alle mogelijke gegevens te beschikken. Elektronische medische dossiers worden tegenwoordig in een hoger tempo gedigitaliseerd, maar er is volgens mij nog steeds een gebrek aan standaardisatie. Diverse systemen gebruiken enigszins verschillende formaten, waardoor die gegevens mogelijk incompatibel worden. Het andere probleem is dat gezondheidsinstellingen niet altijd bereid zijn om hun gegevens te delen. Als u naar een bepaald ziekenhuis gaat en een ander ziekenhuis beschikt over alle gegevens, kunt u daarom besluiten om van medisch zorgverlener te veranderen.

Zou het voor bedrijven wellicht te duur kunnen zijn om data diverser te maken?

Als de gegevens niet gestandaardiseerd zijn, is het werk om de gegevens in bepaalde systemen te vertalen. Het zelf opmaken en coderen kost veel mensen en zeer veel energie en tijd. Er zijn ook voorschriften, zoals de IPA-voorschriften, die de privacy van die gegevens beschermen. HIPAA-conformiteit (Health Insurance Portability and Accountability Act) is de standaard voor de bescherming van gevoelige patiëntgegevens, maar het is een duur proces om te bouwen. Vrij duur zelfs.

Kunnen mensen iets doen om vooringenomenheid in gegevens op te sporen?

Ik vind dat patiënten meer bewust moeten zijn van wat onderzoek kan doen. Er is veel materiaal beschikbaar, er zijn veel artikelen gepubliceerd. Wees u meer bewust van gezondheidsrisico’s die u persoonlijk kunnen treffen, bijv. geslacht, ras en leeftijd.

Wat vindt u van een mogelijke disclaimer die bij de gegevens wordt geleverd, zodat we kunnen zien op wat voor soort mensen deze is getraind? 

“Wanneer onderzoekers modellen bouwen, waar het leven van burgers afhangt, is het normaal dat mensen kritiek hebben op het model”

Dat is een goed punt. Een van de dingen die ik heb gelezen, is dat medische bedrijven analyses en vertrouwelijke gegevens niet vaak opnemen in hun openbare documenten. We konden aan de hand van de openbare gegevens zien dat sommige apparaten zijn getest op representatieve populaties.

Ik heb gehoord over het idee om een ​​zogenaamde datakaart te maken: software die wordt geleverd met een certificering of een openbaarmaking die aangeeft welke gegevens zijn gebruikt. Dat maakt het al meteen een stuk transparanter. Een van de dingen die in mijn vakgebied gebeurden, is ook dat wanneer onderzoekers artikelen publiceren op conferenties, ze niet veel praten over waar de gegevens vandaan komen en hoe representatief die gegevens zijn. Dit soort artikelen zouden die discussie moeten bevatten.

Het laatste dat ik wil noemen, is dat wanneer onderzoekers modellen bouwen waarvan het leven van burgers afhangt, het normaal is dat mensen kritiek hebben op het model. Wat als er een valse diagnose wordt gesteld? Ik heb voorbeelden gezien waarin de onderzoeker zou zeggen: ik ben maar een onderzoeker! We moeten ons realiseren dat we dat soort dingen niet kunnen zeggen. Je moet het verkrijgen!

Oplossingen vinden voor gegevensbias, geschreven en geanalyseerd door Dennis Nguyen

Hoe datagestuurde technologie de medische wereld verandert, kan ons veel leren over de echte schade en risico’s die data-bias met zich meebrengt. Hij herinnert ons eraan dat een onkritische houding ten opzichte van technologie, onwetendheid bij dataprofessionals en onbewustheid bij doelgroepen sleutelfactoren zijn om rekening mee te houden bij het begrijpen van data-bias.

“Een gebrek aan standaarden voor gegevensgebruik en vragen over gegevenseigendom maken de zaken nog ingewikkelder”

Dus: hoe kunnen we oplossingen vinden? Het begint allemaal met de erkenning dat techmakers vaak cruciale kennis over doelgroepen missen en prioriteit geven aan snelle releases van hun ontwerpen. Een gebrek aan standaarden voor datagebruik en vragen over data-eigendom maken de zaken nog ingewikkelder. Dataprofessionals moeten echter hun verantwoordelijkheden aanvaarden en actief hun eigen aannames in twijfel trekken, voordat ze een datagestuurd systeem delen met het publiek en daadwerkelijk op de markt brengen. Transparantie en verantwoording zijn hierbij essentieel. Ook moeten leken zich meer bewust worden van data bias als een mogelijk risico. Door duidelijk uit te leggen hoe hun systemen werken en welke data ze gebruiken, kunnen techmakers bijdragen aan het opbouwen van dit bewustzijn. Een open dialoog over hoe data waarde creëert maar ook zijn grenzen kent, moet deel uitmaken van het vinden van oplossingen voor data bias.

Bekijk hier een korte video van het gesprek

De producties voor deze missie worden ondersteund door redacteur Aaron Golub

 

Bekijk hier andere items van deze missie:

Uitdagingen data bias

Hoe data bias op te sporen

Uitleg van deze missie

Waarom data bias een lastig fenomeen is

Enkele oplossingen voor het probleem

Data Bias in de medische wereld