Hoe analyseer je real world data?

Het belang van machinaal leren en andere analysetechnieken voor de oncologie

Kernideeën

  • Flexibele vormen van markttoelating nopen tot de analyse van real world data.
  • Geavanceerde data-analysetechnieken, zoals machinaal leren, zijn bij uitstek geschikt om de beperkingen van die data te ondervangen.
  • De onderzochte technieken zijn veelbelovend: ze maken een fijnmazigere patiëntenstratificatie mogelijk en kunnen de effectiviteit van een geneesmiddel voorspellen, rekening houdend met een veelheid aan factoren.
  • Opdat die geavanceerde analysetechnieken daadwerkelijk kunnen worden ingezet moet er werk worden gemaakt van gefedereerde datasystemen.

De vraag naar innovatieve kankermedicijnen is groot. Hun ontwikkeling is echter een complex en langdurig traject, langer en duurder dan dat voor klassieke kankertherapieën, met een kleine kans op succes. De medicijnen die het toch halen komen best zo snel mogelijk op de markt. Daarom heeft de EMA (European Medicines Agency) flexibele vormen van markttoelating in het leven geroepen, zoals voorwaardelijke toelating en adaptive pathways. Nu mag snelheid niet ten koste van veiligheid gaan en dus moeten die medicijnen gemonitord worden, ook nadat ze in omloop zijn gekomen, en dat is geen sinecure. Het doctoraat van Tine Geldof toont aan dat geavanceerde data-analysetechnieken, zoals machinaal leren, een uitkomst kunnen bieden.

Echte data zijn een rommeltje

Gerandomiseerde gecontroleerde klinische studies tijdens de ontwikkeling van een geneesmiddel gebruiken overlevingsanalyses, statistische technieken voor de analyse van tijd-tot-event-data. “Maar die conventionele technieken zijn niet geschikt voor real world data   data uit de dagelijkse klinische praktijk”, legt Tine uit. “Anders dan in klinische studies heb je hier te maken met ontbrekende of ambigue data, een diverse patiëntenpopulatie, verschillende mogelijke gecombineerde therapieën, diverse alternatieve behandelingen om mee te vergelijken en tal van andere verstorende factoren waarvoor je niet kunt controleren, en waardoor het erg moeilijk wordt om causale effecten bloot te leggen.”

Geavanceerde data-analysetechnieken kunnen dergelijke complexe datasets wél de baas. De mogelijkheden van onder meer algoritmes voor machinaal leren zijn genoegzaam bekend en ze worden met succes toegepast in allerlei sectoren. In de farma blijft het gebruik ervan vooralsnog voornamelijk beperkt tot de discoveryfase en dat is, gezien hun potentieel, erg jammer.

Angst voor de black box

Voor de keuze van een behandeling gaan artsen nu, net zoals de betalers en de regulator, uit van de overlevingsanalyses van de klinische studies. Voor innovatieve kankermedicijnen die via flexibele routes op de markt komen zouden ze zich dan kunnen baseren op analyses van real world data. “Maar de drempel om nieuwe analysetechnieken toe te passen is hoog”, zegt Tine. “Het gaat nu eenmaal over mensenlevens en een veel gehoord bezwaar is dat men het niet ziet zitten om zo’n beslissing aan een computer over te laten. Om die weerstand te overwinnen is het dan ook belangrijk dat de analysealgoritmes transparant en interpreteerbaar zijn.”

Daarom koos ze voor haar onderzoek voor beslisbomen (decision trees), een van de eenvoudigste methoden voor machinaal leren, en Bayesiaanse netwerken (zie kader). Kunnen deze technieken ons betrouwbare informatie geven over de performantie van een kankermedicijn?
De real world data die ze gebruikte waren afkomstig van de Stichting Kankerregister (anonieme patiëntdata en tumorgegevens) en het InterMutualistisch Agentschap (IMA, data over terugbetaalde behandelingen en medicijnen).

Glioblastoom

Beslisbomen zijn heel visueel, intuïtief en gemakkelijk te interpreteren. Tine paste de techniek toe op gegevens over patiënten met glioblastoom, de meest voorkomende en meest agressieve vorm van hersentumor, en een behandeling met temozolomide, om na te gaan onder welke omstandigheden, i.e. voor welk type patiënt, de behandeling effectief is. Deze studie bevestigde het belang van leeftijd, een variabele die ook tijdens de klinisch studies was gebruikt, maar Tines model bracht ook nog andere beïnvloedende variabelen aan het licht, o.a. de eventuele combinatie met klassieke chemo. Door de uitkomst te vergelijken met die verkregen door logistieke regressie, een in de medische literatuur veel gebruikte statistische classificatietechniek, kon worden aangetoond dat de classificatie van het beslisboommodel bruikbaar was. Het perfecte model is niet haalbaar, maar je weet wel wanneer een model beter kán en soms wijst dat op ontbrekende data. “Dat was hier ook het geval”, herinnert Tine zich. “We weten uit de literatuur dat patiënten met een bepaalde genetische afwijking beter reageren op temozolomide, maar die gegevens had ik helaas niet.”

Gemetastaseerde darmkanker

Het Bayesiaans netwerk werd gebruikt op een dataset van patiënten met gemetastaseerde darmkanker, een kanker waarvoor er, anders dan voor glioblastoom, meer innovatieve alternatieven beschikbaar zijn en waarvan de overleving veel langer is. De dataset was bijgevolg complexer, met meer ontbrekende gegevens. Tines model onderzocht de effecten van de doelgerichte (targeted) medicijnen aflibercept, bevacizumab, cetuximab en panitumumab. “Voor doelgerichte therapieën zijn nog maar weinig klinische studies beschikbaar”, vertelt ze. “Bovendien vergelijken ze het effect van één of een beperkt aantal medicijnen met de behandelstandaard. Een Bayesiaans netwerk kan het volledige aanbod en alle mogelijke combinaties analyseren. Daardoor biedt het een beter inzicht in de optimale behandelroute.”

Meer informatie, betere beslissingen

Tines doctoraat wilde nagaan of er met behulp van geavanceerde data-analyse uit praktijkdata meer informatie valt af te leiden dan uit klinische studies. “Het blijkt dat mijn modellen de patiëntenpopulatie veel fijnmaziger kunnen stratificeren. Ze kunnen op nagenoeg individueel niveau nagaan of en voor welke patiënt een bepaald medicijn nuttig is. In de praktijk zouden deze modellen ook helpen om de meest aangewezen behandelvolgorde of combinatie van medicijnen te bepalen. Ze geven ook bruikbare informatie over de effectiviteit van een medicijn.“

Het is niet de bedoeling dat dergelijke modellen de arts vervangen, ze helpen hem om beter geïnformeerde beslissingen te nemen, op basis van informatie verstrekt door betalers en/of de regulator, of, waarom niet, via een gespecialiseerde app. Belangrijk met het oog op een echte duurzame gezondheidszorg ten slotte: Tines onderzoek is ook een stap op weg naar een op performantie gebaseerde terugbetaling van medicijnen.

Er is een maar

Elk model staat of valt met zijn data en daar wringt de schoen. “Het verzamelen van data heeft heel wat voeten in de aarde gehad. Gelukkig kon ik de gegevens van de Stichting Kankerregister linken aan die van het IMA, maar niet aan andere nuttige data over biomarkers, bijvoorbeeld. De beschikbare informatie is versnipperd en onvolledig, verspreid over verschillende bronnen met verschillende sleutels enz.”

Hebben we dan één centrale database nodig? “Neen, het centraliseren van gegevens kost tijd en om flexibele markttoegang op basis van real world data te laten slagen is een snelle dataverwerking cruciaal”, benadrukt Tine. “We moeten evolueren naar een gefedereerd datasysteem waarbij niet de data naar de analyse, maar de analyse naar de data wordt gebracht. De gegevens blijven bij de bron, maar kunnen eenvoudig gekoppeld worden. Onderzoekers krijgen de data niet op hun computer, maar hebben, bijvoorbeeld via een cloudtoepassing, toegang tot data van verschillende bronnen tegelijkertijd. Zo’n systeem is onmisbaar wil je innovatieve research en duurzame gezondheidszorg stimuleren.” EHDEN, het European Health Data and Evidence Network, is een recent initiatief op Europese schaal.

“En,” gaat ze verder, “behalve de technische uitdagingen, mogen we ook de juridische kwestie niet uit het oog verliezen: het verzamelen van gegevens moet uiteraard op een veilige manier gebeuren, conform de GDPR”, besluit ze.

Wat zijn Bayesiaanse netwerken?
Een Bayesiaans netwerk is, net zoals een beslisboom, een algoritme om data te analyseren en te classificeren. Het is een model waarmee de relaties tussen factoren en hun impact op het eindresultaat berekend kunnen worden. Elke knoop in het netwerk is een variabele waarvan elke waarde een bepaalde waarschijnlijkheid heeft. De modelparameters zijn dus geen constanten, maar stochastische variabelen. Hun waarde is onzeker en wordt gekenmerkt door een kansverdeling die op haar beurt niet vast ligt, maar die kan worden bijgewerkt op basis van nieuwe gegevens (voorafgaande kennis, het basisprincipe van Bayesiaanse statistiek). Een van de belangrijkste voordelen is dat bij kleine datasets en/of niet herhaalbare gebeurtenissen (bijvoorbeeld data van slechts één patiënt), de techniek de resultaten toch nog voldoende nauwkeurig kan voorspellen precies door gebruik te maken van voorafgaande kennis. De resultaten van een Bayesiaans netwerk geven een idee over de mate van zekerheid van een bepaalde hypothese of bewering. Een  Bayesiaans netwerk is als dusdanig geen algoritme voor machinaal leren, maar de Bayesiaanse interpretatie, i.e. de toepassing van Bayesiaanse statistische gevolgtrekking (Bayesian statistical inference), op zulke algoritmes.

Bron: ‘Advanced analytics in pharmaceutical innovation: The use of real-world evidence in oncology’ door Tine Geldof. Doctoraat in Biomedische Wetenschappen aan de KU Leuven in 2019. Promotoren: professor Walter Van Dyck (Vlerick Business School) en professor Isabelle Huys (KU Leuven). Copromotor: professor Lieven Annemans (UGent en Vlerick Business School)

Ontdek onze expertise in gezondheidszorg en biowetenschappen

Wil je weten wat we nog meer te bieden hebben rond gezondheidszorg en biowetenschappen? Het Vlerick Healthcare Management Centre brengt toonaangevende spelers zoals dokters, ziekenhuizen, (bio)farmabedrijven, ziekteverzekeraars en beleidsmakers samen om antwoorden te formuleren op de grote vraagstukken in het gezondheidszorgsysteem.

Accreditaties
& rankings

Equis Association of MBAs AACSB Financial Times