Visie: Waarom is een gestandaardiseerd dataplatform zo belangrijk voor AI?

door Gastauteur 22 september 2020

geschreven door Gastauteur 22 september 2020

Artificial Intelligence (AI) en het voorspellend vermogen van zowel machine learning als deep learning modellen staat of valt bij de beschikbaarheid van data. Het gaat niet alleen om de hoeveelheid data, maar ook om de kwaliteit. Welke data is er beschikbaar? Kan data uit verschillende bronnen makkelijk gecombineerd worden? Is de data compleet?

Om AI in de zorg te ontwikkelen is medische data nodig. Deze data moet vaak uit verschillende bronsystemen komen. Binnen een ziekenhuis kunnen bijvoorbeeld meerdere EPDs gebruikt worden, maar daarnaast kan data ook bij patiënten zelf liggen, in PGOs. Vervolgens gebruiken andere ziekenhuizen net weer andere systemen, waar wel vergelijkbare data opgeslagen wordt, maar de benaming net anders kan zijn. Hierdoor wordt het lastig om eenvoudig grote data sets bij elkaar te krijgen, over de huizen heen, die juist zo noodzakelijk zijn voor bruikbare AI.

Met als doel om data makkelijker uit te wisselen met applicaties, zoals PGOs, of tussen ziekenhuizen, heeft het LUMC in samenwerking met Furore een dataplatform ontwikkeld. Op dit platform wordt data uit meerdere bronnen, denk aan EPDs, lab resultaten, IC data maar ook HR informatie, samengevoegd in tabellen die gemodelleerd zijn naar zorginformatiebouwstenen (=informatiestandaard, zie https://www.nictiz.nl/standaardisatie/zib-centrum/) en HL7 FHIR (=communicatiestandaard, zie http://hl7.org/fhir/). Dit betekent dat de data terug te vinden is in tabellen en kolommen zoals gedocumenteerd in de standaard. Op dit moment wordt hetzelfde dataplatform, gebaseerd op gedeelde code, ook geïmplementeerd in het EMC en het UMCU. Hierdoor kan klinische data uit drie huizen straks eenvoudig samengevoegd worden en gebruikt worden voor AI modellen.

Voor de uitwisselingen van data tussen het dataplatform en bijvoorbeeld de Box app, waar patiënten thuismetingen in kunnen registeren, is het noodzakelijk om altijd zo up-to-date mogelijke data in het platform te hebben, zodat gehandeld kan worden naar deze informatie. Daardoor is het doel om de data op het platform near real-time te verversen.

Waarom is dit dataplatform ook juist zo belangrijk voor AI in de zorg?

Meer data. Doordat data uit meerdere bronnen gecombineerd wordt, en de standaard in meerdere huizen geïmplementeerd wordt, is er meer data beschikbaar om te gebruiken in AI modellen.
Eén bron. Alle benodigde data om een model te bouwen is nu in één bron terug te vinden. Dit scheelt tijd en moeite om data uit verschillende bronnen te koppelen.
Voorspelbare data. Omdat de data volgens een standaard gestructureerd is, is het eenvoudig uit de documentatie te herleiden waar welke data gevonden kan worden. Dit kan het proces van verkennen en opschonen van de data versnellen en maakt het makkelijker om te bepalen welke variabelen interessant zijn voor een AI model.
Verse data. We willen modellen ontwikkelen die artsen ondersteunen in hun beslissingen. Deze beslissing moeten in het nu plaatsvinden. Alleen real-time data kan real-time voorspellingen generen. Zonder het dataplatform wordt dit een stuk lastiger.
Het dataplatform is gebouwd om grote hoeveelheden data te kunnen verwerken. Het is dus gebouwd op big-data analytics. Op het moment draait het dataplatform on-prem (op servers in ‘eigen huis’). In de toekomst zou een verhuizing naar ‘de cloud’ nog meer snelheid kunnen bieden, maar dit brengt wel security vraagstukken met zich mee.

Esther Remmelink is Data Modeler/Data Scientist bij het Leids Universitair Medisch Centrum (LUMC)

Bekijk ook de video LUMC wil ‘belofte van AI waarmaken’

Lees hier meer informatie van het LUMC over AI in de zorg