wiki:Catalogue/Minutes/2012_03_02

Version 3 (modified by Morris Swertz, 13 years ago) (diff)

--

Catalogue workgoup meeting 2012_03_02

Aanwezig: Marc Rietveld, Willem de Bruijn, Gerard van Grooteest, David van Enckvort, Linda Mook, Eric Vermeulen, Morris Swertz Afwezig: Annet Sollie, Teun Oosterbaan, Erik van Mulligen

Doel van deze bijeenkomst was kennismaking, benoemen van huidige activiteiten, vinden van samenwerkingspunten voor lopende biobank catalogus projecten. Met name is gesproken over systemen voor data opslag. Doel van deze werkgroep is concrete doelen en kansen vaststellen die eventueel in BBMRI-NL context een (regenboog)project kunnen worden.

Actiepunten

Samenvatting hieronder. Hier eerst de actie punten voor volgende bijeenkomst:

  • data model: iedere partner levert documentatie data structuur/syntax + voorbeeld. Bijvoorbeeld Observ-OM, PRIM
  • data elementen: iedere partner levert voorbeeld hoe variabelen worden gedefinieerd. Bijvoorbeeld 'PIM', DCMs
  • data mappings: zowel Morris als Marc verteld over 'mappings taaltje' in BioShare? en Mondriaan. Dat zouden we kunnen harmoniseren.
  • use cases: iedere partner levert use cases verzameld, zoals geagregeerde overzichten, zoekfuncties, etc.
  • componenten voor samenwerking: we stellen vast waar we nog meer op samenwerken, bijvoorbeeld TTP of catalogus viewer

Vervolgactie zal zijn om al deze zaken over elkaar heen te leggen om zo (a) van elkaar te leren en (b) technische oplossingen te laten convergeren. De gedachte is dat dit werk uiteindelijk onderdeel van BBMRI-NL regenboog kan worden. Dan kan ook worden gewerkt aan harmonisatie met externe partijen (met name EU en US projecten zoals caTissue, openClinica, transMart).

Volgende meeting zal gaan over 'use cases' onder leiding van Annet en Teun

Introductie rondje

Morris: werkt aan catalogi, research portals in LifeLines?, BBMRI, NBIC, GEN2PHEN, BioShare?, CTMM, BioMedBridges?, EU-PANACEA, Marc: Mondriaan, UMCU, samen met Annet Sollie, Research data warehouse binnen UMCU (SAS gebaseerd) Willem: Mondriaan catalogus vullen met data Gerard: GGZ data manager; beginnen nu met RP5 (catalogus workpackage) David: biobank task force project leider, werkt met Morris aan catalogus BBMRI en LifeLines? Linda: PSI, graag aanhaken voor catalogus en research portal Eric: RP6 omtrent communicatie met donor, hoe organiseren dat deelnemers toegang krijgen tot data, vanuit KUN governance patienten vereniging (Kees Smit)

Recap: welke nivo's catalogus

In opvolgene mate van detail informatie:

  1. lijst van cohorten -> bijv BBMRI-NL catalogus, BBMRI-EU catalogus
  2. lijst variabelen per cohort -> bijv LifeLines? catalogus, PIM lijst variabelen, P3G catalogus, klinische bouwstenen/DCM
  3. geagregeerde data per cohort -> bij PSI 'dashboard' (=plan)
  4. individu data per cohort -> bijv LifeLines? research portal, Mondriaan catalogus, GGZ catalogus

Tijdens de discussie kwamen er nog levels bij zoals: 2b. mappings tussen variabelen zoals (a) conversies tussen bron systeme en (b) conversies per onderzoekstoepassing

Iedereen verteld eea:

Morris / BBMRI-NL RP2 & NBIC-Biobanking task force

Morris werkt met zijn team aan catalogi / databases op alle bovenstaande nivo's. Alle zijn gebaseerd op vier basis concepten, ontwikkeld samen met GEN2PHEN, P3G, EBI en anderen. Het resultaat is een generiek 'Observ-OM' data model dat werkt voor mens en model organismen. De concepten samengevat:

  1. Features (kenmerken), hieronder vallen
    • Measurement (meetingen, 'wat is ...')
    • Characteristics (kenmerken, 'heeft ja/nee ...')
    • Variables (dus statistische factoren e.d.)
  2. Targets (materialen), hieronder vallen
    • panel: groep van mensen
    • individual: bijvoorbeeld patient
    • sample: een materiaal van een individue
  3. ObservedValue? (de meetwaarden), hieronder vallen
    • meetwaarden per individue, zoals phenotypes, genotypes, gen expressie, etc.
    • geagregeerde data per cohort
  4. Protocol / ProtocolApplication? (de procedure van meten), hieronder vallen
    • Questionnaires
    • Wet lab procedures zoals next generation sequencing
    • Analyse procedures zoals GWAS, epidemiologische associatie studies, prediction models
    • DCM is een bijzoner geval van een protocol

Voorbeeld toepassingen relevant voor deze werkgroep:

  • BBMRI-NL catalogus van biobanken
  • BIOSHARE mapping van variabelen tussen biobanken
  • LifeLines? uitleveren van volledige data sets
  • IBD research portal als pilot project voor parelsnoer

Marc & Willen /Mondriaan

Patient georienteerde data (farma) samenvoegen.

  • hoe krijg ik data over patientgroep (oa zorg, huisarts) bijeen
  • standaard inclusie/exclusie criteria op panel van individuen
  • dan moeten we data kunnen koppelen met bron systeem
  • ontsluiten met info over de individuen (diagnose, medicijnen)
  • groepje patienten kunnen identificeren zodat terug kunt voor trials
  • controle groep maken met juist niet dat medicijn
  • systeem met TTP (custodix) om te kunnen koppelen
  • dus: catalogus is abstractie van de bron data

Per panel informatie:

  • dekking, hoeveel gegevens heb ik (en wat heb ik gemist zoals farma)
  • betrouwbaarheid van data (sommige bronnen onbetrouwbaar)
  • verzamelen 'alles' waarbij herleidbaarheid gaat toenemen
  • abstracties van meetwaarden (maar nog niet geimplementeerd, bijv 'regiocode zoals postcode4)
  • data dictionary per bron (huisarts)

Kan PRIM toepassen (HL7)

  • kan huisarts waarden mappen
  • rapportage of export, zonodig bij huisarts gedepseudonomiseerd
  • in de praktijk sjoemeen wel wat met PRIM
  • mapping taaltje (DSL) om te mappen om specifieke kenmerken mappings maken, SNOMED code

Hoe gaat dat inladen van huisarts systemen? Exports lezen, mclient zorgt voor psuedonamisatie + data dictionary voor dat systeem. Standaard csv, via web server. Data wordt in DMZ geladen en dan naar interne server. Data dictionary gaat de data dan parsen in SQL database. 'best known database' per individu (meestal laatste, maar kan zijn verdwenen)

Gerard / NESDA

Gaat werken aan record linkage, maar dat moet nog beginnen.

Werkt nu voor longitudinale studies GGZ. Aan de hand van NESDA voorbeel

  • website met welke data er is (mooi!)
  • aanvragen toestenning om data te downloaden
  • bestanden nummeren (e.g. NESDA), nummering meeting (1A), 0-100 over datum, 100-200 psych kenmerken, >400 bio metingen
  • vervolgemeting zelfde naam, hoger nummer. Bv: 'A_LENGTE', 'B_LENGTE' zodat je opeenvolgende protocollen kunt herkennen.
  • gebruiker mag daarop inloggen als je geregistreerd ben aan onderzoek.
  • leidt tot aanvraag: deze onderzoeker ingelogd, en deze data aangevraagd. Data manager kijkt dan in goedgekeurde analyse plannen en keurt goed.
  • aanvrager krijgt bericht: die data zijn nu beschikbaar op de website. Bijv: bestand per thema.
  • data wordt verzameld via vragenlijsten, laboratorium uitslagen; voordat op server is het eerst gecontroleerd (compleet, bestanden in hetzelfde format (patient no als eerste kolom, elke 'B' bestand heeft zelfde lengte).
  • genetische data heeft sampleid (buiten website), alle phenotype bepalingen respondent id

Linda / Parelsnoer

  • PSI = Generieke gegevens sets; toestemming NFU om voor meer ziektebeelden parels op te zetten.
  • Geharmoniseerd (maar in de details toch nog wel verschillen).
  • De data aangeleverd aan centrale infrastructuur in PRIM format
  • Sommige ziekenhuizen doen dat via Promis (6) en via connector naar PRIM
  • Andere ziekenhuizen (2) sluiten direct aan op parelbox in PRIM format
  • CI database is storage, tzt upgraden, gebaseerd op SQL en focus op verzameling
  • Nu wekelijkse emails gebaseerd op CI op voortgang (zoveel dossiers aangeleverd per parel per huis)
  • Hadden online catalogus: lijst van alle variablen (spreadsheet gebaseerd op PIM)
  • Zijn nu ook bezig met verrijkingsgegevens (dus terugvloeien informatie)
  • Ook behoefte aan dashboard per parel:
    • hoeveel patienten heb ik met Alzheimer (level 2 dus)
    • hoeveel patienten heb ik MRI beelden van
  • Uitlevering aan onderzoekers, Excel formulier om aan te vragen (= lijst PIM), maar er mist nog data mart.
  • Dus op dit moment wordt deze data uit Promis gehaald wordt... maar dan mis je PRIM format.

Vraag: hoe wordt de data in Promis geladen? Is dat 1 dat model? Nu ook E-zis (chipsoft) naar Promis stekker.

Uitdaging is veranderingen in PIM -> moeten zaken veranderd in EPD (ideale oplossing is dat dus configureerbaar is). Dus versies van Measurement. Besloten maximaal 2 versies ondersteunen. Heeft gevolgen voor bestaande. Parelcoordinator geeft doorslag; dat botst soms met data manager of methodologische aspecten. Om flexibiliteit te vergroten aan de gang met DCMs / klinische bouwstenen.

Aanpalende discussies:

  • TTP -> standaard service definitie (want kwetsbaar als per individu).
  • filtering van patienten door TTP

Eric / RP6

Met name geinteresseerd in hoe patientparticipatie de catalogus efforts raakt. Zal met name richting gevend zijn op dit aspect.