You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

3.0KB

Objectif

Intégrer des données dans un entrepôt de données au format i2b2.

Données à intégrer

Datasets pbc et pbcseq provenant du package survival de R.

Consignes

Tous les patients doivent être intégrés.

Toutes les données concernant ces patients et contenues dans les deux datasets doivent être intégrées :

  • données démographiques

  • visites

    • diagnostique (considérée consultation)

    • de suivi (consultations et/ou hospitalisations)

    • dernière visite (hospitalisation ou consultation)

  • diagnostics

  • biologies

  • traitements

Ceci doit être fait de telle manière que toutes les relations entre les tables fonctionnent. Les données doivent pouvoir être requêtables depuis l'interface web.

Bien lire les pages d'aide des datasets pour obtenir le détail des variables recueillies, leur codage, les conditions de recueil, etc.

Il vous faudra transformer, manipuler et augmenter les données afin de correspondre aux schémas des tables i2b2 et simuler le processus d'acquisition des données sous forme de visites à l'hôpital.

Vous devrez également faire des choix sur les méthodes de représentation des données à intégrer. Vous pouvez créer de nouveaux codes ou vocabulaires si nécessaire, mais il doit être fait une utilisation au mieux des options de représentation fournies dans cette version d'i2b2. Le cas échéant les nouveaux codes et vocabulaires doivent être fonctionnels et requêtables depuis l'interface web.

Vous devrez expliciter vos choix de représentation des données, et de production des tables à intégrer.

Format de rendu

Vous devrez produire des fichiers contenant les données prêtes à être intégrées à l'aide de la commande COPY (…) FROM de postgresql, avec la convention de nommage suivante :

bdd.table.csv

Ces fichiers contiendront les données à ajouter respectivement à chaque table de chaque bdd, pour chaque fichier que vous fournirez. Ils doivent être au format CSV US (séparateur de champs = ",", séparateur de décimales = ".").

Vous devrez produire un rapport expliquant votre stratégie d'intégration et justifiant vos choix de représentation, de formatage, et de transformation des données.

Vous préparerez une présentation orale de 10 minutes exposant ces mêmes points et dans laquelle vous présenterez une implémentation fonctionnelle de votre intégration de données dans une VM i2b2, avec des exemples de requêtes via l'interface web comportant de multiples critères croisés (pensez à amener de quoi vous brancher en VGA pour projeter si vous comptez faire une démonstration live (attention aux démos live, c'est risqué !))

Bonus

Reproduction d'un ou plusieurs des résultats descriptifs de l'article référencé dans les pages d'aide des datasets, à partir d'extractions de votre entrepôt.