#+TITLE: Sujet UE Entropôt #+SUBTITLE: Construction d'un entrepôt #+AUTHOR: Maxime Wack et Anne-Sophie Jannot #+date: 24 novembre 2020 * Objectif Intégrer des données dans un entrepôt de données *au format i2b2*. * Données à intégrer Datasets =pbc= et =pbcseq= provenant du package =survival= de *R*. * Consignes *Tous les patients* doivent être intégrés. *Toutes les données* concernant ces patients et contenues dans les deux datasets doivent être intégrées : - données démographiques - visites - diagnostique (considérée consultation) - de suivi (consultations et/ou hospitalisations) - dernière visite (hospitalisation ou consultation) - diagnostics - biologies - traitements Ceci doit être fait de telle manière que toutes les relations entre les tables fonctionnent. Les données doivent pouvoir être requêtables depuis l'interface web. *Bien lire* les pages d'aide des datasets pour obtenir le détail des variables recueillies, leur codage, les conditions de recueil, etc. Il vous faudra transformer, manipuler et augmenter les données afin de correspondre aux schémas des tables i2b2 et simuler le processus d'acquisition des données sous forme de visites à l'hôpital. Vous devrez également faire des choix sur les méthodes de représentation des données à intégrer. Vous pouvez créer de nouveaux codes ou vocabulaires si nécessaire, mais il doit être fait une utilisation au mieux des options de représentation fournies dans cette version d'i2b2. Le cas échéant les nouveaux codes et vocabulaires doivent être fonctionnels et requêtables depuis l'interface web. Vous devrez expliciter vos choix de représentation des données, et de production des tables à intégrer. * Format de rendu Vous devrez produire des fichiers contenant les données prêtes à être intégrées à l'aide de [[https://www.postgresql.org/docs/9.2/sql-copy.html][la commande ~COPY (…) FROM~ de postgresql]], avec la convention de nommage suivante : ~bdd.table.csv~ Ces fichiers contiendront les données à ajouter respectivement à chaque /table/ de chaque /bdd,/ pour chaque fichier que vous fournirez. Ils doivent être au format CSV US (séparateur de champs = "=,=", séparateur de décimales = "=.="). Vous devrez produire un rapport expliquant votre stratégie d'intégration et justifiant vos choix de représentation, de formatage, et de transformation des données. Vous préparerez une présentation orale de 10 minutes exposant ces mêmes points et dans laquelle vous présenterez une implémentation fonctionnelle de votre intégration de données dans une VM i2b2, avec des exemples de requêtes via l'interface web comportant de multiples critères croisés (pensez à amener de quoi vous brancher en VGA pour projeter si vous comptez faire une démonstration live (/attention aux démos live, c'est risqué !/)) * Bonus Reproduction d'un ou plusieurs des résultats descriptifs de l'article référencé dans les pages d'aide des datasets, à partir d'extractions de votre entrepôt.