You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

267 lines
23KB

  1. ---
  2. title: La thèse de médecine au CHRU de Nancy
  3. output:
  4. html_document:
  5. self_contained: true
  6. toc: true
  7. toc_float: true
  8. ---
  9. *Version en date du `r format(Sys.time(), "%A %d %B %Y")`*
  10. ```{r init, echo = F, message = F}
  11. library(rmarkdown)
  12. library(pander)
  13. library(knitr)
  14. library(magrittr)
  15. opts_chunk$set(echo = F,
  16. message = F,
  17. error = F,
  18. warning = F,
  19. fig.width = 12,
  20. fig.height = 7)
  21. ```
  22. # Déroulement idéal
  23. Le déroulement idéal d'un travail de thèse (et de tout travail de recherche) est le suivant :
  24. 1. Trouver un directeur de thèse
  25. 1. Trouver un sujet
  26. a. Soit une idée originale, issue d'une observation empirique ou d'une intuition, qu'elle émane de l'interne ou du directeur plus expérimenté
  27. a. Soit généralement un travail dans la lignée de la thématique du directeur ou de son service
  28. 1. Rédiger un court synopsis du projet : objectifs, hypothèses, type d'étude
  29. 1. **Aller voir, le plus tôt possible et en compagnie du directeur, un méthodologiste en consultation** avec le synopsis
  30. Le CHRU dispose de deux services d'accueil qui peuvent être contactés directement ou en passant par le Guichet Unique de la **DRI** (**D**irection de la **R**echerche et de l'**I**nnovation) qui orientera vers la bonne structure (<rechclin-innov@chru-nancy.fr>)
  31. * la **PARC** (**P**lateforme d'**A**ide à la **R**echerche **C**linique) propose une consultation de Méthodologie, Data management et Statistiques ouverte à tous les spécialistes du CHRU quelle que soit la thématique du projet (<w.munier@chru-nancy.fr>)
  32. * le **CIC-EC** (**C**entre d'**I**nvestigations **C**liniques - **É**valuations **C**liniques) offre un soutient restreint aux projets qui s'inscrivent dans ses thématiques de recherche (<eval@chru-nancy.fr>)
  33. 1. Le méthodologiste peut aider et guider pour les étapes suivantes :
  34. 1. Rédiger un protocole expliquant le type d'étude, les objectifs et hypothèses, le déroulement de l'étude, l'inclusion des patients, les variables recueillies, etc.
  35. 1. Dans le cas de patients du CHRU, le protocole doit être signé par un méthodologiste et revu par la DRI
  36. 1. D'autres demandes (CNIL, comité d'éthique, etc.) peuvent être nécessaires en fonction de la recherche prévue
  37. 1. Déroulement de l'étude et recueil des données.
  38. Le méthodologiste peut fournir des outils pour recueillir les données de manière plus fiable et plus facile, ainsi que guider sur quelles données recueillir et sous quelle forme
  39. 1. Analyse des données et interprétation des résultats.
  40. Des données recueillies **correctement** dans le cadre d'un protocole **bien conçu** permettent une analyse plus rapide et plus simple, et des résultats plus pertinents et plus intéressants
  41. # Le recueil de données
  42. ## Généralités
  43. Plusieurs cas de figure existent quant au recueil de données.
  44. En cas d'étude prospective, ou rétrospective avec recueil d'information dans les dossiers médicaux, il est préférable d'utiliser un outil dédié au recueil de données, plutôt qu'un tableur (Excel, OpenOffice, etc.). Un tel outil peut vous être proposé par le méthodologiste. Il permet un recueil plus rapide, plus simple, et doté de contrôles de saisie permettant d'éviter la plupart des fautes de frappes.
  45. À noter qu'en cas de besoin de sélection de dossiers patients selon certains critères (service d'hospitalisation, dates de séjour, diagnostics, actes chirurgicaux, âge, sexe, etc.), le **DIM** (**D**épartement d'**I**nformation **M**édicale) peut vous aider à identifier les dossiers pertinents. La demande se fait par email au secrétariat du DIM (<secretariat-dim@chru-nancy.fr>). Un formulaire de demande vous sera transmis, qu'il faudra faire signer par le(s) chef(s) de service(s) concernés pour autoriser l'accès aux données.
  46. Dans le cas d'une étude rétrospective pour laquelle les données ont déjà été collectées dans une base de données, ou qu'il est trop tard et que le recueil est déjà effectué, plusieurs règles de bonne pratique sont à respecter pour présenter les données de manière exploitable.
  47. Très souvent, la majorité du temps d'analyse est passée à nettoyer les données, corriger les erreurs de saisie, et retransformer des variables improprement collectées, afin de les rendre exploitables pour l'analyse. Il ne reste alors plus beaucoup de temps pour pouvoir conduire des analyses correctes et intéressantes, sans compter l'exploration d'autres pistes éventuellement suggérées par les premières analyses.
  48. Avoir une base de données «propre» et bien remplie permet d'arriver rapidement à l'analyse et à produire des résultats utilisables.
  49. ## Règles
  50. Voici une liste de règles à respecter lors de la constitution d'une base de données statistiques :
  51. * Identifier **l'unité statistique**. Il s'agit généralement du patient, mais peut aussi être une hospitalisation, un acte, une grossesse, etc.
  52. * Identifier les **variables pertinentes** à garder pour l'analyse et qui permettront de répondre aux questions posées par les hypothèses.
  53. Un grand nombre de variables est inutile, il est préférable d'avoir beaucoup de sujets avec un nombre restreint de variables pertinentes, que peu de sujets avec des dizaines de variables dont souvent beaucoup vont être absentes
  54. * Les données doivent tenir dans **un seul tableau** contenant :
  55. + une lignée par unité statistique (par patient)
  56. + une colonne par variable
  57. + un point de donnée unique par cellule
  58. * Seul le contenu écrit de chaque case doit encoder de l'information.
  59. Les mises en forme, styles, couleurs de remplissage ou de texte, sont ignorés. S'il y a une information complémentaire à ajouter, le faire sous la forme d'une nouvelle variable.
  60. Éviter les commentaires entre parenthèses après une valeur dans une case.
  61. * La première ligne (et **elle seule**) doit comporter le **nom** de chaque variable. Chaque nom de variable doit être **unique**, et **indicatif** de la donnée recueillie.
  62. Différents logiciels de statistique acceptent diverses formes de nom de variable, mais pour être le plus compatible possible, les noms de variables doivent rester courts, et composés uniquement de caractères alphanumériques (pas d'espaces, de symboles, de caractères spéciaux, ou d'accents. L'*underscore* ( _ ) est accepté). Essayer au mieux d'avoir des noms de variables cohérents entre eux.
  63. * La table de données peut être accompagnée d'un dictionnaire expliquant chaque variable (par exemple : *poids = poids actuel en kg*)
  64. * La première colonne doit contenir un **identifiant** anonyme de sujet (une liste croissante de numéros uniques).
  65. **IL NE FAUT ABSOLUMENT AUCUNE DONNÉE NOMINATIVE OU INDIRECTEMENT NOMINATIVE (numéro de dossier, de séjour, etc.)** dans la table de données.
  66. Il est conseillé de garder de côté dans un fichier séparé, sur un ordinateur du CHRU, une liste de correspondance n° d'anonymisation <=> identifiants du patient, qui permettra le cas échéant de retourner au dossier du patient en cas de problème avec ses données.
  67. **On rappellera au passage qu'il est ABSOLUMENT INTERDIT de conserver des données médicales identifiantes sur un ordinateur personnel/clé USB/etc.** Il s'agit d'informations sensibles (vous ne voudriez pas que votre dossier médical circule dans la nature), et il est si facile de perdre une clé USB ou se faire voler son portable…
  68. Dans le pire des cas, ne transporter que le fichier «anonymisé», idéalement sur un support de stockage chiffré.
  69. * Les variables recueillies peuvent être de différents types :
  70. + **quantitative**
  71. Un nombre, généralement issu d'une mesure (le poids, un dosage, l'âge, etc.). Un seul nombre doit apparaître dans chaque case, toujours exprimé dans la même unité (pas de mélange entre mg et mmol, m et cm, g et kg, etc.). L'unité ne doit pas apparaître dans la case.
  72. **Attention** au séparateur de décimales («,» en français, «.» chez les anglo-saxons), et à ne pas les mélanger par inadvertance. Les tableurs alignent les données textuelles d'un côté des cases, et les données numériques de l'autre. Si une donnée normalement numérique n'apparaît pas du bon côté, ou pas alignées avec le contenu des cases de la même colonne, il faut vérifier qu'il n'y a pas de faute de frappe («.» à la place de «,», ou une espace avant ou après le nombre)
  73. + **qualitative**
  74. Une catégorie (parmi plusieurs idéalement pré-déterminées, et mutuellement exclusives) à laquelle appartient le sujet (sexe, groupe de traitement, présence d'un antécédent particulier, statut vital, etc.). Une seule catégorie doit apparaître dans la case.
  75. **Attention** à l'écriture des niveaux ! Par exemple, vérifier que la case *sexe* ne mélange pas «H», «h», «homme» et «masculin». Tous les patients appartenant à la même catégorie doivent avoir le même code (attention notamment aux majuscules et accents). La fonction *Filtre* du tableur permet de détecter les différents niveaux.
  76. Il est possible également, pour limiter les erreurs, de *coder* les informations avec des nombres, en précisant le codage dans un fichier annexe (par exemple : *Sexe : 1 = masculin, 2 = féminin*)
  77. + **date**
  78. Il est toujours préférable de rentrer une date plutôt qu'une durée, puisque les durées sont faciles à calculer à partir des dates de début et de fin. Les dates s'expriment différemment, et d'une manière facile à porter à confusion, en français (jj/mm/aaaa) et en anglais (mm/jj/aaaa). Pour éviter tout problème, entre les versions d'Excel notamment, et les différents logiciels de statistiques, il est préférable de rentrer les dates sous cette forme universelle et inambiguë : *aaaa-mm-dd*, qui a l'avantage d'avoir un ordre de classement «alphabétique» qui est aussi chronologique. Si le jour est inconnu, renseigner le 15 pour le jour dans la date. Si le mois est inconnu, renseigner 06 à la place du mois.
  79. + **données calculées**
  80. Inutile de calculer les variables résultant d'un calcul (IMC, osmolalité, etc.), que ce soit avec une formule dans le tableur, **ou pire, à la main !** Détailler plutôt les variables à créer et les formules pour les calculer dans le synopsis.
  81. * **valeurs manquantes**
  82. Dans tous les cas, une valeur manquante (ou non applicable, par exemple «date de décès» chez un patient en vie, ou encore incertaines) doit être renseignée par une case **vide** (ni espace, ni point d'interrogation, ni NA/NC/aucun/etc.)
  83. * **Cas particuliers**
  84. + **analyse de survie**
  85. Si l'étude concerne la survie (avant décès, ou récidive, ou n'importe quel évènement d'intérêt), trois variables sont nécessaires pour réaliser l'analyse :
  86. - la date de départ : inclusion, opération, diagnostic, etc.
  87. - la date de point : date de dernières nouvelles, ou la date de l'évènement pour les patients présentant l'évènement
  88. - présence de l'évènement : "Oui" ou "Non", selon que l'évènement a eu lieu ou non pour ce patient
  89. + mesures répétées **longitudinales**
  90. L'unité statistique ici est la visite, auxquelles généralement on recueille les mêmes variables dépendantes du temps. Il est recommandé d'avoir une ligne par visite, et de renseigner à chaque fois le numéro d'anonymat du patient, la date de la visite, et les variables dépendantes du temps. Les variables constantes (sexe, date de naissance, etc.) doivent être répétées à chaque ligne pour le même patient.
  91. Dans la plupart des cas où il n'y a que deux mesures (inclusion et sortie), garder un patient par ligne et suffixer les noms de variables communes entre les deux temps avec *\_T0* et *\_T1* par exemple.
  92. <br/>
  93. * **L'ordre des variables**
  94. L'ordre de présentation des variables ne va bien évidemment rien changer aux résultats, mais un ordre logique permet au méthodologiste de se familiariser plus facilement avec les données.
  95. En général, l'ordre suit le schéma suivant :
  96. + Identifiant
  97. + Groupe (Cas/Témoin, Traitement/Contrôle, etc.)
  98. + Données démographiques
  99. + Données fixes (antécédents, constantes, etc)
  100. + Données à l'inclusion
  101. + Données à la sortie
  102. <br/>
  103. * **Vérification des données**
  104. Pour chaque variable il faut vérifier, à l'aide des recommandations ci-dessus,
  105. + que le formatage est correct
  106. + que les données numériques sont purement numériques
  107. + que les données catégorielles ont des niveaux bien codés
  108. + que les données d'un patient ne sont pas incohérentes entre elles (date de décès ultérieure à la date d'inclusion par exemple)
  109. + que les données manquantes sont bien signalées par de simples cases vides
  110. + que les variables présentes sont pertinentes pour les analyses demandées
  111. # Pourquoi le format article ?
  112. Désormais, en tous cas pour les internes de spécialité, la thèse doit se présenter sous la forme d'un article qui doit être soumis à une revue scientifique à comité de lecture.
  113. Ceci émane de la même volonté que celle ayant amené la LCA a être une épreuve aux ECN : afin que les patients bénéficient toujours des meilleures soins, les médecins doivent rester au courant des dernières avancées en matière de diagnostic, de thérapeutique, et de tout ce qui fait l'exercice médical. Les données les plus récentes et complètes se trouvant dans la littérature scientifique, il est important que tout médecin sache *a minima* comment lire, interpréter, et critiquer cette littérature afin d'en tirer la meilleure information.
  114. Il est également important que chacun, même si tout le monde ne fera pas une carrière hospitalo-universitaire ou de la recherche, ait au moins eu l'expérience une fois du travail de production d'un article scientifique, et ce afin que d'être le mieux armé pour critiquer (que ce soit positivement ou négativement) le travail des autres, en ayant soi-même vécu le processus.
  115. Les thèses non publiées dans une revue font partie de ce qu'on appelle la «littérature grise», un travail scientifique non revu par un comité de lecture, et plus difficile d'accès car non indexé.
  116. Publier (ou au moins tenter de publier, seule la soumission à une revue est demandée pour l'instant) sa thèse permet à la fois de faire valider son travail ainsi que le valoriser en le rendant accessible au reste de la communauté médicale.
  117. Même si ceci concerne à première vue les internes de spécialité, les recommandations énoncées, notamment en ce qui concerne le recueil de données, restent complètement applicables aux travaux de thèse des internes de médecine générale.
  118. # Rédaction de l'article
  119. Il faut la commencer le plus tôt possible, en parallèle de l'avancement des autres étapes.
  120. La première chose à faire est d'explorer la connaissance existante sur le domaine en faisant de la recherche documentaire.
  121. Il est conseillé d'utiliser un gestionnaire de bibliographie tel que [ Zotero ](http://www.zotero.org) (logiciel libre entièrement gratuit), qui permet de sauvegarder des références et les classer, directement depuis le navigateur web, ainsi que d'insérer automatiquement avec le style voulu les références dans le texte ainsi que la bibliographie complète à la fin.
  122. C'est cette recherche documentaire préalable qui permet généralement de cerner l'hypothèse précise de l'étude, qu'elle brille par son absence de la littérature, ou qu'elle n'ait que mal ou peu été explorée jusque là.
  123. L'ensemble de l'article doit suivre une progression logique, où rien ne doit sortir de nulle part.
  124. L'état de l'art et le contexte doivent être renseignés par la bibliographie dans l'**Introduction**, et amener logiquement à un objectif.
  125. L'objectif, avec les restrictions pratiques et éthiques éventuelles, doit amener au design de l'étude (**Méthode**), aux données recueillies (**Matériel**) et au type d'analyses statistiques envisagées pour tester les différentes hypothèses.
  126. Les données et les analyses produisent les **Résultats**.
  127. L'interprétation des résultats et leur confrontation avec l'existant alimentent la **Discussion**.
  128. La discussion permet de donner une **Conclusion** répondant à la question posée dans les hypothèses.
  129. Enfin, il est recommandé de rédiger son article en anglais, afin de viser une plus large diffusion et une meilleure reconnaissance du travail.
  130. ## Introduction
  131. Elle doit, de manière référencée, présenter la problématique de manière assez large et amener jusqu'à l'objectif lui-même.
  132. ## Matériel et Méthode
  133. La section doit décrire le déroulement de l'étude et des analyses de manière précise et détaillée. Une sorte de recette de cuisine de la recherche, rien ne doit sembler être laissé au hasard.
  134. Si un protocole a été rédigé, ces deux sections sont quasiment déjà écrites. Le méthodologiste peut vous assister pour la rédaction de la partie méthode.
  135. ## Résultats et Discussion
  136. Les sections **Résultats** et **Discussion** ne peuvent évidemment être écrites qu'après avoir conduit la recherche et analysé les données.
  137. Cependant lors de la recherche bibliographique initiale, il est important de garder de côté les références de travaux proches de celui envisagé, que les résultats soient concordants ou contradictoires à ceux attendus, afin de pouvoir les discuter dans l'article et faire rentrer les résultats dans un cadre plus large.
  138. ### Résultats
  139. La partie résultats doit être absolument factuelle, une présentation brute des résultats de l'analyse, avec chiffres, tableaux et figures à l'appui. Il n'y a que peu de place à l'interprétation ici.
  140. ### Discussion
  141. Celle-ci en revanche permet de mettre le résultat important en exergue, de le confronter aux résultats pré-existants, d'en discuter les forces et faiblesses, et idéalement de suggérer une application pratique en clinique si les résultats sont concluants et actionnables.
  142. ## Conclusion
  143. Un court paragraphe résumant les résultats principaux, et permettant d'ouvrir, avec la fin de la discussion, sur d'autres pistes de recherche.
  144. # Déroulement «sub-optimal»
  145. Ce qui suit est un scénario fictif qui n'a absolument **jamais** eu lieu.
  146. 1. Se rendre compte en dernière année d'internat qu'il faut faire une thèse
  147. 1. Se voir offrir un sujet impossible à traiter logistiquement/logiquement/éthiquement/dans les temps/…
  148. 1. Recueillir, dans la douleur, des données inexploitables et ne répondant pas à une question précise, en grande quantité, chez un faible nombre de patients mal sélectionnés
  149. 1. Ou hériter d'une base de données mal constituée et inexploitable
  150. 1. Se rendre compte trois semaines avant la soutenance qu'il faut faire *des stats* et contacter au mieux un méthodologiste du CHRU, ou un interne de santé publique aléatoire
  151. 1. Demander à ce que l'on s'occupe de vous, et que «c'est pas pour grand chose, "juste des stats"»
  152. 1. Ne pas comprendre pourquoi ça prend autant de temps
  153. 1. Devoir retourner dans les dossiers pour collecter des données manquantes cruciales pour l'analyse
  154. 1. Paniquer. Beaucoup. Tout le temps
  155. # Pour résumer
  156. * **Consulter un méthodologiste avec votre directeur**, et ce le plus tôt possible lors de l'élaboration du projet
  157. La présence du directeur de thèse est importante, puisqu'il est généralement l'instigateur du sujet, qui touche à son domaine ultra-spécialisé, et est le mieux placé pour clarifier les subtilités du projet.
  158. * Élaborer, avec son aide, un protocole permettant de répondre au mieux à la question de recherche, en définissant bien les variables utiles pour minimiser le risque d'avoir à retourner au dossier
  159. * Recueillir un **minimum** de variables pertinentes et bien renseignées, pour un **maximum** de patients
  160. * Vérifier votre base de données avant de l'envoyer pour analyse
  161. * Communiquer les données le plus rapidement possible au méthodologiste, pour pouvoir répondre à tout questionnement quant à des valeurs suspectes (typiquement valeurs extrêmes causées par une erreur de saisie, dont il va falloir retrouver les véritables valeurs)
  162. * Commencer à rédiger dans l'article les parties qui peuvent l'être sans les résultats, et préparer les références pour la discussion.
  163. Si vous suivez ces recommandations, vous gagnerez un temps précieux, vous arracherez moins les cheveux, et les chances seront plus grandes d'obtenir des résultats intéressants et utilisables en pratique !
  164. Bonne chance à tous !
  165. Un projet similaire de guide de la thèse est en cours d'élaboration au niveau de la fac, plus détaillé, avec d'avantages d'informations de contact, et la mise à disposition de formulaires et de modèles de documents. Vous serez avertis de sa disponibilité.
  166. Ce guide lui-même est amené à évoluer et s'enrichir, n'hésitez donc pas à revenir le consulter !
  167. # Exemples
  168. ## Variable quantitative
  169. |Id|Taille|
  170. |--|:-----|
  171. | 1|150 |
  172. | 2|1,75 |
  173. | 3|? |
  174. | 4|1.82 |
  175. Attention à la cohérence des unités, et au séparateur de décimales. Uniquement des cases vides en cas de donnée manquante.
  176. |Id|Taille|Ou|Taille|
  177. |--|:-----|--|:-----|
  178. | 1|150 | |1,5 |
  179. | 2|175 | |1,75 |
  180. | 3||||
  181. | 4|182 | |1,82 |
  182. ## Variable qualitative multiple, et/ou non mutuellement exclusive
  183. Plutôt que d'avoir une collection d'antécédents renseignés comme suit :
  184. `r data.frame(Id = 1:4, Atcd = c("HTA depuis 2008, Tabac (20 PA), Fracture d'un métacarpien", "Obésité, HTA", "Appendicite en 96, tabagique", "aucun, tabac ?")) %>% pander`
  185. Ou, un peu mieux, comme ça :
  186. `r data.frame(Id = 1:4, Atcd1 = c("HTA", "Obésité", "Tabac", "aucun"), Atcd2 = c("Tabac", "HTA", "Appendicite", ""), Atcd3 = c("Fracture de méta", "", "", "")) %>% pander`
  187. Il est préférable de se débarrasser des informations non pertinentes, et correctement renseigner celles qui le sont. Dans un travail de cardiologie par exemple, les antécédents chirurgicaux retrouvés ici ne seront pas utiles, et une bonne présentation serait :
  188. `r data.frame(Id = 1:4, Atcd_HTA = c("Oui", "Oui", "Non", "Non"), Atcd_Tabac = c("Oui", "Non", "Oui", ""), Atcd_Obesite = c("Non", "Oui", "Non", "Non")) %>% pander`
  189. # Ressources supplémentaires
  190. Ce guide reste non exhaustif, et d'autres ressources plus complètes existent.
  191. Le Dr. Amoghly-Rahimi a soutenu en mai 2011 une thèse intitulée *Réalisation des thèses et mémoires de médecine générale : Détermination des besoins et élaboration d'un document pédagogique destiné aux étudiants du diplôme d'étude spécialisé de médecine générale*.
  192. Ce document est disponible [ici](http://docnum.univ-lorraine.fr/public/SCDMED_T_2011_AMOGHLY_RAHIMI_SIAVOCHE.pdf).
  193. Le Pr. Hervé Maisonneuve a publié, en collaboration avec les laboratoires Sanofi, un *Guide pratique du thésard*, disponible [ici](http://www.sanofi.fr/l/fr/fr/download.jsp?file=D7889C86-3DBB-42A9-8925-2C1325D946EB.pdf).
  194. ****
  195. **Maxime Wack**
  196. *Référent des Internes de Santé Publique*