Browse Source

Commit initial

master
Maxime Wack 7 years ago
commit
a810833922
2 changed files with 255 additions and 0 deletions
  1. +1
    -0
      .gitignore
  2. +254
    -0
      these.Rmd

+ 1
- 0
.gitignore View File

@@ -0,0 +1 @@
*.html

+ 254
- 0
these.Rmd View File

@@ -0,0 +1,254 @@
---
title: La thèse de médecine au CHRU de Nancy
output:
html_document:
self_contained: true
toc: true
toc_float: true
---

```{r init, echo = F, message = F}
library(rmarkdown)
library(pander)
library(knitr)
opts_chunk$set(echo = F,
message = F,
error = F,
warning = F,
fig.width = 12,
fig.height = 7)
```

# Déroulement idéal

Le déroulement idéal d'un travail de thèse (et de tout travail de recherche) est le suivant :

1. Trouver un directeur de thèse
1. Trouver un sujet
a. Soit une idée originale, issue d'une observation empirique ou d'une intuition, qu'elle émane de l'interne ou du directeur plus expérimenté
a. Soit généralement un travail dans la lignée de la thématique du directeur ou de son service
1. Rédiger un court synopsis du projet : objectifs, hypothèses, type d'étude
1. **Aller voir, le plus tôt possible et en compagnie du directeur, un méthodologiste en consultation** avec le synopsis
Le CHRU dispose de deux services d'accueil en consultation méthodo :
* la **PARC** (**P**lateforme d'**A**ide à la **R**echerche **C**linique)
* le **CIC-EC** (**C**entre d'**I**nvestigations **C**liniques - **É**valuations **C**liniques)
qui consultent sur rendez-vous (s'adresser aux secrétariats respectifs dont les adresses email sont dans l'annuaire interne du CHRU)
1. Le méthodologiste peut aider et guider pour les étapes suivantes :
1. Rédiger un protocole expliquant le type d'étude, les objectifs et hypothèses, le déroulement de l'étude, l'inclusion des patients, les variables recueillies, etc.
1. Dans le cas de patients du CHRU, le protocole doit être signé par un méthodologiste et revu par la **DRI** (**D**irection de la **R**echerche et de l'**I**nnovation, dont fait partie la **PARC**)
1. D'autres demandes (CNIL, comité d'éthique, etc.) peuvent être nécessaires en fonction de la recherche prévue
1. Déroulement de l'étude et recueil des données.
Le méthodologiste peut fournir des outils pour recueillir les données de manière plus fiable et plus facile, ainsi que guider sur quelles données recueillir et sous quelle forme
1. Analyse des données et interprétation des résultats.
Des données recueillies **correctement** dans le cadre d'un protocole **bien conçu** permettent une analyse plus rapide et plus simple, et des résultats plus pertinents et plus intéressants

# Le recueil de données

## Généralités

Plusieurs cas de figure existent quant au recueil de données.

En cas d'étude prospective, ou rétrospective avec recueil d'information dans les dossiers médicaux, il est préférable d'utiliser un outil dédié au recueil de données, plutôt qu'un tableur (Excel, OpenOffice, etc.). Un tel outil peut vous être proposé par le méthodologiste. Il permet un recueil plus rapide, plus simple, et doté de contrôles de saisie permettant d'éviter la plupart des fautes de frappes.

À noter qu'en cas de besoin de sélection de dossiers patients selon certains critères (service d'hospitalisation, dates de séjour, diagnostics, actes chirurgicaux, âge, sexe, etc.), le **DIM** (**D**épartement d'**I**nformation **M**édicale) peut vous aider à identifier les dossiers pertinents. La demande se fait par email au secrétariat du DIM. Un formulaire de demande vous sera transmis, qu'il faudra faire signer par le(s) chef(s) de service(s) concernés pour autoriser l'accès aux données.

Dans le cas d'une étude rétrospective pour laquelle les données ont déjà été collectées dans une base de données, ou qu'il est trop tard et que le recueil est déjà effectué, plusieurs règles de bonne pratique sont à respecter pour présenter les données de manière exploitable.
Très souvent, la majorité du temps d'analyse est passée à nettoyer les données, corriger les erreurs de saisie, et retransformer des variables improprement collectées, afin de les rendre exploitables pour l'analyse. Il ne reste alors plus beaucoup de temps pour pouvoir conduire des analyses correctes et intéressantes, sans compter l'exploration d'autres pistes éventuellement suggérées par les premières analyses.
Avoir une base de données «propre» et bien remplie permet d'arriver rapidement à l'analyse et à produire des résultats utilisables.

## Règles

Voici une liste de règles à respecter lors de la constitution d'une base de données statistiques :

* Identifier **l'unité statistique**. Il s'agit généralement du patient, mais peut aussi être une hospitalisation, un acte, une grossesse, etc.

* Identifier les **variables pertinentes** à garder pour l'analyse et qui permettront de répondre aux questions posées par les hypothèses.
Un grand nombre de variables est inutile, il est préférable d'avoir beaucoup de sujets avec un nombre restreint de variables pertinentes, que peu de sujets avec des dizaines de variables dont souvent beaucoup vont être absentes

* Les données doivent tenir dans **un seul tableau** contenant :
+ une lignée par unité statistique (par patient)
+ une colonne par variable
+ un point de donnée unique par cellule

* Seul le contenu écrit de chaque case doit encoder de l'information.
Les mises en forme, styles, couleurs de remplissage ou de texte, sont ignorés. S'il y a une information complémentaire à ajouter, le faire sous la forme d'une nouvelle variable.
Éviter les commentaires entre parenthèses après une valeur dans une case.

* La première ligne (et **elle seule**) doit comporter le **nom** de chaque variable. Chaque nom de variable doit être **unique**, et **indicatif** de la donnée recueillie.
Différents logiciels de statistique acceptent diverses formes de nom de variable, mais pour être le plus compatible possible, les noms de variables doivent rester courts, et composés uniquement de caractères alphanumériques (pas d'espaces, de symboles, de caractères spéciaux, ou d'accents. L'*underscore* ( _ ) est accepté). Essayer au mieux d'avoir des noms de variables cohérents entre eux.

* La table de données peut être accompagnée d'un dictionnaire expliquant chaque variable (par exemple : *poids = poids actuel en kg*)

* La première colonne doit contenir un **identifiant** anonyme de sujet (une liste croissante de numéros uniques).
**IL NE FAUT ABSOLUMENT AUCUNE DONNÉE NOMINATIVE OU INDIRECTEMENT NOMINATIVE (numéro de dossier, de séjour, etc.)** dans la table de données.
Il est conseillé de garder de côté dans un fichier séparé, sur un ordinateur du CHRU, une liste de correspondance n° d'anonymisation <=> identifiants du patient, qui permettra le cas échéant de retourner au dossier du patient en cas de problème avec ses données.
**On rappellera au passage qu'il est ABSOLUMENT INTERDIT de conserver des données médicales identifiantes sur un ordinateur personnel/clé USB/etc.** Il s'agit d'informations sensibles (vous ne voudriez pas que votre dossier médical circule dans la nature), et il est si facile de perdre une clé USB ou se faire voler son portable…
Dans le pire des cas, ne transporter que le fichier «anonymisé», idéalement sur un support de stockage chiffré.

* Les variables recueillies peuvent être de différents types :
+ **quantitative**
Un nombre, généralement issu d'une mesure (le poids, un dosage, l'âge, etc.). Un seul nombre doit apparaître dans chaque case, toujours exprimé dans la même unité (pas de mélange entre mg et mmol, m et cm, g et kg, etc.). L'unité ne doit pas apparaître dans la case.
**Attention** au séparateur de décimales («,» en français, «.» chez les anglo-saxons), et à ne pas les mélanger par inadvertance. Les tableurs alignent les données textuelles d'un côté des cases, et les données numériques de l'autre. Si une donnée normalement numérique n'apparaît pas du bon côté, ou pas alignées avec le contenu des cases de la même colonne, il faut vérifier qu'il n'y a pas de faute de frappe («.» à la place de «,», ou une espace avant ou après le nombre)

+ **qualitative**
Une catégorie (parmi plusieurs idéalement pré-déterminées, et mutuellement exclusives) à laquelle appartient le sujet (sexe, groupe de traitement, présence d'un antécédent particulier, statut vital, etc.). Une seule catégorie doit apparaître dans la case.
**Attention** à l'écriture des niveaux ! Par exemple, vérifier que la case *sexe* ne mélange pas «H», «h», «homme» et «masculin». Tous les patients appartenant à la même catégorie doivent avoir le même code (attention notamment aux majuscules et accents). La fonction *Filtre* du tableur permet de détecter les différents niveaux.
Il est possible également, pour limiter les erreurs, de *coder* les informations avec des nombres, en précisant le codage dans un fichier annexe (par exemple : *Sexe : 1 = masculin, 2 = féminin*)

+ **date**
Il est toujours préférable de rentrer une date plutôt qu'une durée, puisque les durées sont faciles à calculer à partir des dates de début et de fin. Les dates s'expriment différemment, et d'une manière facile à porter à confusion, en français (jj/mm/aaaa) et en anglais (mm/jj/aaaa). Pour éviter tout problème, entre les versions d'Excel notamment, et les différents logiciels de statistiques, il est préférable de rentrer les dates sous cette forme universelle et inambiguë : *aaaa-mm-dd*, qui a l'avantage d'avoir un ordre de classement «alphabétique» qui est aussi chronologique. Si le jour est inconnu, renseigner le 15 pour le jour dans la date. Si le mois est inconnu, renseigner 06 à la place du mois.

+ **données calculées**
Inutile de calculer les variables résultant d'un calcul (IMC, osmolalité, etc.), que ce soit avec une formule dans le tableur, **ou pire, à la main !** Détailler plutôt les variables à créer et les formules pour les calculer dans le synopsis.

* **valeurs manquantes**
Dans tous les cas, une valeur manquante (ou non applicable, par exemple «date de décès» chez un patient en vie, ou encore incertaines) doit être renseignée par une case **vide** (ni espace, ni point d'interrogation, ni NA/NC/aucun/etc.)

* **Cas particuliers**
+ **analyse de survie**
Si l'étude concerne la survie (avant décès, ou récidive, ou n'importe quel évènement d'intérêt), trois variables sont nécessaires pour réaliser l'analyse :
- la date de départ : inclusion, opération, diagnostic, etc.
- la date de point : date de dernières nouvelles, ou la date de l'évènement pour les patients présentant l'évènement
- présence de l'évènement : "Oui" ou "Non", selon que l'évènement a eu lieu ou non pour ce patient

+ mesures répétées **longitudinales**
L'unité statistique ici est la visite, auxquelles généralement on recueille les mêmes variables dépendantes du temps. Il est recommandé d'avoir une ligne par visite, et de renseigner à chaque fois le numéro d'anonymat du patient, la date de la visite, et les variables dépendantes du temps. Les variables constantes (sexe, date de naissance, etc.) doivent être répétées à chaque ligne pour le même patient.
Dans la plupart des cas où il n'y a que deux mesures (inclusion et sortie), garder un patient par ligne et suffixer les noms de variables communes entre les deux temps avec *\_T0* et *\_T1* par exemple.
<br/>
* **L'ordre des variables**
L'ordre de présentation des variables ne va bien évidemment rien changer aux résultats, mais un ordre logique permet au méthodologiste de se familiariser plus facilement avec les données.
En général, l'ordre suit le schéma suivant :
+ Identifiant
+ Groupe (Cas/Témoin, Traitement/Contrôle, etc.)
+ Données démographiques
+ Données fixes (antécédents, constantes, etc)
+ Données à l'inclusion
+ Données à la sortie
<br/>
* **Vérification des données**
Pour chaque variable il faut vérifier, à l'aide des recommandations ci-dessus,
+ que le formatage est correct
+ que les données numériques sont purement numériques
+ que les données catégorielles ont des niveaux bien codés
+ que les données d'un patient ne sont pas incohérentes entre elles (date de décès ultérieure à la date d'inclusion par exemple)
+ que les données manquantes sont bien signalées par de simples cases vides
+ que les variables présentes sont pertinentes pour les analyses demandées

# Pourquoi le format article ?

Désormais, en tous cas pour les internes de spécialité, la thèse doit se présenter sous la forme d'un article qui doit être soumis à une revue scientifique à comité de lecture.
Ceci émane de la même volonté que celle ayant amené la LCA a être une épreuve aux ECN : afin que les patients bénéficient toujours des meilleures soins, les médecins doivent rester au courant des dernières avancées en matière de diagnostic, de thérapeutique, et de tout ce qui fait l'exercice médical. Les données les plus récentes et complètes se trouvant dans la littérature scientifique, il est important que tout médecin sache *a minima* comment lire, interpréter, et critiquer cette littérature afin d'en tirer la meilleure information.

Il est également important que chacun d'entre vous, même si tous ne feront pas une carrière hospitalo-universitaire ou de la recherche, ait au moins eu l'expérience une fois du travail de production d'un article scientifique, et ce afin que vous soyez mieux armés pour critiquer (que ce soit positivement ou négativement) le travail des autres, en ayant vous-même vécu le processus. Les thèses non publiées dans une revue font partie de ce qu'on appelle la «littérature grise», un travail scientifique non revu par un comité de lecture et plus difficile d'accès car non indexé. Publier (ou au moins tenter de publier, seule la soumission à une revue est demandée pour l'instant) sa thèse permet à la fois de faire valider son travail ainsi que le valoriser en le rendant accessible au reste de la communauté médicale.

Même si ceci concerne à première vue les internes de spécialité, les recommandations énoncées, notamment en ce qui concerne le recueil de données, restent complètement applicables aux travaux de thèse des internes de médecine générale.

# Rédaction de l'article

Il faut la commencer le plus tôt possible, en parallèle de l'avancement des autres étapes.

La première chose à faire est d'explorer la connaissance existante sur le domaine en faisant de la recherche documentaire.
Il est conseillé d'utiliser un gestionnaire de bibliographie tel que [ Zotero ](http://www.zotero.org) (logiciel libre entièrement gratuit), qui permet de sauvegarder des références et les classer, directement depuis le navigateur web, ainsi que d'insérer automatiquement avec le style voulu les références dans le texte ainsi que la bibliographie complète à la fin.
C'est cette recherche documentaire préalable qui permet généralement de cerner l'hypothèse précise de l'étude, qu'elle brille par son absence de la littérature, ou qu'elle n'ait que mal ou peu été explorée jusque là.

Enfin, il est recommandé de rédiger son article en anglais, afin de viser une plus large diffusion et une meilleure reconnaissance du travail.

L'ensemble de l'article doit suivre une progression logique, où rien ne doit sortir de nulle part.

L'état de l'art et le contexte doivent être renseignés par la bibliographie dans l'**Introduction**, et amener logiquement à un objectif.
L'objectif, avec les restrictions pratiques et éthiques éventuelles, doit amener au design de l'étude (**Méthode**), aux données recueillies (**Matériel**) et au type d'analyses statistiques envisagées pour tester les différentes hypothèses.
Les données et les analyses produisent les **Résultats**.
L'interprétation des résultats et leur confrontation avec l'existant alimentent la **Discussion**.
La discussion permet de donner une **Conclusion** répondant à la question posée dans les hypothèses.

## Introduction

Elle doit, de manière référencée, présenter la problèmatique de manière assez large et amener jusqu'à l'objectif lui-même.

## Matériel et Méthode

La section doit décrire le déroulement de l'étude et des analyses de manière précise et détaillée. Une sorte de recette de cuisine de la recherche, rien ne doit sembler être laissé au hasard.

Si un protocole a été rédigé, ces deux sections sont quasiment déjà écrites. Le méthodologiste peut vous assister pour la rédaction de la partie méthode.

## Résultats et Discussion

Les sections **Résultats** et **Discussion** ne peuvent évidemment être écrites qu'après avoir conduit la recherche et analysé les données.
Cependant lors de la recherche bibliographique initiale, il est important de garder de côté les références de travaux proches de celui envisagé, que les résultats soient concordants ou contradictoires à ceux attendus, afin de pouvoir les discuter dans l'article et faire rentrer les résultats dans un cadre plus large.

### Résultats

La partie résultats doit être absolument factuelle, une présentation brute des résultats de l'analyse, avec chiffres, tableaux et figures à l'appui. Il n'y a que peu de place à l'interprétation ici.

### Discussion

Celle-ci en revanche permet de mettre le résultat important en exergue, de le confronter aux résultats pré-existants, d'en discuter les forces et faiblesses, et idéalement de suggérer une application pratique en clinique si les résultats sont concluants et actionnables.

## Conclusion

Un court paragraphe résumant les résultats principaux, et permettant d'ouvrir, avec la fin de la discussion, sur d'autres pistes de recherche.

# Déroulement «sub-optimal»

Ce qui suit est un scénario fictif qui n'a absolument **jamais** eu lieu.

1. Se rendre compte en dernière année d'internat qu'il faut faire une thèse
1. Se voir offrir un sujet impossible à traiter logistiquement/logiquement/éthiquement/dans les temps/…
1. Recueillir, dans la douleur, des données inexploitables et ne répondant pas à une question précise, en grande quantité, chez un faible nombre de patients mal sélectionnés
1. Ou hériter d'une base de données mal constituée et inexploitable
1. Se rendre compte trois semaines avant la soutenance qu'il faut faire *des stats* et contacter au mieux un méthodologiste du CHRU, ou un interne de santé publique aléatoire
1. Demander à ce que l'on s'occupe de vous, et que «c'est pas pour grand chose, "juste des stats"»
1. Ne pas comprendre pourquoi ça prend autant de temps
1. Devoir retourner dans les dossiers pour collecter des données manquantes cruciales pour l'analyse
1. Paniquer. Beaucoup. Tout le temps

# Pour résumer

* **Consulter un méthodologiste avec votre directeur**, et ce le plus tôt possible lors de l'élaboration du projet
La présence du directeur de thèse est importante, puisqu'il est généralement l'instigateur du sujet, qui touche à son domaine ultra-spécialisé, et est le mieux placé pour clarifier les subtilités du projet.
* Élaborer, avec son aide, un protocole permettant de répondre au mieux à la question de recherche, en définissant bien les variables utiles pour minimiser le risque d'avoir à retourner au dossier
* Recueillir un **minimum** de variables pertinentes et bien renseignées, pour un **maximum** de patients
* Vérifier votre base de données avant de l'envoyer pour analyse
* Communiquer les données le plus rapidement possible au méthodologiste, pour pouvoir répondre à tout questionnement quant à des valeurs suspectes (typiquement valeurs extrêmes causées par une erreur de saisie, dont il va falloir retrouver les véritables valeurs)
* Commencer à rédiger dans l'article les parties qui peuvent l'être sans les résultats, et préparer les références pour la discussion.

Si vous suivez ces recommandations, vous gagnerez un temps précieux, vous arracherez moins les cheveux, et les chances seront plus grandes d'obtenir des résultats intéressants et utilisables en pratique !
Bonne chance à tous !

Un projet similaire de guide de la thèse est en cours d'élaboration au niveau de la fac, plus détaillé, avec d'avantages d'informations de contact, et la mise à disposition de formulaires et de modèles de documents. Vous serez avertis de sa disponibilité.
Ce guide lui-même est amené à évoluer et s'enrichir, n'hésitez donc pas à revenir le consulter !

# Exemples

## Variable quantitative

|Id|Taille|
|--|:-----|
| 1|150 |
| 2|1,75 |
| 3|? |
| 4|1.82 |

Attention à la cohérence des unités, et au séparateur de décimales. Uniquement des cases vides en cas de donnée manquante.

|Id|Taille|Ou|Taille|
|--|:-----|--|:-----|
| 1|150 | |1,5 |
| 2|175 | |1,75 |
| 3||||
| 4|182 | |1,82 |


## Variable qualitative multiple, et/ou non mutuellement exclusive

Plutôt que d'avoir une collection d'antécédents renseignés comme suit :
`r data.frame(Id = 1:4, Atcd = c("HTA depuis 2008, Tabac (20 PA), Fracture d'un métacarpien", "Obésité, HTA", "Appendicite en 96, tabagique", "aucun, tabac ?")) %>% pander`
Ou, un peu mieux, comme ça :
`r data.frame(Id = 1:4, Atcd1 = c("HTA", "Obésité", "Tabac", "aucun"), Atcd2 = c("Tabac", "HTA", "Appendicite", ""), Atcd3 = c("Fracture de méta", "", "", "")) %>% pander`
Il est préférable de se débarrasser des informations non pertinentes, et correctement renseigner celles qui le sont. Dans un travail de cardiologie par exemple, les antécédents chirurgicaux retrouvés ici ne seront pas utiles, et une bonne présentation serait :
`r data.frame(Id = 1:4, Atcd_HTA = c("Oui", "Oui", "Non", "Non"), Atcd_Tabac = c("Oui", "Non", "Oui", ""), Atcd_Obesite = c("Non", "Oui", "Non", "Non")) %>% pander`

****

**Maxime Wack**
*Référent des Internes de Santé Publique*

Loading…
Cancel
Save