Browse Source

Corrections NA

fac
Maxime Wack 7 years ago
parent
commit
d949deb1dc
1 changed files with 29 additions and 27 deletions
  1. +29
    -27
      these.Rmd

+ 29
- 27
these.Rmd View File

@@ -66,7 +66,9 @@ Voici une liste de règles à respecter lors de la constitution d'une base de do
* La première ligne (et **elle seule**) doit comporter le **nom** de chaque variable. Chaque nom de variable doit être **unique**, et **indicatif** de la donnée recueillie.
Différents logiciels de statistique acceptent diverses formes de nom de variable, mais pour être le plus compatible possible, les noms de variables doivent rester courts, et composés uniquement de caractères alphanumériques (pas d'espaces, de symboles, de caractères spéciaux, ou d'accents. L'underscore `_` est accepté). Essayer au mieux d'avoir des noms de variables cohérents entre eux.

* La table de données peut être accompagnée d'un dictionnaire expliquant chaque variable (par exemple : `poids = poids actuel en kg`)
* La table de données doit être accompagnée d'un dictionnaire détaillant explicitement le nome de chaque variable (par exemple : `ATCD_CV = Antécédent cardiovasculaire` `poids_T0 = poids à l'inclusion`), et son codage ou son unité (par exemple : `ATCD_CV : 1 = oui, 0 = non` `poids_T0 : kg`)

* Il faut **TOUJOURS PRIVILÉGIER** les données numériques aux données alphanumériques (les chiffres aux lettres) dans les cellules.

* La première colonne doit contenir un **identifiant** anonyme de sujet (une liste croissante de numéros uniques).
**IL NE FAUT ABSOLUMENT AUCUNE DONNÉE NOMINATIVE OU INDIRECTEMENT NOMINATIVE (numéro de dossier, de séjour, etc.)** dans la table de données.
@@ -107,7 +109,7 @@ Une variable dite qualitative représente une **catégorie** (parmi plusieurs id

**Attention** à l'écriture des niveaux !
Par exemple, vérifier que la case *sexe* ne mélange pas `H`, `h`, `homme` et `masculin`. Tous les patients appartenant à la même catégorie doivent avoir le même code (attention notamment aux majuscules et accents). La fonction *Filtre* du tableur permet de détecter les différents niveaux.
Il est possible également, pour limiter les erreurs, de *coder* les informations avec des nombres, en précisant le codage dans un fichier annexe (par exemple : `Sexe : 1 = masculin, 2 = féminin`)
Il est conseillé également, pour limiter les erreurs, de *coder* les informations avec des nombres, en précisant le codage dans un fichier annexe (par exemple : `Sexe : 1 = masculin, 2 = féminin`)

Pour les données catégorielles plus complexes et ne répondant pas directement aux impératifs de pré-détermination et exclusion mutuelle, par exemple le recueil des antécédents, ou des traitements en cours, il est préférable de recoder les informations dans autant de variables que nécessaire.

@@ -133,10 +135,10 @@ Pour les données catégorielles plus complexes et ne répondant pas directement
>
> Id|Atcd_HTA|Atcd_Tabac|Atcd_Obesite|
> --|--------|----------|------------|
> 1 |Oui |Oui |Non |
> 2 |Oui |Non |Oui |
> 3 |Non |Oui |Non |
> 4 |Non | |Non |
> 1 |1 |1 |0 |
> 2 |1 |0 |1 |
> 3 |0 |1 |0 |
> 4 |0 | |0 |
>
> Ainsi il n'y a pas d'ambiguïté possible, les variables sont facilement exploitables, et seules les informations pertinentes apparaissent.

@@ -145,7 +147,7 @@ Pour les données catégorielles plus complexes et ne répondant pas directement
Il est toujours préférable de saisir une date plutôt qu'une durée, puisque les durées sont faciles à calculer à partir des dates de début et de fin.

Les dates s'expriment différemment, et d'une manière facile à porter à confusion, en français (`jj/mm/aaaa`) et en anglais (`mm/jj/aaaa`).
Pour éviter tout problème, entre les versions d'Excel notamment, et les différents logiciels de statistiques, il est préférable de rentrer les dates sous cette forme universelle et inambiguë : **aaaa-mm-dd**, qui a l'avantage d'avoir un ordre de classement «alphabétique» qui est aussi chronologique. Si le jour est inconnu, renseigner le 15 pour le jour dans la date. Si le mois est inconnu, renseigner 06 à la place du mois.
Pour éviter tout problème, entre les versions d'Excel notamment, et les différents logiciels de statistiques, il est préférable de rentrer les dates sous cette forme universelle et inambiguë : **aaaa-mm-dd**, qui a l'avantage d'avoir un ordre de classement «alphabétique» qui est aussi chronologique. Si le jour est inconnu, renseigner le 15 pour le jour dans la date. Si le mois est inconnu, renseigner 06 à la place du mois. Si la date complète est inconnue, laisser la cellule vide.

> Ici les dates sont soit ambiguës, soit cherchent à coder une incertitude mais de façon différente.
>
@@ -169,7 +171,7 @@ Pour éviter tout problème, entre les versions d'Excel notamment, et les diffé

## Données calculées

Inutile de calculer les variables résultant d'un calcul (IMC, osmolalité, etc.), que ce soit avec une formule dans le tableur, **ou pire, à la main !** Détailler plutôt les variables à créer et les formules pour les calculer dans le synopsis.
Inutile de calculer les variables résultant d'un calcul (IMC, osmolalité, etc.), que ce soit avec une formule dans le tableur, **ou pire, à la main !** Détailler plutôt les variables à créer et les formules pour les calculer dans le synopsis. La personne en charge des analyses pourra ainsi créer la variable souhaitée sans erreur.

> Id|Taille|Poids|
> --|------|-----|
@@ -188,7 +190,7 @@ Dans tous les cas, une valeur manquante (ou non applicable, par exemple «date d
> Id|Variable|
> --|--------|
> 1 |? |
> 2 |NA |
> 2 |NSP |
> 3 |Donnée |
> 4 |NC |
> 5 |N/A |
@@ -209,7 +211,7 @@ Dans tous les cas, une valeur manquante (ou non applicable, par exemple «date d

## Analyse de survie

Si l'étude concerne la survie (avant décès, ou récidive, ou n'importe quel évènement d'intérêt), trois variables sont nécessaires pour réaliser l'analyse :
Si l'étude concerne la survie (avant décès, ou récidive, ou n'importe quel évènement d'intérêt), trois variables au minimum sont nécessaires pour réaliser l'analyse :

* la date de départ : inclusion, opération, diagnostic, etc.
* la date de point : date de dernières nouvelles, ou la date de l'évènement pour les patients présentant l'évènement
@@ -217,10 +219,10 @@ Si l'étude concerne la survie (avant décès, ou récidive, ou n'importe quel

> Id|Date_inclusion|Date_point|Deces|
> --|--------------|----------|-----|
> 1 |2005-03-07 |2015-06-13|Non |
> 2 |2005-04-24 |2010-05-01|Oui |
> 1 |2005-03-07 |2015-06-13|0 |
> 2 |2005-04-24 |2010-05-01|1 |
> 3 |2005-02-11 |2008-12-10| |
> 4 |2005-03-18 |2016-10-08|Non |
> 4 |2005-03-18 |2016-10-08|0 |
>
> Prendre soin de vérifier que la date de point est toujours postérieure à la date d'inclusion (pas de durée de survie négative !)

@@ -231,22 +233,22 @@ L'unité statistique ici est la **visite**, à laquelle généralement on recuei
> Ici chaque visite est codée avec une nouvelle variable. Les intitulés ne suivent pas une logique cohérente, et des cases vides existent quand tous les patients n'ont pas le même nombre de visite.
> De plus, la variable quantitative est mal codée.
>
> Id|date_visite1|HbA1c_1|date_visite2|HbA1c_1|dateVisite_3|H_glyc_3|
> --|------------|-------|------------|-------|------------|--------|
> 1 |2010-05-03 |4% |2010-06-10 |4.5 |2011-01-13 |4,7% |
> 2 |2010-07-27 |6,5% | | | | |
> 3 |2010-06-10 |4,1 |2010-07-21 |4.3 | | |
> Id|sexe|date_visite1|HbA1c_1|date_visite2|HbA1c_1|dateVisite_3|H_glyc_3|
> --|----|------------|-------|------------|-------|------------|--------|
> 1 |1 |2010-05-03 |4% |2010-06-10 |4.5 |2011-01-13 |4,7% |
> 2 |2 |2010-07-27 |6,5% | | | | |
> 3 | |2010-06-10 |4,1 |2010-07-21 |4.3 | | |
>
> Une présentation correcte est :
>
> Id|Visite|Date |HbA1c(%)|
> --|------|----------|--------|
> 1 |1 |2010-05-03|4 |
> 1 |2 |2010-06-10|4,5 |
> 1 |3 |2011-01-13|4,7 |
> 2 |1 |2010-07-27|6,5 |
> 3 |1 |2010-06-10|4,1 |
> 3 |2 |2010-07-21|4,3 |
> Id|sexe|Visite|Date |HbA1c(%)|
> --|----|------|----------|--------|
> 1 |1 |1 |2010-05-03|4 |
> 1 |1 |2 |2010-06-10|4,5 |
> 1 |1 |3 |2011-01-13|4,7 |
> 2 |2 |1 |2010-07-27|6,5 |
> 3 | |1 |2010-06-10|4,1 |
> 3 | |2 |2010-07-21|4,3 |
>
> Ainsi un nombre arbitraire de visites peut être renseigné pour chaque patient, et une seule colonne renseigne un seul concept.

@@ -293,7 +295,7 @@ Pour chaque variable il faut vérifier, à l'aide des recommandations ci-dessus,
* que le formatage est correct
* que les données numériques sont purement numériques
* que les données catégorielles ont des niveaux bien codés
* que les données d'un patient ne sont pas incohérentes entre elles (date de décès ultérieure à la date d'inclusion par exemple)
* que les données d'un patient ne sont pas incohérentes entre elles (exemple d'incohérence : date de décès antérieure à la date d'inclusion par exemple)
* que les données manquantes sont bien signalées par de simples cases vides
* que les variables présentes sont pertinentes pour les analyses demandées



Loading…
Cancel
Save