Browse Source

Commentaires code + diapos

master
Maxime Wack 6 years ago
parent
commit
62e30f63cb
2 changed files with 15 additions and 11 deletions
  1. +15
    -11
      01_Intro/EDA.R
  2. BIN
      01_Intro/intro.odp

+ 15
- 11
01_Intro/EDA.R View File

@@ -14,25 +14,32 @@ library(lubridate)


## Diamonds ---- ## Diamonds ----


# Charger les données
data(diamonds) data(diamonds)


# Affichage des premières lignes
diamonds diamonds


# Structure des données
diamonds %>% diamonds %>%
str str


# Résumé stat des données
diamonds %>% diamonds %>%
summary summary


# Écart type pour les variables numériques
diamonds %>% diamonds %>%
keep(is.numeric) %>% keep(is.numeric) %>%
map(sd) map(sd)


# Distribution des valeurs de carats (continu)
diamonds %>% diamonds %>%
ggplot() + ggplot() +
aes(x = carat) + aes(x = carat) +
geom_histogram(binwidth = .05) geom_histogram(binwidth = .05)


# Distribution des valeurs de coupe (catégoriel)
diamonds %>% diamonds %>%
ggplot() + ggplot() +
aes(x = cut) + aes(x = cut) +
@@ -40,6 +47,7 @@ diamonds %>%


# … # …


# Fonction pour afficher une distribution
plot_desc <- function(x, var, ...) plot_desc <- function(x, var, ...)
{ {
x %>% x %>%
@@ -52,9 +60,11 @@ plot_desc <- function(x, var, ...)
g + geom_bar(...) g + geom_bar(...)
} }


# Application
diamonds %>% diamonds %>%
plot_desc("carat", binwidth = .01) plot_desc("carat", binwidth = .01)


# Application en masse
diamonds %>% diamonds %>%
keep(is.numeric) %>% keep(is.numeric) %>%
names %>% names %>%
@@ -67,30 +77,24 @@ diamonds %>%
map(~plot_desc(diamonds, .)) %>% map(~plot_desc(diamonds, .)) %>%
set_names(diamonds %>% keep(is.factor) %>% names) -> plots set_names(diamonds %>% keep(is.factor) %>% names) -> plots


# Matrice de relations entre les variables
diamonds %>% diamonds %>%
sample_n(1000) %>% sample_n(1000) %>%
plot plot


# Association entre deux variables (continue/catégorielle)
diamonds %>% diamonds %>%
ggplot() + ggplot() +
aes(x = carat, fill = clarity) + aes(x = carat, fill = clarity) +
geom_histogram(position = "fill") geom_histogram(position = "fill")


diamonds %>%
ggplot() +
aes(x = carat, fill = cut) +
geom_histogram(position = "fill")

diamonds %>%
ggplot() +
aes(x = carat, fill = color) +
geom_histogram(position = "fill")

# Association entre deux variables continues
diamonds %>% diamonds %>%
ggplot() + ggplot() +
aes(x = x, y = y) + aes(x = x, y = y) +
geom_point() geom_point()


# Association entre 3 variables
diamonds %>% diamonds %>%
ggplot() + ggplot() +
aes(x = carat, y = price, color = color) + aes(x = carat, y = price, color = color) +
@@ -104,4 +108,4 @@ data(gapminder)


read_csv2("commits.csv") read_csv2("commits.csv")


# Commits par jour ? En fonction de l'heure ? Par jour et par heure ? boulot/perso ? en semaine/week-end ?
# Commits par jour ? En fonction de l'heure ? Par jour et par heure ? boulot/perso ? en semaine/week-end ?

BIN
01_Intro/intro.odp View File


Loading…
Cancel
Save