Liens et ressources utiles

Que vous soyez data-débutant, autodidacte ou data-confirmé, vous trouverez sur cette page des ressources utiles (non exhaustives) pour se familiariser avec R.


Découvrir & Installer R et son environnement

Le site officiel de la fondation R Project, le CRAN, depuis lequel vous pouvez télécharger R (version libre), un langage et un environnement de programmmation statistique et de visualisation de données.

Le site officiel de RStudio qui a développé un environnement de développement des plus performants pour l’utilisation de R. Téléchargement de l’IDE depuis ce même site (versions libre ou payante).

Une mine d’information (en français !) qui présente comment réaliser des analyses statistiques et diverses opérations courantes. Merci à Joseph Larmarange et ses contributeurs !

frrrenchies, une liste de ressources R francophones ou utiles pour les Français. Vraiment précieux !

Le guide de recherche des librairies de R par thématique, le CRAN Task Views, depuis le site officiel de la fondation R Project. Vous trouverez ici les liens vers les principales librairies de clustering, d’analyse écologique et environnementale, de machine learning, d’analyse multi-variées, etc.


Se former et apprendre

Les fameuses Cheat Sheets (ou aide-mémoire), développées par la communauté RStudio. Ces véritables guides vous permettront facilement d’apprendre et d’appliquer les fonctions essentielles des librairies telles que dplyr, ggplot2, lubridate, Shiny, R Markdown, Keras, etc.

Un cours gratuit en ligne sur Openclassrooms, dans lequel vous vous initierez intuitivement au langage R.

Un point de départ incontournable, le guide d’Emmanuel Paradis, de l’Université de Montpellier II, qui vous permettra d’avoir une vision globale des fonctionnalités de R et des perspectives qu’offre ce langage.

Julien Barnier nous présente la suite tidyverse (en français), une manière intuitive et logique de réaliser un projet data dans R.


Réaliser un projet ‘data’

1. Collecter & Importer les données

RMySQL, RSQLite pour se connecter à vos bases de données et en faire une extraction.

xlsx, XLConnect pour importer des données depuis des fichiers Microsoft Excel.

Pour les fichiers plats de type .csv par exemple, les fonctions de base read.csv ou read.table sont suffisantes, pas de recours nécesssaire à une librairie complémentaire.

jsonlite pour lire des données au format json.

XML pour lire des documents depuis le web.

2. Manipuler les données

dplyr pour manipuler, arranger, joindre, résumer, etc. un jeu de données. Le véritable couteau-suisse du data scientist !

data.table qui permet de manipuler des jeux de données volumineux et avec une syntaxe allégée et intuitive.

tidyr pour modifier le format du jeu de données.

lubridate pour manipuler les données au format date et time avec une aisance absolue.

3. Visualiser les données

ggplot2, LA librairie de référence pour la création de graphique dans R ! A consommer sans modération.

rAmCharts une librairie de graphique interactif développée par l’équipe Datastorm et basée sur la librairie Javascript amcharts.js.

highcharteR une autre librairie de graphique interactif.

THE R GRAPH GALLERY qui recense de nombreux project de dataviz. Exemples et codes source fournis.

4. Analyser les données

FactomineR un outil indispensable pour l’analyse de données (PCA, CA, MCA), le clustering et la réduction de dimensions développé par l’équipe d’Agrocampus Rennes.

Hmisc qui contient énormément de fonctions pour l’analyse de données.

mda qui permet de réaliser des analyses discriminantes mixtes et des régressions adaptatives multiples.

5. Modéliser - Prédire Apprendre

mgcv fournit des fonctions pour la modélisation généralisée additive et mixte.

caret LA librairie de référence pour le machine learning dans R, développée par Max Kuhn.

h2o particulièrement adapté pour le machine learning sur des jeux de données volumineux.

6. Restituer & Partager

XX