La demande de praticiens qualifiés en science des données dans l’industrie, le milieu universitaire et le gouvernement augmente rapidement. Le programme de science des données HarvardX vous prépare à la base de connaissances nécessaire et aux compétences utiles pour relever les défis de l’analyse des données du monde réel. Le programme couvre des concepts tels que les probabilités, l’inférence, la régression et l’apprentissage automatique et vous aide à développer un ensemble de compétences essentielles comprenant la programmation R, le traitement des données avec dplyr, la visualisation des données avec ggplot2, l’organisation des fichiers avec Unix/Linux, le contrôle de version avec git et GitHub, et la préparation de documents reproductibles avec RStudio.
Dans chaque cours, nous utilisons des études de cas motivantes, posons des questions spécifiques et apprenons en y répondant par l’analyse des données. Les études de cas comprennent : Les tendances de la santé et de l’économie mondiales, les taux de criminalité aux États-Unis, la crise financière de 2007-2008, les prévisions électorales, la constitution d’une équipe de baseball (inspirée de Moneyball) et les systèmes de recommandation de films.
Tout au long du programme, nous utiliserons l’environnement logiciel R. Vous apprendrez simultanément R, les concepts statistiques et les techniques d’analyse de données. Nous croyons que vous pouvez mieux retenir les connaissances de R lorsque vous apprenez à résoudre un problème spécifique.