Cours 1 – La Data Science et le Machine Learning avec Python
1. Installation et prise en main de l’environnement de travail
* Qu’est-ce que la Data Science ?
* Présentation et installation d’Anaconda
* Maîtrise du notebook Jupyter : les bases et l’enregistrement du travail
2. Les bases du langage Python
* Concept et déclaration d’une variable
* Les chiffres et les opérateurs mathématiques
* Les strings et les opérateurs
* Maîtrise de Jupyter Notebook : session 2
3. Les conditions
* Les conditions logiques
* La structure des conditions
4. Les listes
* Concept, déclaration, consultation, manipulation et analyse d’une liste en Python
5. Les dictionnaires
* Qu’est-ce qu’un dictionnaire ?
* Navigation et manipulation d’un dictionnaire
* Les dictionnaires multi-valeurs
6. Les boucles
* Concept des boucles avec while
* La boucle for
* Création de listes de chiffres
7. Les fonctions
* Le concept, les paramètres et “return” d’une fonction
* Les paramètres optionnels
* TP : Les boucles et les fonctions – Analyse des données du Titanic
8. Les librairies
* Importer et utiliser une librairie
* Utiliser le gestionnaire PIP
9. Maîtriser la librairie Numpy
* Créer un tableau et sélectionner des valeurs
* Opérations sur un tableau
* Analyse et manipulation d’un tableau
* La fonction arange
10. Maîtriser la librairie Pandas
* Créer un premier DataFrame
* Comprendre la composition d’un DataFrame
* Navigation et création d’une boucle dans un DataFrame
* Data Cleaning
* Premières analyses avec Pandas
* Introduction au Feature Modeling
* Rassembler plusieurs jeux de données dans un DataFrame
* Gestion des dates
* Modifier le paramétrage de Pandas
11. Apprendre la Data Visualisation
* Créer son premier graphique
* Gestion du multi-graph
* Types de graphiques :
* Bar chart
* Histogramme de répartition
* Nuage de points et scatter matrix
* Utilisation de la librairie Seaborn
12. Maîtriser les API pour extraire de la data
* Qu’est-ce qu’une API ?
* Le format JSON
* Comment requêter une API en Python ?
* Transformer du JSON en DataFrame
* Dynamisation du paramétrage des appels API
13. Apprendre le Web Scraping
* Qu’est-ce que le Web Scraping ?
* La librairie BeautifulSoup
14. Maîtriser le langage SQL
* Introduction au SQL
* Filtres sur une base de données
* Tri et calculs en SQL
* GROUP BY et les alias
* Concepts de clé primaire et étrangère
* Jointures en SQL
15. Une première approche de la statistique descriptive
* Types de variables
* Statistiques de base
* Qu’est-ce que la loi normale ?
16. Le Machine Learning
* Le concept du Machine Learning
* Comprendre le type de problème à résoudre
* Data Cleaning :
* Analyse de la valeur à prédire
* Vérification du format des colonnes
* Gestion des valeurs manquantes
* Correction des problèmes logiques des colonnes
* Data Modeling :
* Concept de la régression linéaire
* Split du jeu de données entre entraînement et test
* Création d’un premier modèle uni-varié
* Normalisation des variables et mise en pratique
* Le dilemme biais-variance
* Gestion des variables catégorielles
—————————————-
Cours 2 – Machine Learning : Concepts et Projets Pratiques
1. Introduction et notions transverses
* Qu’est-ce que la Data Science ?
* Machine Learning par secteur d’activité
* Machine Learning par type d’application
* Déroulement d’une étude en Data Science
* Méthodes descriptives et prédictives
* Vocabulaire en Data Science
* Environnement de développement
* Pré-requis :
* Feature Scaling
* Gestion des valeurs manquantes
* Construction et évaluation d’un modèle de Machine Learning
2. Machine Learning supervisé
Régression :
* Régression linéaire simple et multiple
* Arbres de décision
* Forêts aléatoires (Random Forest)
* Intuition
* Représentation graphique
* Fine tuning
* Avantages et inconvénients
* Cas d’application
* Hyper-paramètres
* Code Python : démo, exercices et corrections
* Autres algorithmes :
* XGBoost (Extreme Gradient Boosting)
* KNN (K-Nearest Neighbors)
* SVM (Support Vector Machine)
Classification :
* Régression logistique multiple
* Arbres de décision
* Forêts aléatoires (Random Forest)
* XGBoost (Extreme Gradient Boosting)
* KNN (K-Nearest Neighbors)
* SVM (Support Vector Machine)
3. Notions transversales disséminées dans le cours
* Validation croisée et Bagging
* Imputation des valeurs manquantes
* Hyper-paramètres (Hyperparameter Tuning)