
Python Big Data
Description
Cette formation est la suite logique de la formation Python Scientifique. Elle vous permettra de traiter, analyser et visualiser vos données les plus volumineuses avec les librairies Python Dask et xarray. Les notions liées à l’utilisation des librairies sont présentées de manière progressive. Afin que les participants s’approprient les notions présentées, plusieurs exercices pratiques sont proposés tout au long de la formation.
Public concerné
Ingénieurs, développeurs, scientifiques, enseignants, etc.
Objectifs de la formation
A l’issue de la formation, le stagiaire sera capable de :
- Traiter de grandes quantités de données avec Dask
- Faire du multiprocessing avec Dask
- Manipuler des données avec la librairie xarray
- Réaliser des représentations graphiques avec xarray
Prérequis
Pour suivre efficacement cette formation, les stagiaires doivent avoir :
- Une solide maîtrise de Python: Compréhension des structures de données (listes, dictionnaires, tableaux NumPy), des fonctions, des modules, des classes et des concepts d'orientations objet.
- Une bonne connaissance des bibliothèques scientifiques Python: Notamment NumPy, Pandas et Matplotlib, pour la manipulation et la visualisation de données.
- Des notions de base en algèbre linéaire et en statistiques: Ces connaissances sont essentielles pour comprendre les concepts sous-jacents aux algorithmes utilisés en analyse de données.
- Une compréhension des concepts de parallélisme et de concurrence: Bien que ce ne soit pas obligatoire, des connaissances de base sur ces sujets peuvent être utiles pour mieux appréhender les concepts de Dask
Programme de la formation
Dask
- Introduction
- Exploiter Dask Array
- Exploiter Dask DataFrame
- Profiter de l’architecture multi-coeurs des ordinateurs pour accélérer l’analyse de données
xarray
- Introduction
- Créer des DataArrays
- Manipuler les DataArrays
- Utiliser les « Fonctions universelles »
- Représentation graphique
- Créer des DataSets
- Paralléliser des calculs