Description

Ingénieur Data Senior avec plus de 5 ans d'expérience dans la construction et l'optimisation de plateformes de données à grande échelle. Solide expertise en Python, PySpark, Databricks, AWS et Terraform. Capable de travailler en autonomie, en collaboration étroite avec les équipes métiers, et de livrer des solutions de données fiables et rentables.

CERTIFICATIONS

•Databricks Certified Data Engineer Associate
•AWS Cloud Practitioner Certification

Domaines d’expertise

Langues

Français
Bilingue ou natif
Anglais
Bilingue ou natif
Arabe
Bilingue ou natif
Japonais
Capacité professionnelle limitée

Préférences en matière de lieu de travail

Accepte de travailler sur site

Paris (jusqu’à 20 km)

CodeBusters: missions chez Engie
Data Engineer
ENERGIE
mai 2023 - Aujourd'hui (3 ans et 1 mois)
Paris, France
Conception et déploiement de pipelines de données pour l'analyse de consommation énergétique.
•Développement de solutions ETL personnalisées avec Databricks et AWS
•Migration de pipelines Dataiku vers Delta Lake
•Mise en place d'ingestion quotidienne avec Autoloader
•Optimisation des jobs Spark pour réduire les coûts de traitement
•Automatisation des déploiements avec Terraform et CI/CD
Spark AWS SQL Databricks Terraform
CodeBusters: missions chez AXA IM
Data Engineer
BANQUE & ASSURANCES
mai 2022 - mai 2023 (1 an)
Paris, France
Cette mission fait partie d'un projet de création et maintenance d'un Datalake visant à faciliter les investissements durables.

Ingestion : Mise en place de pipelines d'ingestion de données à partir d'APIs et de serveurs FTP vers Azure Gen2 Datalake, dans des formats tels que CSV, Parquet, etc. (Azure Data Factory).

Transformation : À partir des données brutes dans le Datalake, transformation des fichiers bruts en tables delta. Plusieurs opérations de transformation sont effectuées, allant du nettoyage au calcul de KPI (par exemple, déterminer si un émetteur de titres est conforme aux émissions de GES) (Spark).

Distribution : Cascade des données brutes vers différentes parties du système financier : titres, obligations, fonds communs de placement, etc. Cette cascade de données est gérée par le biais de plusieurs jobs orchestrés organisés via Azure Data Factory.

Technologies utilisées : Scala, Python, Spark, Azure : DataLake Gen2, Azure Data Factory, Azure DevOps.
Azure Data Factory Python Spark Microsoft Azure
Yanport
Data Scientist
IMMOBILIER
septembre 2019 - septembre 2021 (2 ans)
Levallois-Perret, France
Développement de pipelines de données immobilières et de modèles ML de tarification.
Scraping de données de portails immobilliers

Nettoyage et détection de valeurs aberrantes dans les données pour garantir leur qualité.

Ingestion et stockage des données dans ElasticSearch pour une gestion efficace des données.

Generation de rapports visualisables sous Kibana

En collaboration avec des Data Scientist; modélisation, teste et mise en production de modèles de Machine Learning (arbres de décisions avec technique de boosting - Gradient Boosting Random Forests).

“Fine-tuning" de l’algorithme augmentant la précision de 90 à 96%
Elasticsearch Data visualisation SQL Java Google cloud