ETL des données + Fonctionnalités cloud de MLOPS - QC-890
Project type: InnovationDesired discipline(s): Engineering - computer / electrical, Engineering, Computer science, Mathematical Sciences, Statistics / Actuarial sciences
Company: Ayata.A
Project Length: 4 to 6 months
Preferred start date: 07/06/2026
Language requirement: Flexible
Location(s): Montreal, QC, Canada
No. of positions: 2
Desired education level: Undergraduate/BachelorMaster'sPhDPostdoctoral fellowRecent graduate
Open to applicants registered at an institution outside of Canada: No
About the company:
Ayata développe des logiciels qui aident les entreprises à prendre des décisions plus éclairées quant à leur avenir. Parmi nos clients figurent certaines des entreprises les plus grandes au monde.
La technologie d'Ayata est multimodale par nature. Notre logiciel breveté analyse des données hybrides – une combinaison de données structurées et non structurées – afin d'anticiper les tendances et de recommander comment tirer parti de ces perspectives en respectant les priorités. Nous intervenons dans les secteurs de l'énergie et de l'assurance.
Describe the project.:
Ce projet vise à établir une plateforme ETL et MLOps de données de niveau production pour accompagner l’entreprise dans sa transition d'une approche par projet vers une offre de produits reproductibles dans les secteurs de l'énergie et de l'assurance. L'objectif est de mettre en place des pipelines de données et d'analyse fiables, automatisés et sécurisés, permettant le développement, le déploiement et la surveillance des modèles à grande échelle.
L'innovation vise la conception d'une plateforme de données et d'apprentissage automatique unifiée cloud, intégrant l'ingestion de données hétérogènes, un versionnage robuste et le MLOps couvrant le cycle de vie des données. Les avancées comprennent des pipelines CI/CD standardisés reliant AWS et GitHub, des flux de travail automatisés pour l'entraînement et le déploiement des modèles, ainsi que des frameworks d'expérimentation permettant une itération rapide. La couche ETL sera conçue pour traiter des données multimodales (structurées, semi-structurées et non structurées) issues de différents domaines, en considérant la sécurité, la conformité et l'extensibilité. Les principales tâches incluent :
• Concevoir et implémenter des pipelines ETL modulaires pour diverses sources et formats de données
• Établir des stratégies de stockage et de versionnage des données sécurisées
• Développer des pipelines CI/CD pour les flux de travail de données et de ML (intégration GitHub + AWS)
• Créer des pipelines automatisés pour l’entraînement, la validation, le déploiement et la surveillance des modèles
• Mettre en place des frameworks d’expérimentation et de suivi
• Garantir l’observabilité, la performance et la conformité dans tout l’environnement
Le projet mise sur des méthodologies et des outils MLOps modernes, notamment l’infrastructure en tant que code, la conteneurisation, l’orchestration (Kubernetes), les frameworks de pipelines et les outils d’expérimentation. L'accent sera mis sur l'architecture modulaire, les meilleures pratiques DevOps/MLOps et les principes de sécurité dès la conception afin de permettre une réutilisation interdomaines.
Required expertise/skills:
Programmation et ingénierie des données
• Python avancé (pandas, NumPy, pydantic, FastAPI)
• Frameworks ETL : Apache Airflow, Dagster ou Prefect
• Traitement des données : PySpark, Dask
• Développement d’API et ingestion (REST, streaming, batch)
MLOps et cycle de vie du ML
• Développement de modèles : scikit-learn, PyTorch/TensorFlow
• Suivi et registre des expériences : MLflow, Weights & Biases
• Packaging et déploiement des modèles : FastAPI, BentoML, KServe
• Monitoring : détection des dérives, journalisation, métriques de performance
CI/CD et DevOps
• Gestion de versions : Git/GitHub
• CI/CD : GitHub Actions, Jenkins
• Conteneurisation : Docker
• Orchestration : Kubernetes
• Infrastructure as Code : Terraform
Gestion et stockage des données
• Lacs de données/entrepôts de données : AWS S3, Athena, Redshift
• Versionnage des données DVC, LakeFS
• Schéma et validation : Great Expectations, pydantic
• Ingestion multiformat (CSV, JSON, Parquet, séries temporelles, documents)
Cloud et sécurité
• Services AWS : S3, EC2, Lambda, SageMaker
• Gestion des identités et des accès (IAM), chiffrement, pipelines de données sécurisés
Pratiques d'ingénierie logicielle
• Architecture modulaire, tests (pytest), qualité du code
• Bonnes pratiques MLOps : reproductibilité, surveillance, amélioration continue
Atouts
• Connaissance du domaine : systèmes de données pétroliers et gaziers ou d'assurance
• Expérience des séries temporelles et de détection d'anomalies
• Familiarité avec les architectures événementielles (Kafka, EventBridge)

