Assistant Data Scientist – fouille de documents H/F

  • 12 January
  • Ile-de-France
  • Stage
Crédit Agricole SA
Au sein du Pôle Développement Clients et Innovation, le DataLab Groupe Crédit Agricole est un centre de compétences dédié aux sciences de la donnée et à leurs applications dans le domaine bancaire.

Son rôle est de créer des approches innovantes pour la valorisation de la donnée interne et externe, qu'elle soit structurée ou non structurée.

Dans le cadre de ses missions, des thématiques scientifiques à forte valeur ajoutée sont étudiées : Apprentissage Automatique, Auto-ML, Traitement du Langage Naturel, Process Mining, Time Series Mining, Deep Learning, Géomatique, etc.

Ces activités sont menées conjointement avec des partenaires internes : les Caisses Régionales, les Entités du Groupe et les Producteurs Informatiques.
Le DataLab développe également un réseau de partenaires externes lors de missions industrielles (Editeurs de logiciels, startup, SSII, etc.) ou de collaborations universitaires.


Dans le cadre de ce stage, vous rejoindrez l'équipe Data Science afin de contribuer à la valorisation de la Data et participer à la mise en place d'approches innovantes au service des Clients du Groupe.

Descriptif de la mission :

Contexte et objectifs du stage :

Les données de type documents scannés sont très présents dans le monde bancaire et leur volume croissant implique la recherche de méthodes de traitement améliorant leur analyse, classification pour des fins d'archivage, traitement et audit.

L'objectif du stage consiste à concevoir et développer une solution automatique de classification de documents (scannés de type image) en se basant sur des approches de type Deep Learning.
Cette solution permettra notamment de réduire les délais de traitement des dossiers dans le but d'améliorer la satisfaction client.

Un premier développement ayant été effectué au DataLab, l'objectif du stage sera de :

- Prendre en compte la qualité de la base annotée manuellement pour améliorer les performances


- Enrichir les développements par des approches de l'état de l'art.

Organisation et livrables :

Pour ce faire, le stage se déroulera en quatre étapes principales, sous l'encadrement de Data Scientists Seniors :

- Réalisation d'un état de l'art sur la classification de documents scannées


- Sélection et implémentation des algorithmes les plus adaptés à la problématique


- Proposition et développement d'un nouvel algorithme à partir des travaux menés au DataLab


- Réalisation d'une étude comparative sur des bases de données réelles et artificielles.


Des interactions avec des services métier du groupe seront organisées.

L'étudiant aura accès à des ressources de calcul importantes pour réaliser sa mission (GPU).

Formation:

Universités, Ecoles d'ingénieurs.

Spécialisation :

Formation comportant une dominante en Vision par ordinateur, Data Science, Machine Learning, Deep Learning, Intelligence artificielle, incluant de solides connaissances en développement logiciel.