Réaliser un projet en data science en 5 étapes

14 décembre 2023

Data science

Lucile Brun

Que faut-il pour démarrer un projet en data science ?

①Un problème à résoudre
②Des données

Si vous avez les deux, on peut dire que le plus dur est fait ! Il ne vous reste plus qu’à trouver le bon data scientist pour analyser vos données et tenter de résoudre votre problème ! Si vous êtes dans ce cas, sautez directement à l’étape 3.
Mais vous n’avez peut-être pas cette chance…

Étape 1 : Collecter des données

« J’ai un problème, je cherche des données »

Lorsque vous avez un problème bien identifié, mais que vous n’avez pas les données, la suite consiste naturellement à collecter les données. Mais attention, trop ou trop peu de données peuvent engendrer des contraintes sur la réalisation du projet. Voici donc quelques bonnes questions à se poser :
– De quels types de données ai-je besoin ?
– Quelle quantité ?
– Quelle est la variabilité de ces données dans la vie réelle ? Leur représentativité.
– Ces données sont-elles accessibles facilement ? Sont-elles structurées ?
Les data scientists peuvent vous accompagner dans la stratégie de collecte des données. Cela permet d’anticiper les contraintes liées au produit à développer, au stockage des données, mais aussi aux aspects réglementaires sur la protection des données personnelles (RGPD), et enfin sur la règlementation européenne de l’usage de l’IA (AI Act).

A l’inverse, vous vous trouvez peut-être dans le cas où vous produisez des données tous les jours, et aimeriez bien savoir à quoi elle pourrait vous servir ? Ce que peuvent apporter ces données à votre entreprise, ou à la société ?
Sachez que toutes les données que vous produisez peuvent être utiles !

Étape 2 : Identifier un besoin

« J’ai des données, je cherche des problèmes »

Une simple visualisation de ces données peut parfois faire ressortir une évidence. De même, le croisement de plusieurs informations offre une vue différente pas toujours intuitive et faisant apparaitre de nouvelles informations. L’audit de vos données est donc une étape indispensable pour analyser rapidement les connaissances disponibles et leur potentiel de création d’un nouveau savoir.
Le besoin peut aussi venir de vos clients/patients/utilisateurs ou bien exister en interne. Dans tous les cas, l’identifier nécessite souvent une prise de recul sur votre activité, voire même un regard extérieur naïf de votre métier mais avec une connaissance technique qui vous aiguillera sur ce qu’il est possible de faire techniquement pour améliorer votre quotidien, ou votre business.
Parlez de votre activité autour de vous, entourez vous d’experts en data, faites appel à des yeux extérieurs pour un audit de vos besoins.

Étape 3 : Identifier les bonnes compétences

Un tel projet requiert diverses compétences techniques autour de l’analyse de données : notamment en programmation, en résolution de problème, en algorithmie et en machine learning pour l’implémentation des modèles ; des connaissances en statistiques et mathématiques sont également indispensables pour comprendre et interpréter ces modèles.
Aujourd’hui, la data science fait intervenir ces spécialités à des niveaux de plus en plus pointus, nécessitant la maîtrise d’outils toujours plus sophistiqués, et un état de l’art en augmentation vertigineuse. Ces pourquoi ces compétences peuvent être portées par différentes personnes, chacune experte dans une ou plusieurs de ces spécialités. Par exemple, certains data scientists sont experts de la manipulation d’ensembles de données volumineux (big data) qui requiert des outils spécifiques de gestion de mémoire et de traitement distribué. D’autres sont experts de la visualisation des données, impliquant des notions de design et de communication pour mettre en valeur les connaissances portées par les données de manière claire et informative. De manière générale, on peut lister les expertises suivantes : data engineer, data scientist, data analyst, data visualisation, ingénieur IA, ML ops. On en vient alors à constituer une équipe pluridisciplinaire et complémentaire, dont chaque membre interviendra à différentes étapes clés du projet. C’est aussi la meilleure façon d’éviter le fameux syndrome de « la tête dans le guidon » !
Bien entendu, ces experts ne savent pas tout. Les connaissances métiers, c’est-à-dire ce qui porte sur la compréhension du domaine d’application, ses enjeux et ses contraintes, doivent être intégrées dans le projet. Si elles ne sont pas portées par le client, elles doivent être acquises par l’équipe en amont du projet.

Étape 4 : Budgétiser le projet

Le coût d’un projet est très variable. Il va dépendre de sa durée, de sa complexité et des niveaux d’expertise engagés.
Les projets impliquant de l’intelligence artificielle ou l’analyse de données non structurées seront plus chers. L’utilisation de services cloud sur des serveurs dédiés ou l’utilisation de logiciels spécifiques sous licences peuvent également s’ajouter au coût. Cependant les coûts de main-d’œuvre représentent souvent la part la plus importante du budget global.
Pour donner une idée, d’après le baromètre des métiers de la plateforme MALT , le TJM moyen d’un data scientist freelance est de 654€ (en déc. 2023). Selon le niveau d’expérience, il se situe entre 345€ (0-2 ans d’expérience) et 780€ (15 ans et + d’expérience).

Étape 5 : Dérouler le projet

Une fois le problème bien identifié, les données collectées et l’équipe de data scientists constituée, il ne reste plus qu’à faire tout le reste ! Voici le déroulé type d’un projet en data science :

Préparation des Données
• Nettoyage des données (gestion des valeurs manquantes, des doublons, etc.).
• Structuration des données (bdd, data lake, etc.)
• Exploration des données (EDA – Exploratory Data Analysis).
Choix des Outils et des Technologies
• Sélection des outils et technologies adaptés au projet (langages, frameworks, etc.).
• Mise en place d’un environnement de travail collaboratif.
Développement des Modèles
• Choix des modèles et des algorithmes.
• Entraînement, évaluation et optimisation des modèles.
Déploiement et Monitoring
• Déploiement du modèle en production.
• Mise en place d’un système de monitoring pour suivre la performance du modèle.

Un projet coconstruit est un projet réussi ! Une communication entre le client et l’équipe via un suivi régulier est primordiale pour que le projet suive la bonne direction.

Encore mieux, une fois le projet ficelé, un accompagnement peut être mis en place pour d’une part transmettre la connaissance, la maîtrise du code, et rendre le client autonome sur son produit, et d’autre part pour réaliser les correctifs et mises à jour tout au long du cycle de vie du produit.

Sources

La RGPD : de quoi parle-t-on ? : https://www.cnil.fr/fr/rgpd-de-quoi-parle-t-on
Loi sur l’IA de l’UE : première réglementation de l’intelligence artificielle : AI Act : quels objectifs ?
Le baromètre des tarifs freelances : https://www.malt.fr/t/barometre-tarifs/expert-data/data-scientist

Lucile Brun