Plongeon dans les données: des données structurées aux données non structurées
Comprendre les types de structures de données
En data science, les données sont la matière première nécessaire à tout projet. Cette matière première se présente souvent sous deux formes opposées : les données structurées et les données non structurées.
Qu’est ce qu’une donnée structurée ?
Une donnée structurée est une donnée qui a été prédéfinie et formatée selon une structure précise. Plus précisément, elle respecte un précis, qui décrit la manière dont sont représentées les données dans un système d’information.
Exemples de données structurées
-
des données qui sont formatées suivant des schémas normalisés : dates, adresses, code-barres, …
-
des données organisées dans un format de fichier précis : une feuille de calcul d’un tableur, une table dans une base de données , des données d’imagerie médicale formatées suivant un protocole précis, …
Quels avantages à utiliser des données structurées ?
Leur nature organisée facilite la saisie de nouvelles données, la recherche dans un ensemble de données, ainsi que leur manipulation et analyse. Ces propriétés leur confèrent les avantages suivants :
-
Un traitement facile par les utilisateurs : un utilisateur n’a pas besoin de connaissances approfondies des différents types de données ou de leur relations, pour comprendre et manipuler ce type de donnée.
-
Un traitement algorithmique simplifié : le principal avantage des données structurées réside dans le fait qu’elle rendent possible de manière facile et efficace leur traitements par des algorithmes, comme ceux utilisés en data science et en machine learning. Cela est particulièrement vrai dans un contexte de big data ou le volume et la variété des données est importante : les requêtes pour interroger les données structurées sont rapides et efficaces.
-
Davantage d’outils accessibles : Étant historiquement la seule option existante pour le traitement de données, de nombreux outils prennent en charge les données structurées, ce qui facilite leur consommation, gestion, manipulation, analyse et maintenance :
-
pour des utilisateurs : tableurs, logiciels de planification de ressources, logiciels de visualisation de données, …
-
pour les praticiens de la donnée : , langages de requête comme , langages de traitement de données comme , …
-
Quels inconvénients à utiliser des données structurées ?
-
Un but prédéfini en limite l’utilisation : une donnée avec une structure prédéfinie ne peut être traitée que pour la finalité à laquelle elle est destinée. Cela limite sa flexibilité et ses cas d’usage.
-
Des options de stockage limitées : les données structurées sont généralement stockées dans des systèmes d’informations aux schémas rigides, comme les (entrepôts de données). Un changement dans les spécification de ce type de données nécessite la mise à jour de ces systèmes d’information, processus généralement coûteux en terme de temps et de ressources financières. En particulier, les entrepôts de données sont difficiles à faire évoluer pour de nouvelles applications non prévues au moment de leur mise en place.
-
Une contrainte structurelle pour les organisations : la nature rigide des systèmes d’information gérant les données structurées contraint souvent les organisations à adopter une structuration de leurs données assez figée et standardisée, qui ne reflète pas toujours ses besoins et leur évolution au fil du temps.
Exemples de cas d’usage
-
Utiliser des données structurées contenant des informations sur les caractéristiques de patients pour entraîner un algorithme pour la prédiction d’efficacité d’un traitement.
Qu’est ce qu’une donnée non structurée ?
Une donnée non structurée est une donnée qui n’a pas été formatée suivant une structure précise (et ne respecte pas de modèle de données spécifique): elle est généralement encodée dans des formats de fichiers de formes et de tailles variables, et stockée de manière brute. Son exploitation nécessite généralement des pré-traitements pour la rendre analysable.
Auparavant plus plébiscitée, l’usage des données structurées diminue au profit des données non structurées: les organisations tendant vers des stratégies de gestion de la données plus orientées vers les données non structurées, en particulier pour des applications liées à la data science et au machine learning.
Exemples de données non structurées
-
les données encodées dans des fichiers de documents (traitement de texte, présentations, …)
-
les données textuelles, les images et vidéos, …
Quels avantages à utiliser des données non structurées ?
-
La flexibilité de leur finalité : les données non structurées étant stockées dans leur format d’origine, leur structure n’est définie qu’au moment ou l’on en a besoin : pour la rendre analysable, les praticiens de la donnée leur appliquent des pré-traitements spécifiques au besoin. De cette manière, la finalité de ces données est facilement adaptable à un plus grand nombre de cas d’usages.
-
Une accumulation plus flexible et rapide : l’absence de structure prédéfinie impose moins de contraintes dans les systèmes d’information utilisés pour stocker les données non structurées. Il est ainsi plus facile et rapide de récolter des volumes et variétés de données plus importants.
-
Un stockage dans des systèmes d’informations plus évolutifs: les données non structurées sont souvent stockées dans bases de données non relationnelles ), plus flexible que les bases de données relationnelles, car elles permettent de stocker, rechercher et manipuler des données de formats variables. Les (lac de données) sont souvent les systèmes d’informations utilisés par les organisations pour agréger leurs données non structurées stockées dans les bases de données NoSQL.
Quels inconvénients à utiliser des données non structurées ?
-
Expertise en data science : Le principal inconvénient des données non structurées est que leur préparation et leur analyse nécessitent une expertise en data science. Plus spécifiquement, l’exploitation de données non structurées nécessite généralement une connaissance du domaine relatif à ces données de manière à pouvoir les lire, les rechercher ou encore les agréger pour des analyses.
-
Outils spéciaux: En plus de l’expertise requise, les données non structurées nécessitent des outils spéciaux pour les manipuler, les outils de données standards, accessibles aux non spécialistes, ont généralement été conçus pour des données structurées.
-
Recherche dans les données moins efficaces : Du fait des systèmes d’informations utilisés pour ces données, les recherches dans des ensembles de données non structurées sont généralement plus lentes et moins performantes, par rapport à des recherches dans des systèmes d’information de données structurées. Cette propriété les rend moins favorables à une exploitation dans un contexte ou le volume des données à rechercher et traiter est important.
Exemples de cas d’usage
-
Utiliser des données non structurées sous forme d’image pour entraîner des algorithmes de machine learning dédié à l’analyse d’image (catégorisation, segmentation de structures, …) pour l’aide au diagnostic ou l’identification d’espèces.
-
Utiliser des données textuelles de documents patients pour extraire des informations concernant des pathologies.
Les données semi-structurées :
Une donnée semi structurée est un type intermédiaire entre la donnée structurée et non structurée : elle n’a généralement pas de structure pré-définie (ainsi que de modèle de donnée) mais possède généralement des métadonnées avec des caractéristiques particulières (tags ou marqueurs). Ces caractéristiques contiennent des informations permettant aux données semi-structurées de pouvoir être cataloguées, recherchées et analysées plus efficacement que des données strictement non structurées.
Exemples de données semi-structurées
-
des formats de données comme le
csv
, lexml
ou lejson
En pratique, lesquelles choisir ?
En fonction du degré de la stratégie de gestion des données dans votre organisations, vous serez probablement confrontés à ces trois types de structuration de données. L’orientation vers un de ces types dépendra de certains facteurs organisationnels comme la variétés des cas d’usages dans votre organisation, la gouvernance des données mise en place, les systèmes d’informations ainsi que les méthodes d’analyses de données utilisés. N’hésitez pas à faire appel à des experts pour vous aider dans votre choix !
Sources