Qu'est-ce que le Data Mining? La définition

L’explosion des données numériques offre aux entreprises et aux collectivités la possibilité de les exploiter pour atteindre leurs objectifs. Le data mining ou exploration des données rassemble les différentes méthodes permettant de collecter et d’analyser les informations obtenues.  

1. Dans quel but ?

Le data mining doit poursuivre des objectifs bien définis. Les sites marchands y ont par exemple recours pour déterminer le comportement des visiteurs afin de dégager des tendances. Les résultats des analyses leur permettent de définir les stratégies de fidélisation à adopter, notamment l’octroi d’une carte de fidélité, mais aussi les offres complémentaires aux recherches des acheteurs.

Les services de police peuvent également l’utiliser afin de déterminer le profil type des criminels ou les risques pour la population. Ainsi, les objectifs diffèrent selon les activités de l’utilisateur.  

2. Quelles données utiliser ?

La collecte des données est une phase essentielle du data mining. Elle peut suivre un processus assez long et coûteux.

En effet, les informations peuvent provenir aussi bien de départements intrinsèques à l’entreprise ou des statistiques sur les visiteurs d’un site que de l’extérieur. Le plus important est qu’elles soient fiables et pertinentes pour refléter les tendances du marché. Les informations douteuses doivent donc être éliminées pour ne pas fausser les résultats. Ainsi, les valeurs extrêmes, les doublons et les chiffres pouvant induire en erreur sont éliminés de la base de données.

Les échantillons analysés doivent également être représentatifs du marché. 

3. Comment les analyser ?

L’analyse des informations collectées est l’un des aspects les plus importants du data mining. Elle repose sur des outils informatiques ou statistiques intégrant des algorithmes facilitant le traitement d’une grande quantité de données. Des logiciels comme R, SPSS, RapidMiner, Oracle DM ou Statistica sont aujourd’hui utilisés par les prospecteurs de données. Il est possible de varier les échantillons, de changer de technique d’analyse ou de rajouter d’autres données exploitables en fonction de l’objectif qu’on s’est fixé. 

4. Qu’en est-il des résultats ?

Il est conseillé d’utiliser différentes méthodes d’analyse avant de se prononcer sur les résultats.

Si ces derniers ne sont pas satisfaisants, il est possible de reprendre depuis le début en formulant différemment la problématique à résoudre. Il va de soi que la définition de nouveaux objectifs s’accompagne d’un enrichissement des données à analyser.

Les résultats sont ensuite formalisés pour être exploitables par les décideurs. Leur interprétation relève de la compétence du CDO (diplômé d'un master big data) et des dirigeants de l’entreprise ou de la collectivité.