Quels logiciels pour le Big Data?

Les logiciels Big data

Le traitement des masses de données numériques provenant de différents canaux requiert des outils informatiques spécifiques. Il en existe plusieurs, dont la plupart sont basés sur le concept Open Source. Le point sur les outils Big Data les plus en vue. 

1. Hadoop, l’outil Big Data par excellence 

Hadoop est un framework open source permettant de créer des applications capables de stocker et de traiter une masse importante de données en mode batch. Cette plateforme libre a été inspirée de MapReduce, Big Table et Google FS. Concrètement, Hadoop est constitué d’une partie destinée au stockage des données baptisée Hadoop Distributed File System ou HDFS et d’une partie assurant le traitement des informations: MapReduce. Hadoop a été développé pour traiter une quantité importante de données en les fractionnant en blocs répartis entre les nœuds du cluster. C'est proablement l'outil le plus utilisé par les Chief Data Officer.

Plusieurs outils de cloud computing comme Azure HDInsight de Microsoft Azure ou Amazon Elastic Compute Cloud permettent d’utiliser Hadoop pour stocker et analyser les données. Sur Azure HDInsight, les entreprises sont facturées en fonction du nombre de nœuds exécutés.  

2. Les logiciels orientés colonne 

Certains logiciels Big Data utilisent des bases de données NoSQL orientées colonne pour optimiser la flexibilité du traitement des informations. Ils gagnent ainsi en performances en termes d’écriture et de lecture des données, mais perdent en possibilités de requêtage. Toutefois, ces logiciels trouvent de nombreuses utilisations comme la mise au point d’offres tarifaires complexes ou l’analyse des tendances avant le lancement d’un produit ou d’un service. HBase de Cloudera, MongoDB et Cassandra font partie des références parmi ces logiciels.  

3. Le «machine learning» 

Le machine learning met l’intelligence artificielle au service du Big Data. Il s’agit de systèmes utilisant des algorithmes pour apprendre des données reçues. Le moteur de recommandation d’Amazon.com est l’un des exemples les plus représentatifs de cette technologie. En effet, il analyse le profil des utilisateurs, dont leur comportement, afin de les classer dans diverses catégories. L’objectif est de leur proposer ensuite des offres susceptibles de les intéresser.

Mahout de la fondation Apache fait aujourd’hui figure de leader incontesté dans ce domaine.  

4. Le Big Data en temps réel 

Les fournisseurs de logiciels tendent aujourd’hui à proposer des solutions permettant de traiter les informations rapidement, voire en temps réel. De nombreux projets visent à développer des outils offrant les mêmes avantages que MapReduce tout en étant rapides. Spark de la fondation Apache, Storm de Twitter et le logicielS4 de Yahoo ne sont que des exemples parmi tant d’autres.  

5. Les logiciels de Web Analytics 

Aujourd’hui, les propriétaires de sites marchands ou de blogs ont la possibilité d’obtenir des informations détaillées sur leurs visiteurs grâce à des logiciels spécialisés. Les plus connus comme Google Analytics ou Adobe Analytics utilisent la suite open source «R» pour l’analyse des données recueillies. Les sites web peuvent utiliser les rapports générés par ces logiciels pour optimiser leurs performances. 

 En savoir plus :

Le Data Mining, Qu'est-ce que c'est?