Les difficultés du Big Data

Si les décideurs sont convaincus qu’il faut que leurs entreprises mettent en place un projet Big Data, ils ne savent pas « quoi demander », ni « quels seront les résultats » sur lesquels ils pourront compter. 4 raisons pour lesquelles les projets Big Data rencontrent des difficultés du fait de :
– La compréhension de ce qu’est le Big Data
– L’analyse de la donnée
– L’analyse prédictive
– L’outillage d’analyse et de stockage.

Le Big Data c’est quoi ?

Le Big Data a pour objet de manipuler de grands volumes de données enregistrées dans le passé, pour en déduire des comportements spécifiques, et ainsi améliorer l’efficacité des approches marketing dans le futur. Le Gartner Group choisit de définir le Big data avec les 3V: Volume, Vélocité, Variétés. Un projet Big Data implique de travailler sur les plans métiers et techniques : pour traiter les données, la variété des contenus structurés et non structurés (Audio, Video, ….) et gérer la dispersion des bases de données. Certes le projet intègre plusieurs éléments techniques d’importance et impose des infrastructures informatiques spécifiques, mais la pierre angulaire du projet repose sur la qualité de l’analyse des données et des hypothèses qui vont être retenues.
lecture recommandée CRM et Big Data pour booster vos ventes

Que peut-on attendre du Big Data ?

Au-delà de caler au plus près les approches marketing sur des comportements prédictifs, le Big data va impacter tout le fonctionnement de l’entreprise en
– améliorant l’expérience client;
– optimisant les processus ;
– augmentant la performance opérationnelle;
– alignant le business model sur les comportements.

L’analyse prédictive

L’analyse prédictive est aux usages ce que Hadoop/Spark est aux technologies. Pour sa réélection, le staff de Barack Obama a largement fait appel au Big Data pour identifier les quartiers susceptibles d’être réceptifs aux actions de porte-à-porte et le discours à y tenir par les militants en fonction de critères comme l’analyse sociodémographique des quartiers, la corrélation des votes en fonction de l’analyse des votes précédents par zone géographique et la corrélation avec les sondages d’opinion. Sur des bases identiques, cette analyse pourrait déterminer le nom du prochain Président des Etats Unis d’Amérique. Les systèmes qui permettent à la machine « d’apprendre » sont dits supervisés ou non-supervisés, le supervisé intègre un algorithme Bayésien, celui utilisé pour déterminer qu’un mail est un spam ou pas. A partir de mots-clés, le système « se détermine » spam ou pas spam. Le système non supervisé repose sur un algorithme de type Latent Dirichlet Allocation (LDA).
lecture recommandée Big data et analyse prédictive RH

Outillage de collecte, de traitement et d’analyse

Là où les choses se compliquent, c’est au niveau infrastructure IT et outillage informatique.
1 – Les bases de données relationnelles ne répondent pas aux impératifs du Big data
2 – Les données sont réparties sur plusieurs localisations physiques
3 – Les données à 85% sont issues de supports non structurés : Audio, Vidéo, photos…..
Pourquoi NoSQL est la base de données adaptée pour le traitement des Big Data ?
La gestion de grands volumes de données impose de disposer de machines puissantes et de démultiplier la puissance en ajoutant des machines. Mais les bases de données relationnelles ne sont pas adaptées pour tourner sur plusieurs machines. Dans la base de données «NoSQL» les données portent leur propre cohérence.
Quel modèle de stockage choisir?
Key/Value store
: sur chaque ligne est enregistrée une paire constituée d’un identifiant associée une donnée quelle que soit sa nature ; Document store : base de donnée orientée document : c’est le modèle le plus familier, puisque c’est le principe des bases de données XML ou des moteurs de recherche. Column Store : les données sont enregistrées sous forme colonne.
C’est quoi Hadoop ?
Pour pouvoir utiliser toute la puissance de calcul à disposition, le principe «map reduce» permet de faire tourner un process sur plusieurs processeurs. Le second principe «clustering» fait la même chose en répartissant le process sur plusieurs machines. Hadoop intègre en natif ces deux principes.
Hadoop est il dépassé ?
Dans les environnements « temps réel », la latence de Hadoop est pointée du doigt par les experts qui lui préfèrent SPARK.
Vous aimerez aussi Qu’est-ce que la Transformation Numérique?

Comment mettre en œuvre ces techniques

De nombreux outils apparaissent sur le marché ayant pour objectif d’industrialiser le développement et l’exécution de chaînes de traitement de données et d’étendre les fonctionnalités en ajoutant de nouveaux modules. Ils permettent d’organiser des traitements simples, de manière successive afin d’aboutir à un processus complexe. La plupart de ces outils offrent des interfaces graphiques de développement et de supervision des traitements. Parmi ces outils, citons les ETL, les data pipelines, et les systèmes de gestion de workflow.

** Lire l’étude du Gartner Group http://www.gartner.com/newsroom/id/2848718