Les 4 sources du Big Data

Paul PetonConsultant formateur spécialiste en data

Pour piloter son activité, l’entreprise doit enrichir ses données avec celles du Big Data (volumes de données sans limite, réponses en temps réel, personnalisation accrue,…). Le Big Data permet ainsi de faire passer l’entreprise de l’analyse reporting à l’analyse prescriptive. Tour d’horizon des quatre sources d’information sur lesquelles s’appuie le Big Data.

L’information produite par l’entreprise (journal des ventes, états des stocks, liste des clients et prospects…) s’organise dans des bases de données (dites de production), elles-mêmes agrégées dans des entrepôts de données (datawarehouse ou datamarts).

Ces données sont ensuite traitées sous forme de cubes décisionnels pour permettre de visualiser des indicateurs de performance sous différentes dimensions (temporelle, géographique, catégories de produits, segmentation client,…).

big-data

« More Data » : plus de que du volume, de nouvelles sources

Une approche Big Data permet d’enrichir les données de l’entreprise avec celles de sources externes. Il n’est pas ici question de tendre vers « l’infobésité » (en accumulant toujours plus d’information non exploitée) mais plutôt de se donner de nouveaux angles de vue sur l’activité de l’entreprise, la conjoncture dans son secteur, ou encore son positionnement sur le Web.

Le Big Data s’appuie sur quatre sources de données :

  • Les « logs » des sites web
  • Les « insights » des médias sociaux
  • Les « third party data »
  • L’Open data

Les « logs » (journaux de connexion) issus du trafic sur le site officiel de l’entreprise

Votre entreprise dispose certainement d’une vitrine sur le Web au travers de son site officiel. Ce site génère du trafic qu’il est indispensable d’analyser. Pour une approche plus fine, et donc plus riche en informations, on disposera des trackers sur les différentes pages afin de mesurer les chemins de navigation, ou encore les temps passés sur chaque page… Voire les déplacements de la souris sur l’écran !

D’autres questions intéressantes, et donc d’autres sources de données, sont les chemins pris par les visiteurs pour parvenir sur le site : moteurs de recherche, annuaires, rebonds depuis d’autres sites…

Citons parmi les solutions d’analyse les plus connues : Google Analytics, Adobe Omniture, Coremetics.

Le contenu et les mesures de réputation (« insights ») issus des médias sociaux

Se définir une identité numérique, animer une communauté sont des pratiques maintenant bien ancrées. C’est une source de données, venant concurrencer les traditionnelles enquêtes par questionnaires.

Attention toutefois au travers des « mesures de vanité », très faciles à obtenir (like, partage, retweet…). Les signaux négatifs sont moins nombreux, mais expriment un geste fort de la part de leur auteur. Pensez donc à mesurer les publications masquées ou les désabonnements (et à y réagir !).

Une approche complémentaire, mêlant méthodes quantitatives et qualitatives, consiste à recueillir les commentaires aux publications et à y appliquer des algorithmes d’analyse de sentiment.

Quelques pistes pour suivre vos différents comptes : Hootsuite, Radian6 ou encore les API mises à disposition et interrogées avec le complément Power Query pour Excel, IRaMuTeQ pour l’analyse de données textuelles.

La « third party data » : des données comportementales pour mieux cibler

Des acteurs spécialisés du Web vous aident à collecter de l’information sur vos clients ou prospects et à améliorer ainsi les campagnes de communication. Les données sur les internautes (third party data) sont récoltées par ces entreprises via des formulaires ou des cookies. Au-delà des classiques informations d’identité (sexe, âge, CSP…), il est maintenant beaucoup plus efficace de mesurer les comportements (navigation, configuration matérielle, temps passé sur les pages…).

Quelques acteurs du domaine de la third party data : Bluekai, Exelate, Weborama, Datalogix…

L’open data : les données ouvertes et réutilisables

Les données ouvertes et réutilisables ne sont pas encore légions même si une mission gouvernementale est très active sur le sujet. Manque de complétude, niveau de détail insuffisant, relative ancienneté sont les défauts actuels de nombreux jeux de données. Toutefois, c’est un champ d’investigation qu’il ne faut pas négliger, ne serait-ce que par son faible coût (celui du temps passé à chercher !) et son développement inéluctable.

Les sites de référence : www.data.gouv.fr mais aussi www.data-publica.com

Si ces premières pistes pour enrichir vos données vous intéressent, venez découvrir et pratiquer ces nouvelles approches en suivant le stage de formation Les fondamentaux du Big Data.

Ecrit par

Paul Peton

En savoir plus
newsletter image

Recevez nos newsletters

Formation, Management, Commercial, Efficacité pro

Abonnez-vous