DMP Big Data & Co au bout des doigts !

C’est le grand sujet de 2013 / 2014, le Big Data, les DMP toussa toussa. c’est bien beau, mais ce ne sont que des termes pour vous laisser penser que vous êtes technologiquement à la ramasse et qu’il faut investir des sommes astronomiques pour être au goût du jour.

FAUX !

La première question a vous poser est :

Ai-je réellement besoin de Big Data ou d’un DMP ?

Big Data, comme son nom l’indique, désigne la manipulation d’un volume de données tellement conséquent que les systèmes conventionnels deviennent trop limités pour y arriver. En réalité beaucoup de sociétés ou d’applications n’ont pas besoin de Big Data. Par exemple gérer des données transactionnelles dans un tel système n’a absolument aucun sens. Les volumes sont faibles, une bonne vielle BDD dopée à la RAM suffit amplement. Par contre, si vous entrez dans de l’analyse comportementale ou de la statistique, le big data est fait pour vous !

Et pour le DMP (Data Management Plateform), qu’en est-il ?

Là encore, on est dans l’enfumage de hareng pas frais. le DMP n’est ni plus ni moins qu’un analytique relié à un CRM (ou pas) qui, selon certains critères va permettre d’affecter un profil &/|| un scénario a un utilisateur et d’effectuer une action spécifique en relation (en l’occurrence à la base, synchroniser votre cookie avec celui d’un ad exchange pour aller cibler des utilisateurs en RTB, ce qui revient juste à lancer un tag quoi). Ce concept est intéressant et permet de pousser beaucoup plus loin la logique que simplement cibler des utilisateurs en RTB. (Faire de la recommandation produit, du marketing comportemental ou de l’analyse structurée par exemple).

Mais moi je suis à la rue, je sais pas faire !

Et bien encore une fois, il est temps d’internaliser les compétences pour ne pas se faire violer par 2 ou 3 sociétés aux dents longues.

Globalement, l’ensemble des technologies Big Data sont open source. On citera facilement Hadoop ou MongoDB qui sont « des BDD » NoSql clusterisées (les guillemets ont leur importance, plus d’infos ici). Ce qui permet d’aller stocker/traiter les données sur plusieurs machines et donc d’augmenter de manière significative la puissance de calcul. Car il ne faut pas se leurrer, le software, à la base, n’est pas plus puissant qu’une base de données classique (j’ai pu le tester avec MongoDB).  Evidemment, je réduis beaucoup. Ces technos, bien employées, sont très puissantes.

Personnellement, dans le contexte du traitement de la donnée comportementale, ma préférence va à ElasticSearch (je sais, j’en parle beaucoup ces derniers temps) qui n’est pas à proprement parler un outil de big data, mais un moteur de recherche basé sur Lucène, qui offre des possibilités que je n’avais pas connues jusque là, et qui est également clusterisé. Le plus ingénieux, c’est que c’est accessible à un utilisateur « lambda ». J’entend par Lambda un techos un peu confirmé qui va comprendre la mécanique et se pencher sur le bordel (j’ai un stagiaire en 3ème année de licence qui a pigé en une matinée).

Pour donner un exemple, j’ai pu tester, sur de la haute volumétrie de données (6M de VU mensuels), l’implémentation d’un tel système quelques semaines (bon ok, le fait de passer à un moment ou a un autre par Varnish n’était pas une bonne idée !). J’ai écrit environ 200 lignes de codes pour obtenir des données comportementales utilisateur indexées dans ElasticSearch et restituées en temps réel. Pages vues, transactions & co. J’ai même pu faire un script balbutiant de recommandation produit comportemental. Et.. Je ne suis ni ingénieur, ni développeur. Donc imaginez les possibilités avec quelqu’un qui s’y connait vraiment !

P.S. : Je n’utilisais même pas le clustering, j’avais déjà une année de capacité de traitement devant moi avec un serveur OVH a 700€TTC/an.

Et donc ?

Tout ça pour dire : Ne multipliez pas les systèmes et centralisez la connaissance comportementale à un seul et unique endroit pour ne pas vous ruiner. Certaines sociétés savent le faire (je ne les citerais pas ici pour ne pas faire de favoritisme), mais je suis, comme toujours, partisan de l’interne et de dédier une ressource compétente à ces applications. Ça coûte moins cher et ça permet beaucoup plus facilement les évolutions. Autrement, vous vous laisserez facilement tenter par 3 sociétés différentes qui vont vous proposer chacune leur tour de dupliquer les même données à 3 endroits différents pour faire :

1. Du RTB (Bim, 50K/an + budget publicitaire)
2. De l’analytique (Bim, 50K/an)
3. De la recommandation comportementale (Bim, 50K/an dans le meilleur des cas)
4. …

N’hésitez pas si vous avez des questions ou si j’ai écrit des énormités.

P.S. : Crédit photo : http://www.soluxions-magazine.com/

Vous aimerez aussi...