Big Data et n'importe quoi

Pour créer et faire connaître vos pages web --> Contactez-nous


Le 27 janvier 2014, Canal+ a diffusé en seconde partie de soirée son magazine Special Investigation en le consacrant au Big Data.

L'expression "Big Data", comme auparavant les expressions "benchmark" ou "scalable" ou "longue traine" ou "cloud" est en passe de devenir le n'importe quoi du présent.

Par "big data", beaucoup essaient de faire "in" et se plantent justement, perdus dans le too big data ;-)

Special Investigation n'a pas échappé à ce problème : l'émission s'est résumée à montrer des entreprises ou des cas de gens utilisant des masses de données,  sans expliquer comment et avec quelle logique.

Tout est bien résumé (sans critique) sur la page de 20 minutes linkée plus haut.

Exemple le plus frappant avec le plus détaillé: l'histoire d'un français à San Francisco et de son entreprise Kxen.

A priori, Kxen récupère les trajets de tout un tas de gens, les endroits de retraits bancaires, d'achats et propose aux commerces d'émettre des propositions quand un quidam "volontaire pour qu'on lui envoie des offres" passe à côté.

On passe donc dans l'émission de "big data" = "grand nombre de données" (Kxen a tellement de données sur les trajets que toute la ville en devient + rouge qu'après un passage de Runkle et Hank Moody ;-)) à pof pof pof --> offre ..

Tout ça ressemble étrangement à notre vie sur ordinateur où sous le titre "publicité selon profil", on se voit proposer 25 fois ce qu'on a déjà regardé voir même déjà acheté comme si l'humain (et spécialement le français) était convaincable par la répétition de la même chose (a priori c'est plutot l'inverse qui se produit et la publicité CONTEXTUELLE sur adsense marche mieux que celle SELON profil ..).

Admettons que Kxen soit pleine d'avenir (ce dont on doute car tôt ou tard Google ou Apple proposeront ça en direct), le problème est que la partie la plus importante, à savoir le fameux "algorithme" qui fait passer le "gros nb de données" à "prédictions", n'est absolument pas abordée.

Même chose avec les "prédicteurs" de paris de sports où l'on passe directement de "gros nombre de données analysées" à "prédictions" (même pas réalisées dans l'émission) par le passe-partout "algorithme".

"Algorithme" est le mot qu'on utilise de plus en plus comme DONC, ce fameux DONC qui peut relier des pommes et des poires sans aucun rapport car le simple fait de l'entendre fait opiner du chef les gens d'en face sans qu'un seul ait l'audace ou l'intelligence de demander "pourquoi .. donc ?" ;-)

Or le problème du big data et d'une expression lâchée en fin d'émission, l' analyse prédictive" est bien là, dans l'algorithme.

Au nom de quoi, de quelle logique, des données du passé pourraient prédire l'avenir, même en grand nombre ?

Comme disait Lafayette, un quart d'heure avant sa mort, un homme est vivant.

Quasiment tous les exemples de big data dont parlent les medias se basent sur le fait que ce qui a été, sera..  avec comme comble d'exemple débile dans l'émission le soi-disant big data si puissant de l'équipe d'Obama qui consiste simplement à éviter de perdre du temps à convaincre des électeurs opposés et à faire le plein de voix de son propre camp, ce qui est le B.A BA de la politique depuis la nuit des temps, sans besoin d'aucun algorithme.

Au passage, facile à ce propos de moquer la France et de comparer Thomas Hollande et ses petites mains avec l'équipe d'Obama: les journaleux de Canal+ ne savent-ils donc pas que l'on ne dit pas en France pour qui on vote ???

L'analyse prédictive est bien expliquée sur wikipedia :

Le cœur de l'analyse prédictive se fonde sur la capture des relations entre les variables explicatives et les variables expliquées, ou prédites, issues des occurrences passées, et l'exploitation de ces relations pour prédire les résultats futurs. Il est important de noter, toutefois, que l'exactitude et l'utilité des résultats dépendent grandement du niveau de l'analyse des données et de la qualité des hypothèses. L'analyse prédictive s'occupe exclusivement de la Nécessité, pas du Hasard (Le Hasard et la Nécessité_ J Monod), du "Predictive future" que J. Derrida appelle "Futur" par opposition à "l'Avenir" que l'on ne peut prédire, car Avenir = Nécessité + Hasard.

Tout est donc dans la qualité des hypothèses et dans les modèles utilisés, modèles de régression (avec par exemple la méthode des moindres carrés utilisée par Google Correlate ou l'excellent ATP d'Excel) ou modèles d'auto-apprentissage ( comme l'excellent libre WEKA ).

Tout l'enjeu du big data est là dedans et pas dans l'accumulation de grosses machines qui moulinent des milliards de données.

Pendant que journalistes, politiques, investisseurs débiles et entre eux preneurs jouent à qui a la plus grosse, personne n'estime et n'évalue assez l'importance des hypothèses et des méthodes de traitement.

Les exemples connus de "big data" en marketing n'offrent aucun intérêt et valeur ajoutée. Chacun le voit tous les jours sur le web où les publicités proposées sont loin d'intéresser.

Même histoire avec les cousins du "related content": http://www.outbrain.com/blog/2014/01/when-it-comes-to-content-most-relevant-%E2%89%A0-most-interesting.html

Ceux qui veulent rendre réelle la MACHINE de Person of Interest dans n'importe lequel des domaines d'utilisation potentielle, y compris en défense et sécurité, ont encore des progrès à faire ... (sans compter que la pauvreté des "algorithmes" utilisés actuellement fait que leurs "prédictions" sont facile à prédire et donc à .. hacker..: on signale déjà quelques petits programmes conçus par quelques matheux de l'est qui pourront défoncer facilement les dépenses de pub de vos concurrents en profitant de leurs implications dans ces systèmes "prédictifs" qui ne vendent finalement rien de plus que ce que le bon sens arrive à faire).

 


Commentaires sur: Big Data et n'importe quoi

Si c'est "convaincable" qui vous gêne, on cherchait à dire "qui potentiellement peut être convaincu" et convaincable semble exister

Rédigé par : Tubby@Morisse | 1 fév 2014 13:48:19

C'est certain, Google est américain, mais cela ne me parait pas très convaincable... Et il aime le naturel, mais aussi le programmé et le prévisible.
Bonne soirée et bon week-end ;0)

Rédigé par : morisse | 31 jan 2014 18:52:43

Merci de votre commentaire: 3 coquilles trouvées passe-partout, voix et ajoutée. Quoi d'autre ?
Google aime le naturel donc les fautes aussi.
Et Google est américain ;-)

Rédigé par : Tubbydev | 31 jan 2014 09:55:19

Bonjour,
Sans vouloir vous offenser, je n'ai lu que rapidement votre article et ne suis pas en mesure d'en juger le contenu.
J'ai cependant été surpris du nombre de fautes d'orthographe et de vocabulaire repérées sans effort lors de cette lecture rapide.
Ça fait mauvais effet quand on propose de la redac web...
Amicalement,
Morisse

Rédigé par : morisse | 31 jan 2014 09:01:03

Poster un commentaire sur: Big Data et n'importe quoi







« Google se réserve maintenant les réservations d'hôtels | Accueil | Blackberry nous sauvera-t-il du totalitarisme ? »


Besoin de contenu, de rédaction web ? Notre proposition sur Redac Web SEO
Besoin d'une info ou d'un développement web, de référencement naturel, de blogs, de Wordpress, de Typepad, de Movable Type ou autres nouvelles "choses web" ? Envie de travailler dans ces domaines ? --> Contactez-nous