Big data : much remains to be done

Photo montage avec alpinistes

(English version)

There are lots of spams released in your email boxes and tons of unstructured data about anything and everything. When we consider that less than two years ago the CNIL (National Commission for Data Protection and Liberties) and those who are in charge of the digital economy development, had asked Gilles Babinet (the French digital champion) about the words he used regarding the current control of the data privacy.

On the first hand, there are some data-scientists who are supposed to extract the very essence. On the other hand, there will be soon less than 1% of spams being read and results of algorithms (marketing, risk …) from these Big Data exploited at only 4% to 6% of the information stored. All this is divided between 5 billion of connected people. The only thing that could be missing is that objects would be connected too.

One thing is certain, and it is obviously the only one within that headlong rush, we must innovate. It is fundamental to innovate thoughtfully, without wasting fortunes in human, computing and storage resources. That means even if:

– data-scientists turns into an omnipresent element on the job market

– the Peta-octet will continue to become cheaper every data

– calculators will be stronger every year

– developments are increasingly easy

– data architecture changed from distributed models like Hadoop, to data streaming in memory, that is currently popular and available in open source.

The Big Data constituted like that, seems not to be productive, because it is driven directly through the marketing, with an immediate result. This is done at any cost, and at the cost of any consequences.

The Big data will certainly explode soon, and this is a good thing. It will impose a king of digital ecology which is essential in a world that places sustainable development as a priority.

It looks like we learnt nothing about the 20th century failures. Industries destroyed people’s way of life and their environment with uncontrolled technologies that have been produced too quickly (Thank you Mr. Taylor). The oil magnates have their origins in that period. It is them who hold back during decades the innovation of alternative sources of energy to preserve their “capital” and to destroy the environment at the same time.

Nowadays giants are those who deal with data processing. We all know them. They are everywhere in all the sectors of our society.

At that stage, they act out of any actual context, and are already producing direct and indirect victims because of the spread of uncontrolled information or data, as previous industries were doing.

Today’s industries are encouraged by the marketing sector, which commonly sell ready to consume products to consumers. These products are quickly and easily available, from cradle to grave. What is not said to consumers, is that these industries are not able to manage the data stream that is transmitted. They should go through a process which is promised to be easy and fast, but which is always long and complicated. What an economical progress!

In short, what it is urgent to do is:

– Thinking about a way to better classify these data

– Recycling some essential data, but without having to ask for them again and again to people

– Finding a way to house the most sensitive data in a very secure place, under the only management of their owner. These data should be sent only under digital format, which would have no value for anybody else than the owner or the recipient.

Moreover, it is also necessary to concretely move forward regarding strong authentication solutions, to reduce risks (that could be estimated at hundreds of billions of dollars today), but also to get out of the downward spiral. That situation is comparable to what happens before, when highly-powerful multinationals took advantage of all the knowledge and incomes coming from everything that was produced by people.

At this stage of the digital economy, it is not and it will not be a real growth driver, either in France, somewhere else, at Google or in other companies.

It is necessary to redirect the approach.

To be continued…

(French version)

Des montagnes de données non structurées « sur tout et n’importe quoi » et des torrents de spams déversés dans les boîtes mail… Dire qu’il y a moins de deux ans la CNIL et ceux en charge des développements de l’économie numérique avaient interpellé Gilles Babinet sur les propos qu’il tenait sur la réalité de la maîtrise de la confidentialité des données dans le monde actuel.

A chaque extrémité il y a : d’un côté, quelques « Data-scientists » supposés extraire la substantifique moelle et de l’autre côté bientôt moins de 1 % des spams lus et des résultats d’algorithmes marketing, risque, etc… issus de ces Big Data exploités pour une part de 4 à 6% de la masse stockée. Le tout est réparti sur près de 5 milliards d’individus connectés. Il ne manquerait plus que les objets le soient aussi…connectés.

Une chose est sûre et c’est sans doute la seule dans cette fuite en avant : il faut innover. Cependant, il faut innover avec réflexion, sans engloutir des fortunes en ressources humaines et en ressources de calcul et de stockage :

– même si les data-scientists finissent par devenir une denrée présente sur le marché de l’emploi,

– même si le peta-octet sera toujours moins cher demain,

– même si les calculateurs seront plus puissants chaque année,

– même si les développements sont de plus en plus faciles,

-même si les architectures de données sont passées de modèles distribués de type Hadoop, à du data-streaming in memory en vogue à ce jour et en open source.

Cette bulle Big data, ainsi constituée, apparaît peu productive, parce que « drivée » directement par le marketing et le résultat immédiat à n’importe quel prix et au prix de n’importe quelle conséquence.

Elle ne va sans aucun doute pas tarder à exploser, et c’est sans doute une bonne chose. Cela imposera une forme d’écologie numérique indispensable dans un monde qui se veut signer des traités sur le développement durable.

Nous n’avons visiblement rien appris des échecs du XX siècle, là où l’industrie détruisait l’homme et son environnement par des solutions non maîtrisées et produites en accéléré (Bonjour Monsieur Taylor), là où se sont constitués les géants du pétrole qui ensuite ont freiné durant des décennies l’innovation en termes d’autres sources d’énergie pour garantir leur enrichissement et détruire l’environnement.

Les géants d’aujourd’hui sont ceux du traitement des données. Nous les connaissons tous. Ils sont omniprésents dans tous les domaines de la société.

A ce stade, ils agissent hors de tout cadre réel et font déjà des victimes directes et indirectes par la propagation de données ou d’informations non maîtrisées, comme les industriels d’autrefois.

Ils sont encouragés par le marketing qui veut vendre du prêt à consommer en un clic à tous les consommateurs et ce, du berceau au cercueil. Ce qu’ils oublient de dire à ce même consommateur c’est que, comme ils sont incapables de maîtriser le flot de données transmises, ils doivent subir le « one clic » qui devient le « one clic toutes les dix secondes, de jour comme de nuit ». Quel progrès économique !

Bref, ce qu’il est urgent de faire :

– c’est d’apporter un peu de réflexion sur comment mieux trier ces données,

– c’est de voir comment recycler certaines données essentielles mais sans les redemander cinquante fois aux individus.

– c’est de comprendre comment les héberger, pour les données les plus sensibles, en un seul point sécurisé et sous la seule maîtrise de leur propriétaire, et ne transmettre plus que des éléments numériques, sans valeur pour tout autre acteur que le destinataire désigné.

Il est nécessaire aussi d’avancer de manière concrète sur les solutions d’authentification forte pour réduire le coût des risques (plusieurs centaines de milliards de $ aujourd’hui), mais aussi pour sortir de la spirale identique à celles du passé où quelques multinationales surpuissantes se sont appropriées la connaissance et le revenu de tout ce que produit l’humanité.

A ce stade, l’économie numérique n’est pas et ne sera pas un relai de croissance, ni en France, ni ailleurs que chez Google ou quelques autres.

Il faut donc réorienter la démarche.

A suivre…