Salon de la Data – Nantes 2018 partie 2

0

Le 12 septembre 2018 a eu lieu la deuxième édition du salon de la Data à Nantes . Ce salon est organisé sous forme de conférences ou de tables rondes. Il s’agit donc d’un lieu d’échange et de partage d’expérience.

C’est dans ce contexte que Zenika s’est rendu pour pouvoir assister, présenter et échanger (https://twitter.com/SalonData/status/1039873005839630339). D’ailleurs, la team @ZenikaNantes présentait à son stand “notre DashBoard” et note pôle #ZnkIA

Cet article est la 2ème partie : retour sur des sujets variés tels que le journalisme de données, l’API Management ou encore les travaux de l’IGN pour la numérisation du réel

Table Ronde autour du Data Journalism

https://salondata.fr/2018/06/27/10h30-11h30-table-ronde-datajournalisme/

Intervenants :

  • Denis Vannier – Ouest Medialab – https://twitter.com/denisvannier
  • Maximilien Moulin – Wavestone – https://twitter.com/m_moulin
  • Guénolé Seiler – Journaliste à France Télévisions – https://twitter.com/GSeiler_FTV
  • Olivier Cimelière – Heuristik Communications – https://twitter.com/olivcim
  • Erwan Alix – Ouest France – Data journalist – https://twitter.com/erwanalix

De nos jours, la quantité de données produite est phénoménale (https://datascience.berkeley.edu/big-data-infographic/), et sa production est exponentielle.

Un des objectifs du journalisme de données est de croiser ces données pour en tirer des conclusions.

Un exemple d’application est l’étude des données météo comme la pluviométrie, la densité de population et l’accès à l’eau. Ces 3 facteurs permettent de prédire 4 semaines à l’avance l’arrivée d’une épidémie de Choléra au Yémen, et d’anticiper ainsi la distribution de kits d’hygiène et conseils.
Voir https://www.nasa.gov/press-release/nasa-investment-in-cholera-forecasts-helps-save-lives-in-yemen

Le journalisme de données consiste également à proposer des supports attractifs et souvent interactifs construits à partir d’agrégation et d’exploitation de données.
Exemple du NY Times : À partir de votre date et lieu de naissance, vous pourrez voir l’évolution du nombre de jours dans votre ville où il faisait plus de 32° par an.
https://www.nytimes.com/interactive/2018/08/30/climate/how-much-hotter-is-your-hometown.html

On voit de plus en plus d’articles qui incluent des tweets, des vidéos Youtube, etc.

Ces dernières années, de nombreux scandales financiers ont été mis en avant grâce au travail des lanceurs d’alertes et de journalistes ayant analysé des volumes importants de données afin de trouver les liens entre différentes personnes et sociétés, et mettre à jour des cas d’évasion fiscale.

Ce travail est effectué via l’ICIJ (International Consortium of Investigative Journalists), qui utilisent des technologies telles que Neo4J, base de données orientée graphe et l’outil Linkurious permettant le travail collaboratif de centaines de journalistes.  https://neo4j.com/blog/icij-neo4j-unravel-panama-papers/
https://linkurio.us/blog/how-the-icij-used-linkurious-to-reveal-the-secrets-hidden-in-the-swiss-leaks-data/

Un des objectifs des nouvelles technologies dans le journalisme est de réduire le travail sur les tâches récurrentes et sans valeur ajoutée, tel que l’écriture de brèves sur les résultats sportifs ou les données financières.

Chez de nombreux journaux, agences de presse ou sites d’actualités, une utilisation est faite de “robots journalistes”, qui vont utiliser des templates et y injecter les bonnes données afin de produire un article.

Voici un exemple de Yahoo Sport qui utilise un outil permettant l’écriture de résumés de matchs de football : https://automatedinsights.com/customer-stories/yahoo/

Une autre problématique est d’apporter une information personnalisée au lecteur, en fonction de différents critères. Qui est le lecteur, quelle heure est-il, où se trouve-t-il, etc.

Cela nécessite l’ajout de métadonnées sur l’ensemble du contenu, comme la géolocalisation du sujet de l’article ou des photos.

Le journalisme télévisuel à l’instar du journalisme papier connaît également de grands chamboulements. Par exemple, France Télévisions décline son contenu sur un nombre important de supports, et non plus seulement la télévision. Maintenant la société dispose d’une chaîne Youtube, Twitter, d’un site internet, de replay, etc.

Le nombre de spectateurs de la télévision chute, et l’âge moyen du spectateur augmente rapidement, il est donc nécessaire de s’adapter et de cibler le contenu au public.

L’importance de Google News comme source de trafic a également changé la façon d’écrire ses articles. Il faut choisir avec soin le titre, les mots clefs d’un article, il n’est plus possible d’utiliser un titre mystérieux ou humoristique qui générerait la visibilité de l’article sur Google News.

La formation des journalistes a également grandement évolué avec cette montée du journalisme de données. Un journaliste avait à la base une formation plus littéraire, et les maths avaient une place mineure dans la formation et le quotidien des journalistes. Souvent le travail plus mathématique était donné aux techniciens de la rédaction, et non pas aux journalistes. Les rédactions se basaient principalement sur les chiffres de l’INSEE, alors que maintenant on attend plus d’autonomie à ce sujet.

De nos jours, les écoles de journalisme proposent des cours plus techniques afin de maîtriser ces nouveaux outils et supports.

D’autres échanges ont abordé la différence entre donnée et information.

Une information doit être vérifiée et contextualisée, ce qui n’est pas forcément le cas d’une donnée.

Les journaux disposent d’une grande quantité d’informations, et réfléchissent à une monétisation de ces informations.
Dans le domaine de l’automobile, les constructeurs vendent les informations sur l’utilisation de leurs voitures aux assureurs. On pourrait trouver de nombreuses applications dans le cas d’un journal, mais pour cela il faut être capable d’extraire les informations recherchées et ayant de la plus-value.

Ouest France est en train de numériser l’intégralité de ses archives, mais la seule numérisation ne suffit pas pour que le contenu soit suffisamment riche. Il est nécessaire d’avoir des outils d’analyse du contenu, comprendre le sujet, les liens entre les personnes ou avec d’autres articles.

Une nouvelle catégorie de médias a émergé ces dernières années, qui pilote leurs contenus en fonction des statistiques et des recherches des utilisateurs.

Des acteurs, tels que Buzzfeed, MinuteBuzz sont sur cette ligne éditoriale, où on va publier les articles les plus vendeurs possibles afin de générer du trafic et pouvoir le monétiser. Ce modèle est très dépendant de la publicité et de plateformes telles que Facebook. Cela a par exemple participé à la fermeture de l’édition France de Buzzfeed, et l’ensemble de la rédaction française a été licenciée.

Pendant cette heure d’échanges, on a pu se rendre compte que le journalisme est en pleine mutation, que les médias cherchent à exploiter la technologie dans de nombreux domaines afin de capter et fidéliser leur public. On espère que cette évolution ira dans le sens de la qualité du contenu.

Otoroshi: API de management au service de l’Assurance par Chris Woodrow

https://salondata.fr/2018/06/28/10h30-11h30-otoroshi-lapi-management-au-service-de-lassurance/

Chris Woodrow
@StrangeCousin
https://github.com/MAIF/otoroshi

Chris Woodrow, développeur à la MAIF, nous a présenté un outil d’API Management Open source développé au sein de l’entreprise.

Les solutions existantes d’API management ne répondaient pas à l’ensemble des besoins (sécurité, traçabilité, gestion de quotas, monitoring, portail développeur, API de configuration, redémarrage à chaud, et bien d’autres), ou le tarif était trop élevé.

Il a donc été décidé de développer un outil maison qui devait répondre aux besoins et être simple d’utilisation.
Sa vision est qu’en 15 minutes, il faut être capable de faire un “Hello World” avec n’importe quel outil et c’est le cas avec Otoroshi.

Le nom du projet vient du japonais, Otoroshi est un gardien des temples spirituels. Il a débuté en 2017, a été développé en Scala et sa mise en Open Source date de janvier 2018.
Pour le moment, ce projet a représenté l’équivalent d’une année de travail pour un développeur.

Il intègre de nombreuses fonctionnalités :

  • Circuit Breaker
  • Une interface de gestion
  • Une API Rest avec les mêmes fonctionnalités que l’interface de web
  • Intégration à Kubernetes, Rancher et Clever Cloud
  • Authentification via Auth0 ou LDap
  • Webhooks
  • Broker Kafka
  • Envoi des mails via Mailgun
  • Snow Monkey : même principe que Netflix Chaos Monkey afin de tester la robustesse et la résilience de ses applications
  • Plusieurs solutions de stockage possibles des données de configuration (Redis, MongoDB, In Memory, etc.)

Vous pouvez trouver la documentation pour tester Otoroshi sur http://bit-ly/try-otoroshi

Les développeurs ont été soutenus par la direction pour rendre plusieurs projets open source, car cela correspond aux valeurs de la société.

D’autres projets open source de la MAIF:

IGN – Données géographiques 3D : technologies d’aujourd’hui et de demain par Bruno Vallet

https://salondata.fr/2018/07/30/14h45-15h45-donnees-geographiques-3d-technologies-daujourdhui-et-de-demain/

Bruno Vallet, chercheur à l’IGN a présenté différentes technologies utilisées pour “numériser le réel”.

Équipement

Il existe plusieurs outils pour numériser le réel :

  • Capteur image
    • Faible coût
  • Lidar
    • Détection et estimation de la distance par la lumière
    • Accès à la géométrie
    • Cher
    • Plus d’informations : https://fr.wikipedia.org/wiki/Lidar
  • Radar
    • Utilisation d’ondes radio
    • Voit à travers les nuages

Exemple de Lidar
https://fr.wikipedia.org/wiki/Fichier:Lidar_P1270901.jpg

Les véhicules de cartographie mobile embarquent plusieurs dispositifs afin de connaître de façon sûre la géolocalisation des données captées :

  • GPS
  • Centrale inertielle (accéléromètre)
  • Odomètre (permets de connaître la distance parcourue)

Exemple de véhicule de cartographie de l’IGN : http://recherche.ign.fr/labos/matis/arSYNTE.php

Les drones depuis peu peuvent embarquer un Lidar, grâce à la diminution du poids des nouveaux appareils.

Les drones sont très souvent utilisés pour l’inspection de constructions, telles qu’un barrage ou une ligne haute tension.

Les satellites ont une moins bonne résolution, un seul angle de vue, mais par contre peuvent couvrir une très grande surface.

L’IGN possède un avion, qui couvre le territoire français tous les 3 ans.

Reconstruction des données en 3D

Comment recréer une image 3D à partir de plusieurs photos et données récoltées via des dispositifs tels que Lidar ou Radar ?

Cela est possible via la technique de photogrammétrie (voir https://fr.wikipedia.org/wiki/Photogramm%C3%A9trie ), on peut créer une image 3D avec une bonne géométrie de l’image à partir de plusieurs photos.

L’IGN met à disposition un outil en open source pour faire cela : MicMac (http://logiciels.ign.fr/?Micmac)

Les modèles numériques de surface (MNS) permettent de modéliser la surface du sol et des objets du sursol comme les immeubles, la végétation, etc. Cela permet de réaliser des simulations d’inondation, ou encore de calculer le potentiel d’ensoleillement pour installation de panneaux de solaires.

Le modèle numérique de terrain (MNT) quant à lui ne comprend que les éléments du terrain naturel (pas de construction ou de végétation), il permet d’obtenir des cartes topographiques par exemple.
http://www.altoa.org/fr/produits-mns-et-mnt.html

Visualisation des données 3D

Le référentiel 3D national est un projet de base de données 3D coproduite par l’IGN et les collectivités locales, l’objectif est de mutualiser le travail de ces différentes entités.
http://professionnels.ign.fr/ref3Dnational

L’IGN a développé l’outil ITowns, qui permet de visualiser des données 3D géospatiales en agrégeant plusieurs sources de données.

Une de ses utilisations est par exemple la mesure précise de la largeur d’une ouverture d’un bâtiment afin de s’assurer de son accessibilité pour les personnes à mobilité réduite. Auparavant, il aurait fallu se déplacer, dorénavant on peut avoir accès à l’information à distance.
http://logiciels.ign.fr/?-ITowns-

L’avenir sera sur le développement de technologies permettant la détection d’objets et apporter de la sémantique aux données via le Deep learning.

Saignante ou bien cuite… la data ?

https://salondata.fr/2018/06/28/16h-17h-saignante-ou-bien-cuite-la-data/
http://www.datamaniaques.com/

Conférenciers :

  • Mick Levy (Business&Decision) : « Et concrètement, quels gains ? Zoom sur 3 exemples d’entreprises qui ont mené des projets data”
  • Jean-Lou Racine (Le Phare) : « Comment un industriel est sorti de l’ombre grâce au lead management »
  • Jacques Priol (Civitéo) : « Focus sur les données publiques et privées qui font vivre la ville intelligente”
  • Marie-Pierre L’Hopitalier (Parthema avocats) : « Dans les coulisses de la CNIL. Pour mieux comprendre comment la Cnil analyse et sanctionne »

Les différents intervenants font partie du collectif Datamaniaques, qui regroupe 300 personnes pour échanger sur le sujet de la Data.

Mick Levy – Assistant de vente pour banque

Une des problématiques d’une banque était la vente rebond, c’est-à-dire vendre un 2ème produit à partir de la vente du 1er.

La solution a été la mise en place d’un moteur de recommandations qui affichaient au conseiller quel produit supplémentaire il devait essayer de vendre au client.

Ce moteur analysait les données du client, et se basait sur les clients avec un profil similaire.

Ce moteur a permis d’augmenter de 40% les ventes rebond.

 

Mick Levy – Pilotage commercial dans la restauration rapide

La chaîne n’arrivait pas à comprendre les raisons sur le bon ou mauvais fonctionnement d’un restaurant.

Les business analysts ont étudié :

  • les données internes (tickets de caisse, prix, etc.)
  • mais également les données externes (météo, événement externe)

Après avoir croisé ces données, il en est ressorti que seuls 8 critères avaient une vraie incidence sur les résultats d’un restaurant, et non 200 comme ce qui était analysé auparavant. Parmi ces 8 critères, il y’a la localisation du restaurant ou encore les prix.

Grâce à cela, il a été possible de choisir le futur emplacement d’un restaurant et de prévoir son chiffre d’affaires, mais encore de voir quels étaient les restaurants qui n’exploitaient pas tout leur potentiel commercial.

 

Mick Levy – Vente de maquillage

L’objectif était de fidéliser la clientèle, et d’anticiper la fin de l’utilisation d’un pot de crème afin de pouvoir contacter le client peu de temps et lui proposer une réduction et un cadeau afin qu’il vienne acheter un nouveau pot.

Les critères ayant permis de prédire la fin du pot étaient :

  • le profil du client
  • la météo
  • la taille du pot (plus il est gros, plus on consomme vite)

Ces 3 cas démontrent qu’en peu de temps on est capable d’améliorer les ventes en analysant les données à notre disposition.

 

Jacques Priol – Ville intelligente

On parle de plus en plus de ville intelligente ou smart city, voici quelques exemples d’utilisation : la gestion du trafic routier (prévision des embouteillages), l’éclairage public.

 

Les données sont récoltées à partir de capteur fixe, GPS, Bluetooth, etc.

Le paradoxe de la ville intelligente est que les gens ont confiance en l’état pour le respect des données personnelles (déplacement, santé ou autre), par contre ils refusent de lui en confier davantage.

La solution pour Jacques Priol serait la mise en place de la “confiance by design” pour les données confiées à l’état.

 

Marie-Pierre L’Hopitalier – CNIL

Que faire en cas de contrôle de la CNIL :

  • Collaborer et ne rien cacher
  • Réparer la faille informatique dans les quelques heures
  • Audit informatique à faire sur l’ensemble du système informatique de l’entreprise de sa propre initiative

Cela permet en général de réduire le montant de la sanction initiale.

Il est important de fournir un cahier des charges et de recettes aux sous-traitants, car il y’a responsabilité solidaire dans ce cas.

Partagez cet article.

A propos de l'auteur

Développeur chez Zenika

Ajouter un commentaire