Retour

Le Big data - comment l'Insee peut tirer partie de l'usage des données massives

Publié le 23/01/2017

Le Groupe de travail du Comité technique de réseau du 17 janvier 2017 portait sur l'évolution du big data à l'Insee.

De quoi parle -t-on ?

Il existe des données de nature et de statuts différents :

  • des données de gestion d’opérateurs privés avec accès complexe par leur volumétrique importante et leur format (téléphonie). Certaines données publiques sont similaires (par exemples les fichiers des Déclarations sociales Nominatives ou les fichiers de l'assurance maladie, SNIIRAM),
  • des données issues d’internet (recherches internet),
  • ou des données satellites (photographies du territoire) ;

 

Les obstacles à leur utilisation

Ils sont de plusieurs types :

  • juridiques pour l’accès aux données,
  • techniques pour la gestion des flux et le stockage des données, mais aussi pour le développement des compétences nécessaires en interne (méthodes de traitement efficace pour ces sources).

 

Les enjeux pour le Service Statistique Publique (SSP) :

  • améliorer et compléter la production de la statistique actuelle (produire à des niveaux plus fins, améliorer les différentes méthodes, combiner les sources de redressement),
  • faire baisser les coûts de collecte. Mais, c'est à mettre en regard des coûts de traitement qui peuvent augmenter en raison de la complexité des sources,
  • assurer le positionnement de la Statistique Publique en tant que producteur. De plus en plus d’opérateurs privés publient des indicateurs en concurrence avec les nôtres.

 

Où en est-on au sein du SSP  ?

Ces données sont actuellement étudiées au sein de l'Insee par le Département de la méthodologie DMCSI et par l'unité juridique UAJC.

Un seul projet est quasiment arrivé à la phase de production : l'usage des données de caisses pour l'Indice des Prix à la Consommation.

 

Concernant l’aspect juridique :

  • un groupe de travail traite le sujet au sein du Conseil National de l'Information Statistique.
  • La loi pour une République Numérique publié au JO le 8 octobre 2016 donne accès aux données privées utiles au SSP. Il reste à signer l’arrêté.

 

Concernant l'aspect technique, 2 postes de méthodologue à la DMCSI ont été créés, un en septembre 2014 et l'autre en septembre 2016.

Un agent est parti à l’INS Canada dans la structure homologue pour voir comment celui-ci fonctionne.

Des contacts ont été pris avec les propriétaires des sources privées pour lancer des expérimentations :

  • avec Google Trends dans le cadre de la conjoncture économique pour l’étude des dépenses mensuelles des ménages en biens ou services par rapport aux requêtes internet,
  • avec des données de téléphonie mobile pour compter les populations présentes ou caractériser la mobilité.

Autres expérimentations cibles :

  • étude de la structure des offres d’emploi proposées sur internet,
  • l'utilisation des données satellites.

 

La communication autour du big data

  • diffusion de lettre Big data,
  • participation aux réseaux sociaux spécialisés et les INS européens pour poursuivre la veille sur les outils et les méthodes utilisés (l’analyse de données réseau, de classification, d’analyse textuelle, ...)

 

L’Insee doit acquérir les compétences nécessaires à l’exploitation de ce type de données et identifier les obstacles pour chaque source.

Il y a nécessité de :

  • définir l’intérêt pour le SSP,
  • identifier le format pour son traitement,
  • identifier le type d’indicateur qu’elles permettraient de développer.

Pour l’avenir, le développement d’un SSP Lab permettrait de fortifier ces travaux avec une collaboration entre l’informatique et les directions métiers, dans le cadre d’Insee 2025.

Un groupe de travail impliquant les directions Insee et des SSM a commencé fin 2016 afin de grossir la structure des 2 agents de la DMCSI. Le SSP Lab se concentre sur la Recherche et le développement, et est en attente de l’étude des besoins du SSP.