INSEE
Amphi 1 - SESSION 1.1 - 07/02/2018 12:00 > 12:30


Enrichir la connaissance des utilisateurs des données du site insee.fr : le recours à l'analyse textuelle



Introduction

L'Insee mène actuellement un projet pour proposer de nouveaux jeux de données en Open Data (cubes multidimensionnels) sous forme de web service. Cette offre de données s'adresse à des utilisateurs expérimentés en vue de rediffuser les données. Afin d'approfondir la connaissance des besoins des utilisateurs avancés des données en termes de formats et de structuration des données, le choix s'est orienté vers la construction de personas.

Méthodologie

Les personas, popularisés par Alan Cooper en 1999, sont des fiches présentant des archétypes d'utilisateurs cibles. Chaque fiche synthétise les données de la recherche utilisateur que les concepteurs ont menée en amont. Elle est donc un outil facilitant la saisie des enjeux par les parties prenantes. Les personas favorisent également la définition de solutions de conception répondant aux attentes des utilisateurs et servent de base pour imaginer les scénarios d'usage futurs. Les personas sont construits sur la base de données réelles recueillies auprès d'utilisateurs potentiels. Cette étape, essentielle dans la construction de persona, s'articule en deux temps : Une phase appelée « recherche primaire » : cette phase de recherche consiste à récolter des données qualitatives auprès d'utilisateurs cibles (à travers des focus group, des entretiens, etc.) Une phase appelée « recherche secondaire » : cette phase consiste à compiler l'information pertinente déjà détenue au sein de la structure et pouvant servir au projet.(enquêtes auprès d'utilisateurs, données quantitatives etc.) Or, ce travail a été mené pendant le 1er confinement de mars 2020. Il était alors impossible de réunir un panel d'utilisateurs et le temps accordé à ce travail restait limité. La méthode des proto-personas a alors été utilisée. Cette alternative, moins consommatrice en ressources a été introduite par Carine Lallemand. Les méthodes UX sont par nature très flexibles et se prêtent à des adaptations de ce type. Les phases de recherches primaires et secondaires sont alors fusionnées. Ce n'est qu'une fois les fiches proto-personas créées qu'elles seront confrontées à l'opinion d'utilisateurs cibles réels. Plusieurs sources de données ont été mobilisées. Pour cette présentation nous nous attarderons sur deux traitements particuliers : Pour mesurer l'intérêt des utilisateurs pour un format ou un mode de diffusion de données, l'analyse a porté sur environ 100 000 questions posées sur Stackoverflow – la communauté ouverte d'entraide entre codeurs. Les principales étapes ont été : Webscraping des titres et du contenu des questions posées par les internautes portant sur les formats de données ou le mode de diffusion (comportant l'un des mots clés suivants : csv,api, json, rdf, xlsx, xls, xml, excel). Analyse textuelle des titres et du contenu des questions Tokenisation des phrases Utilisation de modèles pré-entraînés sur de large corpus de textes pour tagger chaque mot selon sa catégorie (nom / verbe / complément / adjectif…) + repérage des liens entre les mots (voir annexe « analyse des verbatims stackoverflow ») Utilisation du modèle BTM + création de clusters de bi-termes de mots les plus liés L'insee a effectué une enquête pour recueillir de l'avis général des internautes ayant visité le site insee,fr. Deux questions ouvertes portaient sur l'avis des internautes sur les points forts et les points faibles du site. L'utilisation du modèle BTM a permis de mettre en avant les principaux sujets de satisfaction ou de mécontentement des internautes vis-à-vis du site insee.fr. Neuf proto-personas ont été créés – ils serviront de briques de base pour récolter l'opinion d'utilisateurs cibles lors d'ateliers UX.

Originalité / perspective

Ce travail démontre l'intérêt d'utiliser les outils de Text Mining pour mener une recherche utilisateurs. Il s'agit bien souvent de synthétiser un nombre d'information élévé (bien souvent sous forme de corpus de texte). Le travail mené ici est également une utilisation des techniques de machine learning pour des travaux UX.
Cooper,A. (1999, 2nd ed. 2004). The inmates are running the asylum. Macmillan Publishing. Lallemand C. « Méthodologie de design UX »(2015, 2nd ed. 2018)
Yan, Xiaohui & Guo, Jiafeng & Lan, Yanyan & Cheng, Xueqi. (2013). A biterm topic model for short texts. WWW 2013 - Proceedings of the 22nd International Conference on World Wide Web. 1445-1456. 10.1145/2488388.2488514.


Télécharger les slides

Revoir le live :



Marylène Henry
Statisticienne


S'inscrire !
Nos sponsors

Les stands partenaires

{\rtf1}