Enrichir la connaissance des utilisateurs des donnÃ©es du site insee.fr : le recours Ã l'analyse textuelle

Introduction

L'Insee mÃ¨ne actuellement un projet pour proposer de nouveaux jeux de donnÃ©es en Open Data (cubes multidimensionnels) sous forme de web service. Cette offre de donnÃ©es s'adresse Ã des utilisateurs expÃ©rimentÃ©s en vue de rediffuser les donnÃ©es. Afin d'approfondir la connaissance des besoins des utilisateurs avancÃ©s des donnÃ©es en termes de formats et de structuration des donnÃ©es, le choix s'est orientÃ© vers la construction de personas.

MÃ©thodologie

Les personas, popularisÃ©s par Alan Cooper en 1999, sont des fiches prÃ©sentant des archÃ©types d'utilisateurs cibles. Chaque fiche synthÃ©tise les donnÃ©es de la recherche utilisateur que les concepteurs ont menÃ©e en amont. Elle est donc un outil facilitant la saisie des enjeux par les parties prenantes. Les personas favorisent Ã©galement la dÃ©finition de solutions de conception rÃ©pondant aux attentes des utilisateurs et servent de base pour imaginer les scÃ©narios d'usage futurs. Les personas sont construits sur la base de donnÃ©es rÃ©elles recueillies auprÃ¨s d'utilisateurs potentiels. Cette Ã©tape, essentielle dans la construction de persona, s'articule en deux temps : Une phase appelÃ©e Â« recherche primaire Â» : cette phase de recherche consiste Ã rÃ©colter des donnÃ©es qualitatives auprÃ¨s d'utilisateurs cibles (Ã travers des focus group, des entretiens, etc.) Une phase appelÃ©e Â« recherche secondaire Â» : cette phase consiste Ã compiler l'information pertinente dÃ©jÃ dÃ©tenue au sein de la structure et pouvant servir au projet.(enquÃªtes auprÃ¨s d'utilisateurs, donnÃ©es quantitatives etc.) Or, ce travail a Ã©tÃ© menÃ© pendant le 1er confinement de mars 2020. Il Ã©tait alors impossible de rÃ©unir un panel d'utilisateurs et le temps accordÃ© Ã ce travail restait limitÃ©. La mÃ©thode des proto-personas a alors Ã©tÃ© utilisÃ©e. Cette alternative, moins consommatrice en ressources a Ã©tÃ© introduite par Carine Lallemand. Les mÃ©thodes UX sont par nature trÃ¨s flexibles et se prÃªtent Ã des adaptations de ce type. Les phases de recherches primaires et secondaires sont alors fusionnÃ©es. Ce n'est qu'une fois les fiches proto-personas crÃ©Ã©es qu'elles seront confrontÃ©es Ã l'opinion d'utilisateurs cibles rÃ©els. Plusieurs sources de donnÃ©es ont Ã©tÃ© mobilisÃ©es. Pour cette prÃ©sentation nous nous attarderons sur deux traitements particuliers : Pour mesurer l'intÃ©rÃªt des utilisateurs pour un format ou un mode de diffusion de donnÃ©es, l'analyse a portÃ© sur environ 100 000 questions posÃ©es sur Stackoverflow â la communautÃ© ouverte d'entraide entre codeurs. Les principales Ã©tapes ont Ã©tÃ© : Webscraping des titres et du contenu des questions posÃ©es par les internautes portant sur les formats de donnÃ©es ou le mode de diffusion (comportant l'un des mots clÃ©s suivants : csv,api, json, rdf, xlsx, xls, xml, excel). Analyse textuelle des titres et du contenu des questions Tokenisation des phrases Utilisation de modÃ¨les prÃ©-entraÃ®nÃ©s sur de large corpus de textes pour tagger chaque mot selon sa catÃ©gorie (nom / verbe / complÃ©ment / adjectifâ¦) + repÃ©rage des liens entre les mots (voir annexe Â« analyse des verbatims stackoverflow Â») Utilisation du modÃ¨le BTM + crÃ©ation de clusters de bi-termes de mots les plus liÃ©s L'insee a effectuÃ© une enquÃªte pour recueillir de l'avis gÃ©nÃ©ral des internautes ayant visitÃ© le site insee,fr. Deux questions ouvertes portaient sur l'avis des internautes sur les points forts et les points faibles du site. L'utilisation du modÃ¨le BTM a permis de mettre en avant les principaux sujets de satisfaction ou de mÃ©contentement des internautes vis-Ã -vis du site insee.fr. Neuf proto-personas ont Ã©tÃ© crÃ©Ã©s â ils serviront de briques de base pour rÃ©colter l'opinion d'utilisateurs cibles lors d'ateliers UX.

OriginalitÃ© / perspective

Ce travail dÃ©montre l'intÃ©rÃªt d'utiliser les outils de Text Mining pour mener une recherche utilisateurs. Il s'agit bien souvent de synthÃ©tiser un nombre d'information Ã©lÃ©vÃ© (bien souvent sous forme de corpus de texte). Le travail menÃ© ici est Ã©galement une utilisation des techniques de machine learning pour des travaux UX.
Cooper,A. (1999, 2nd ed. 2004). The inmates are running the asylum. Macmillan Publishing. Lallemand C. Â« MÃ©thodologie de design UX Â»(2015, 2nd ed. 2018)
Yan, Xiaohui & Guo, Jiafeng & Lan, Yanyan & Cheng, Xueqi. (2013). A biterm topic model for short texts. WWW 2013 - Proceedings of the 22nd International Conference on World Wide Web. 1445-1456. 10.1145/2488388.2488514.

Télécharger les slides

Revoir le live :

MarylÃ¨ne Henry

Statisticienne

www.insee.fr

S'inscrire !

Ticket

Nos sponsors

Les stands partenaires

{\rtf1}