Le score parfait: comment quantifier le comportement des utilisateurs et créer des personnages UX plus précis

Les données qualitatives sont très utiles, mais elles peuvent facilement être mal interprétées lorsqu’elles sont analysées par différentes personnes. Nous avons chacun nos propres points de vue et nos propres préjugés lorsque nous essayons de décompresser les données des entretiens, des tests d'utilisabilité et des enquêtes. Cela est particulièrement vrai lorsque nous analysons les données des interviews des utilisateurs dans le but de créer des personas UX. Dans ce billet de blog, je vais parler du processus d’implémentation d’un guide de scoring et aborder certains des problèmes que nous avons rencontrés lors de la quantification de données d’utilisateur qualitatives.

Je voudrais préciser que cet article mettra l'accent sur l'utilisation d'une méthode de notation pour aider à interpréter les données qualitatives des utilisateurs aux fins du développement personnel.

Ma première expérience dans une équipe de recherche a été à l'IDC Herzliya et à l'Institut Weizmann, menant des recherches comportementales pour des participants atteints d'autisme. J'étais en charge de la collecte et de la notation des tâches motrices et comportementales de chaque participant. Nous avons enregistré des mesures telles que la durée du contact visuel et le nombre de sourires dans une conversation. Mais il fallait aussi mesurer de précieuses données subjectives: quelle était la qualité de leur flux de conversation ou de l'engagement affectif au cours de la conversation? L'une des choses les plus fascinantes de notre recherche a été la façon dont nous avons travaillé pour quantifier les données qualitatives et veiller à ce que toutes nos données subjectives soient mesurées de manière cohérente. Pour ce faire, nous avons créé un guide de notation standard décrivant les définitions de chaque mesure comportementale et normalisé un moyen d’analyser les données d’une conversation brève afin de donner aux utilisateurs un score comportemental.

Dans une nouvelle entreprise et dans une nouvelle industrie, je suis confronté au même problème. Lorsque Sam, notre chercheur principal UX, a commencé à plonger dans les données d'interview pour le développement personnel, elle a créé des dimensions pour différents comportements de déplacement, que nous avons examinées pour chaque utilisateur. Ces dimensions allaient de la fréquence des voyages à la convivialité (consultez son billet de blog «Comment faire une cartographie de personnages avec plus de 50 utilisateurs» pour en savoir plus). Chaque dimension a été notée sur une échelle de 1 à 5 sur la base de nos données qualitatives sur les utilisateurs. Prenons la fréquence de déplacement par exemple. Un score de 1 signifie que l'utilisateur se déplace sur une base mensuelle, tandis qu'un score de 5 signifie qu'il voyage une fois par an. Ce type de dimension est quantitatif car le score est basé sur un nombre spécifique de fois qu'un utilisateur a voyagé.

Qu'en est-il d'une dimension comme la sagesse de Voyage? C’est là que la notation est devenue compliquée. Qu'est-ce que cela signifiait si un utilisateur était averti des voyages? Ont-ils voyagé fréquemment ou eu une tonne d'adhésions, ou les deux? Lorsqu'il n'y avait qu'un chercheur UX dans l'équipe de notation, ce type d'informations n'existait que dans sa tête et ses scores étaient déterminés davantage par un sentiment que par une définition. Cela ne veut pas dire que marquer en fonction d’un sentiment est nécessairement mauvais. Lorsque je marquais un engagement efficace dans une conversation, je me rendais compte que les utilisateurs se verraient attribuer la note 1 ou 5. Toutefois, il ne suffit pas de se lancer dans une «intuition», car il est impossible de notez systématiquement chaque utilisateur de la même manière, en particulier si davantage de chercheurs UX contribueront aux données des utilisateurs. Sans cohérence, les notes 1 à 5 signifieront quelque chose de différent pour chaque utilisateur. Afin de noter (et donc de mesurer) ces dimensions avec précision, nous avions besoin d'un moyen de quantifier les données qualitatives. En conséquence, nous avons créé un guide de scoring standard - un document qui explique en détail comment traduire les données comportementales en données numériques quantifiables.

Qu'est-ce que le guide de notation standard?

En termes simples, un guide de notation standard s'apparente à un dictionnaire. Il documente la manière dont vous décidez de définir une plage numérique dans une dimension. Il fournit des exemples et des citations pour donner également un contexte à la définition.

Voici une dimension quantitative simple qui évalue la fréquence des voyages d’un utilisateur en fonction de la fréquence de ses voyages par an. La gamme créée ici était basée sur nos réponses lors d'entretiens avec les utilisateurs. La valeur réelle d’un guide de notation normalisé s’applique à des dimensions plus complexes telles que celle ci-dessous:

Une dimension telle que la maîtrise des déplacements peut être vague sans directives spécifiques indiquant la manière dont différents facteurs jouent dans le score de l’utilisateur. Dans ce cas, nous avons décidé qu'il y avait 4 facteurs différents à prendre en compte lors du calcul de la sécurité des déplacements.

1. L'utilisateur collecte-t-il et utilise-t-il des points d'adhésion?
2. Est-ce qu'ils voyagent plus de 6 fois par an?
3. Est-ce qu'ils voyagent à la fois sur le plan international et national?
4. Savent-ils leur chemin sur les sites de voyage? Ont-ils un système établi?

Maintenant que plusieurs facteurs influent sur la sécurité des voyageurs, nous pouvons évaluer les utilisateurs en fonction du nombre de critères qu’ils ont remplis. Un utilisateur qui n’a pas ou n’utilise pas de points d’adhésion, ne voyage pas hors des États-Unis, mais est à l'aise de réserver un voyage et se rend fréquemment en Californie est considéré comme un 3 pour la courtoisie de voyage s'il satisfait à 2 des 4 critères. Même avec ce schéma, des erreurs peuvent subsister lorsqu’on interprète un facteur tel que «disposer d’un système de réservation établi». Pour en tenir compte, nous avons ajouté des exemples de participants qui correspondent «parfaitement» au score défini. De cette façon, en cas de confusion, nous pouvons revenir en arrière et voir comment un utilisateur se compare à l'utilisateur exemple.

Une autre façon de définir serait de considérer les scores dans chaque dimension comme des déclarations «si… alors…». Considérons l’habitude de dépenser…

Si, l'utilisateur A aime faire des folies, préfère les hôtels de 4 à 5 étoiles et utilise la classe économique premium, l'utilisateur A obtiendra un 2 pour ses habitudes de dépenses.

Alors…

Ici, nous examinons toujours plusieurs facteurs qui influent sur les habitudes de consommation, mais au lieu de dire «cet utilisateur doit cocher 2 des 4 facteurs», nous examinons les facteurs qui entrent dans ces facteurs (comme le classement par étoiles et la classe de voyage) pour aider nous déterminons comment noter les habitudes de dépenses.

Comment commencer à construire votre guide de notation standard

1. Définissez votre plage en fonction de vos entretiens avec les utilisateurs

Vous pouvez créer vos dimensions et définir chaque partition au sein de votre dimension avant même de commencer votre interview utilisateur, mais cela ne vous fera pas beaucoup de bien. Il est possible de vraiment fausser la gamme en ne sachant pas comment les utilisateurs ont tendance à se comporter. Supposons que vous définissiez d'abord votre plage, puis interrogez vos utilisateurs. Vous constatez que la plupart des utilisateurs ont obtenu un 5, mais que tous les utilisateurs dont le score est de 5 pourraient avoir des comportements quelque peu différents. La gamme utilisée n’est pas une division efficace des comportements. Pour que le guide soit efficace, chaque utilisateur - quel que soit son comportement - doit correspondre à un score afin de ne pas diluer les données avec des correspondances approximatives. Par conséquent, il est bien préférable d’évaluer la façon dont vos réponses varient d’un utilisateur à l’autre et d’en façonner les définitions.

2. Déterminez les différents cas d'utilisation et appliquez-les dans vos définitions

Une fois que vous aurez réalisé une partie de vos entretiens, vous aurez une meilleure idée de ce à quoi ressemblerait votre portée pour différentes dimensions. Commencez avec un cadre de ce que vous pensez le plus logique en fonction de vos réponses. Lors de la définition de la dimension «importance des examens», cela a commencé très simplement:

En parcourant toutes les réponses des utilisateurs, nous avons pu définir plus clairement chaque score:

3. Trouvez les meilleurs exemples! Ils sont votre référence!

Avoir des définitions écrites ne suffit pas pour assurer une notation cohérente. Même lors de la lecture de directives spécifiques, il reste une marge d'interprétation. La chose la plus utile à faire ici est de choisir un exemple de participant (et une citation ou un clip) qui représente le score de manière parfaite ou très proche. L'ajout de citations contextuelles aidera à maintenir la cohérence lors du scoring.

4. Cela va évoluer!

Au fur et à mesure que vous interviewez plus d'utilisateurs, vous rencontrerez quelques cas où un utilisateur ne correspond à aucun score. Il est important de se rappeler qu’un guide de notation est un document vivant qui va changer ici et là au fil du temps. Cela ne signifie pas que vous modifiez complètement la définition, mais vous pouvez plutôt ajouter une note qui traiterait d'un cas d'utilisation plus spécifique. Un bon exemple de cela est lorsque Sam a interrogé des utilisateurs au Royaume-Uni et a constaté que la façon dont nous avons défini les voyages internationaux par rapport aux voyages intérieurs aux États-Unis ne s'appliquerait pas de la même manière aux utilisateurs britanniques. Au lieu de cela, nous avons dû ajouter un cas d'utilisation pour ces utilisateurs:

Il est important de se rappeler que le guide de notation standard n’est pas une science parfaite, et qu’il est toujours possible de faire preuve de partialité. Cependant, notre équipe a davantage confiance en la qualité et la cohérence de l'analyse des données. Bien que ce processus ait été appliqué à l'origine dans la recherche comportementale, il peut également s'appliquer à tout ensemble de données qualitatives. Dans UX, beaucoup d’entre nous proviennent de différents milieux académiques et professionnels, que nous pouvons utiliser pour appliquer différentes perspectives et méthodes afin d’améliorer notre approche du processus UX. Dans notre cas, cela nous a aidés à représenter plus précisément un spectre de comportements réels et cohérents dans nos personnages, que nous utilisons pour améliorer nos conceptions.