Les données sont personnelles. Ce que nous avons appris de 42 entretiens en Amérique rurale.

Cet article est basé sur notre article d'ACM CHI 2019 (Prix du meilleur article!) - Les données sont personnelles: attitudes et perceptions de la visualisation de données en Pennsylvanie rurale par Evan M. Peck, Sofia Ayuso et Omar El-Etr. Pour nos données, matériaux et autres résumés de ces travaux, veuillez visiter le site Web de notre projet.

Des granges aux barres graphiques en Amérique rurale

Le paysage du centre de la Pennsylvanie est magnifique où je travaille. Si vous prenez les 2 à 3 heures de route en partance de Philadelphie, de New York ou de Baltimore, vous entrerez dans un paysage façonné par des collines verdoyantes et des fermes à «trains miniatures». Vous verrez des calèches Amish défiler à travers de petites communautés soudées et, en chemin, vous passerez devant des stands de ferme, des drapeaux confédérés et des pancartes religieuses maison (parfois côte à côte). Nichée à côté de la région anthracite du charbon, l’Autorité centrale est une région qui a forgé son identité au même titre que la source d’énergie du charbon.

Il y a une vieille blague à propos de Lewisburg «disloquée centralement». Il faut 2 ou 3 heures de route pour aller à New York, Baltimore, DC et Philadelphie… mais vous ne rencontrerez aucune ville le long du chemin. Cette visualisation fantastique est tirée de https://pudding.cool/2018/10/city_3d/

Mais la topologie du terrain a plus d’impact que les types d’emplois que nous travaillons ou la distance que nous parcourons pour atteindre un restaurant indien. Cela peut avoir un impact fondamental sur la manière dont nous accédons aux données. Considérez cette citation du travail merveilleux de la Dre Jenna Burrell dans la Californie rurale:

Je soutiens que la mauvaise connectivité Internet n’est pas simplement une conséquence «naturelle» de la démographie des zones rurales où les résidents ont tendance à avoir un revenu inférieur, possèdent un niveau d’instruction inférieur et sont plus âgés. C'est une question d'exclusion. Cette exclusion est façonnée par la géographie, l'éloignement et la densité de population qui sont conséquents au sein d'une économie politique américaine particulière où la connectivité disponible est largement axée sur le marché.
- Jenna Burrell, «Réflexion relationnelle sur l'inégalité numérique dans les régions rurales des États-Unis».

La mesure dans laquelle notre accès à l'information peut nous autonomiser ou nous défavoriser en 2019. Et bien que M. Burrell parle d'inégalité dans le contexte de la connectivité Internet, nous souhaitons envisager l'exclusion dans le contexte de la communication de données - fait la manière dont nous présentons les données par visualisations aident certaines personnes à raisonner ou à comprendre les données plus que d'autres?

Vous pensez peut-être qu’il n’ya pas de différence quant à la façon dont les populations rurales raisonnent avec les données, il suffit de jeter un coup d’œil sur les cartes de vote présidentielles de 2016 pour constater que, d’une certaine manière, nous n’interprétons pas tous le monde de la même manière. Et les mêmes groupes démographiques mentionnés dans la citation ci-dessus - revenu inférieur, éducation inférieure, âge avancé - sont difficiles à trouver dans la littérature sur la visualisation des données. Que ne savons-nous pas?

Il suffit de jeter un coup d’œil rapide sur la carte présidentielle de 2016 pour constater que nous ne regardons pas tous le monde de la même manière. Cette image est tirée du New York Times: «Une carte extrêmement détaillée de l'élection de 2016»

Et donc, ici, dans la belle et centrale AP rurale, nous avons lancé un projet de recherche portant sur de grandes questions: qui porte attention à nos données et qui ne le fait pas? Pourquoi ne font-ils pas attention aux données? A quoi font-ils confiance… et pourquoi?

Nous avons demandé à plus de 40 personnes originaires de régions rurales de Pennsylvanie de classer une série de 10 graphiques. Ensuite, nous en avons parlé.

Sur un marché de producteurs, sur un chantier de construction et dans des restaurants universitaires, nous avons interrogé 42 membres de notre communauté sur des graphiques et des diagrammes afin de comprendre comment ils comprenaient et utilisaient les données.

  • Nous avons montré aux personnes 10 visualisations de données sur l’usage de drogues, avec des encodages visuels, leur style et leur source.
  • Nous leur avons demandé de classer les 10 graphiques (sans information de source!) En fonction de leur utilité.
  • Après avoir révélé les sources des graphiques, les utilisateurs ont eu la possibilité de redéfinir leurs visualisations.
Les 10 tableaux et graphiques que nous avons demandé aux gens de classer. Au début, les gens les ont classés SANS connaître leur source. Par la suite, des sources graphiques ont été révélées et ils ont eu la possibilité de récupérer leurs données.

Les gens à qui nous avons parlé n’étaient pas seulement jeunes et n’étaient pas seulement au collège. Ils sont diversifiés dans leurs études (60% n'ont jamais terminé l'université) et leur âge (26% étaient âgés de 55 ans et plus, 33% entre 35 et 44 ans). Après de nombreuses heures de conversation, voici ce que nous avons trouvé…

Les données agrégées sont compliquées et cachent des individus

Pour obtenir une vue de haut niveau, commençons par voir combien de personnes ont attribué à chaque graphe chaque classement:

Combien de fois chaque graphique a reçu chaque classement des participants. 1 est le meilleur, 10 est le pire.

Nous n’avons pas mis longtemps à nous rendre compte que les données de classement étaient désordonnées - au point que le partage de moyennes ou de médianes agrégées était inutile. Nous avons beaucoup à dire à ce sujet dans notre document, mais pour les besoins de cet article, les préférences et l'attention individuelles sont compliquées. Les infographies sont un facteur de division (le graphique J a reçu le plus grand nombre de classements et le plus grand nombre de classements: 10)!

Outre ces tendances approximatives, si nous voulons vraiment communiquer des données à tout le monde, nous devons en savoir plus sur ces distributions en désordre. Quelles sont les histoires derrière les données?

Les données sont personnelles. Les données sont intimes.

En analysant et en codant nos entretiens, nous nous sommes souvenus de quelque chose que nous oublions souvent: les données peuvent être intimes et personnelles. Si quelqu'un trouvait un lien personnel avec un graphique, peu importait la couleur, le style ou la technique. Pour les personnes à qui nous avons parlé, les graphiques avec des connexions personnelles ont remplacé toutes les autres dimensions de conception.

Les personnes touchées par l’alcool ont été attirées par les graphiques avec de l’alcool….

L'information sur l'alcool [est le plus important].
J'ai affaire à un alcoolique en état de fonctionnement. La personne la plus importante de ma vie est un alcoolique.
Pour le moment, c’est important pour moi.
 - 65–74 ans, diplômé universitaire

Les personnes touchées par les opioïdes étaient attirées par les graphiques contenant des opioïdes…

Pour ce qui est des autres [graphiques], je connais assez de gens qui ont malheureusement un problème d'opioïdes… et c'est quelque chose que vous considérez… allez-vous voir cette personne demain ou pas?
 - 25–34 ans avec un peu de lycée, pas de diplôme

Maintes et maintes fois, les gens ont cité leur expérience personnelle pour rationaliser leurs décisions de classement. Et les histoires qu'ils nous ont racontées - des chercheurs qu'ils n'avaient jamais rencontrés - étaient souvent intimes…

J'ai quelques amis qui sont décédés [d'opioïdes], alors [graphique F] m'a dit ça comme ça.
 - 25–34 ans, diplômé du secondaire

Ce que nous trouvons frappant dans ces conversations n’est pas qu’elles se soient déroulées du tout, mais à la fréquence à laquelle elles se sont produites dans une conception d’entrevue qui ne les recherchait pas. Il est fort possible que de nombreuses autres personnes à qui nous avons parlé ont vécu des expériences similaires qui n’ont pas été dites. Et cela nous laisse avec des questions troublantes… comment pouvons-nous éventuellement tenir compte de facteurs personnels aussi puissants dans nos conceptions?

Les données sont personnelles: géographie pertinente

Bien que ces histoires personnelles puissent être difficiles à concevoir, d’autres nous incitent à des implications plus claires en matière de conception. Considérez la réponse d’un participant à la question de savoir pourquoi il a choisi de hiérarchiser le graphique linéaire à gauche par rapport au graphique linéaire à droite.

Je l'ai classé plus haut juste pour le simple fait que je vis en Amérique alors j'ai pensé que c'était plutôt pertinent… plus que l'autre.
 - 45–54 ans, diplôme d’associé

Pour être clair, ces deux graphiques concernent les États-Unis. Mais remarquez comment un seul d’entre eux a un titre clair qui rend explicite la connexion de données aux États-Unis? C'est un choix de conception simple, mais pour notre participant, c'est la pièce qui compte.

Les données sont personnelles: où est la maison?

Si vous êtes comme nous, vous pensez peut-être que nos résultats suggèrent que les visualisations de cartes sont des gagnants clairs et évidents. Après tout, l’ensemble des États-Unis comprend la Pennsylvanie (PA).

Et en fait, la Pennsylvanie comptait pour nos participants. Mais cela s'est manifesté de manière surprenante…

Ces deux cartes [de pays américains] sont [classées en bas] parce que je les aime moins. C’est tout le pays; c'est tellement énorme. Vous regardez naturellement votre état. C’est trop occupé. Je ne suis pas ravi avec ceux-ci.
 - âgé de 65 à 74 ans. diplôme d'études secondaires.
Certains participants ont détesté les vues cartographiques ne se concentrant pas sur la Pennsylvanie. Ils pensaient que la vue d'ensemble à l'échelle nationale détournait l'attention de l'histoire qu'ils cherchaient (leur maison).

Ce n'était pas une valeur aberrante. Nos belles cartes d'ensemble ont été régulièrement critiquées, souvent appelées «encombrées» ou «occupées». Bien que la Pennsylvanie soit sur la carte, elle est entourée de données denses provenant de régions du pays qui n’intéressaient pas les participants.

Ceci est intéressant car nous avons tendance à nous appuyer fortement sur le modèle de conception Général → Détails à la demande. Mais ce que nous constatons ici, c’est que certaines personnes trouvent que cet aperçu les empêche de détourner les informations clés qui les intéressent. Si nous avons accès à des informations personnelles (comme un navigateur ayant accès à la géolocalisation), il serait peut-être préférable de concevoir avec un nouveau modèle: Informations personnelles → Présentation.

Beaucoup de gens voient les données comme objectives. C'est dangereux.

À ce stade, les personnes ont jugé les visualisations sans en connaître la source. Mais une fois qu'ils ont fourni leur classement initial, nous avons révélé la source de nos 10 visualisations. Ils allaient de sources gouvernementales (Institut national de lutte contre l’abus des drogues) à des universités (Université Drexel) à des organes de presse (The New York Times, The Economist, BreitBart).

Mais pour la plupart des personnes que nous avons interrogées, les sources importaient peu. En fait, 60% de nos participants ont décidé de ne pas modifier leur classement, quelle que soit l’origine de la visualisation.

Pourquoi?

Nous avons constaté que de nombreuses personnes ont suggéré que la qualité objective de l'information était immuable quel que soit le lieu où les données pouvaient être présentées.

Je pense que l'information est une information, peu importe d'où elle vient.
- 18-24 ans, un peu de crédit universitaire (pas de diplôme)

En fait, pour beaucoup de gens, les données et la visualisation étaient synonymes. Pour ces personnes, le pipeline des données à la conception est clair et net, sans parti pris ni rhétorique.

Nous savons que ce n’est pas vrai… mais les gens y croient toujours. Comment pouvons-nous concevoir nos systèmes pour contrer ces fausses perceptions de l'objectivité?

Qui prend ces décisions?

En fouillant dans les données démographiques, nous avons constaté que les personnes interviewées ayant un niveau d'éducation supérieur étaient beaucoup plus susceptibles de changer de classement.

Les personnes mieux instruites étaient plus susceptibles d’être disposées à modifier leur classement après avoir vu la source de la visualisation.

Le schéma est intéressant, mais soyez prudent avec ces résultats. La taille de l'échantillon est trop petite pour commencer à courir avec des généralisations.

Mais il ya un point qui mérite d’être pris en compte: beaucoup de recherches et de directives qui guident nos conceptions de visualisation ont été élaborées au moyen d’études avec des personnes ayant au moins une expérience universitaire. Regardez attentivement comment nos résultats auraient changé sans ces personnes…

Le même graphique, mais en supprimant toutes les personnes qui n'avaient aucune expérience avec l'université.

L'histoire est très différente. Quelles hypothèses utilisons-nous dans nos documents de recherche, nos processus et nos directives de conception que nous ne connaissons peut-être pas? Quelles histoires pouvons-nous manquer?

La confiance compte. Pour les personnes qui font la source, l'identité politique peut définir leur confiance.

Parmi les personnes qui ont choisi de changer de classement, il n’est peut-être pas surprenant que certaines de leurs décisions soient conformes à leur identité politique. Les gens qui se sont identifiés comme plus libéraux que les conservateurs conservent des graphiques et des tableaux tirés du New York Times. Pendant ce temps, certains conservateurs ont réenregistré les graphiques de BreitBart plus haut que les libéraux.

Pour chacun de nos 10 graphiques, nous montrons comment les participants ont modifié leur classement une fois les sources révélées. La comparaison de ces changements d'appartenance politique révèle que l'identité politique peut changer la façon dont les gens valorisent ou font confiance aux visualisations de données.

Lutter contre ces implications est important. Alors que nous célébrons les histoires de données racontées dans le New York Times ou le Washington Post (pour de bonnes raisons!), Je pense que nous devons également nous demander qui investit réellement dans leur attention. Regardons-nous les mêmes données? Faisons-nous confiance de la même manière? Est-ce qu'on s'en souvient de la même manière?

Outre l'identité politique, une personne a même suggéré de prêter plus d'attention aux visualisations provenant de sources d'informations locales qu'aux sources nationales:

Je ne lis pas [le New York Times], mais même si j’aimais cette photo, je n’achèterais toujours pas le journal parce que je ne vivais pas à New York. Le papier Sunbury, qui est proche d’ici. Ensuite, je le lirais… mais je ne lirai toujours pas celui-là
 - 45 à 55 ans. Diplôme d'associé

Encore une fois, les questions personnelles. Et même si nous avons tendance à analyser des visualisations dans des environnements isolés et bien contrôlés, nos plates-formes sont également importantes.

Quelle est l'histoire de la visualisation de données?

Lorsque j'enseigne la visualisation de données à des étudiants, je mène souvent avec ce que je crois être l'histoire fascinante du domaine. Ca fait plutot comme ca…

  • Le raisonnement sur les données est une compétence nécessaire pour tout le monde en 2019. Qu'il s'agisse de emprunter des prêts, de choisir un collège ou de comprendre le changement climatique, nous devons comprendre les données pour prendre des décisions éclairées aussi bien pour nous que pour nos communautés.
  • La visualisation des données est un outil essentiel qui améliore la compréhension et le raisonnement avec les données. Au plus haut niveau, il a le potentiel de démocratiser les données et de les rendre plus accessibles à davantage de personnes. C'est excitant!

Mais…

Si vous croyez cette histoire de la même manière que moi, cela signifie également que nous devons poser des questions difficiles sur la visualisation des données de la même manière que nous posons des questions difficiles sur d'autres technologies en 2019.

Les outils qui nous amplifient - y compris la visualisation de données - ont également le potentiel d’approfondir les divisions s’ils ne sont pas conçus pour tout le monde.

Nous avons besoin de mieux comprendre qui amplifie la visualisation et qui la laisse derrière elle.

Quelle est la meilleure façon de faire cela?

Cet article est basé sur notre article d'ACM CHI 2019 (Prix du meilleur article!) - Les données sont personnelles: attitudes et perceptions de la visualisation de données en Pennsylvanie rurale par Evan M. Peck, Sofia Ayuso et Omar El-Etr. Pour nos données, matériaux et autres résumés de ces travaux, veuillez visiter le site Web de notre projet.