Synthèse sur les évaluations d’utilisabilité à facettes

Approche générale de l’évaluation de l’utilisabilité : définition, mesures et méthodes

par Anne Crédeville

L’approche selon le critère d’utilisabilité vise à évaluer le système – dans notre cas de figure, la navigation à facettes non hiérarchiques ou hiérarchiques – selon l’expérience qu’en retire l’utilisateur en tenant compte ses caractéristiques individuelles, sa tâche finale, et son environnement. Cette approche évaluative est particulièrement utilisée dans le cadre de l’ergonomie cognitive.

Les bénéfices ou irritants en matière d’utilisabilité caractérisant l’expérience de l’utilisateur se mesurent en fonction de l’efficience, l’efficacité et la satisfaction que procure l’utilisation du système pour réaliser la tâche finale.

FaviconSommaire

Définition
Les mesures d’utilisabilité
Les méthodes d’utilisabilité
Les méthodes d’évaluation d’utilisabilité : caractérisation et limites
Les méthodes spécifiques pour les études sur les interfaces de recherche ou de navigation à facettes
Études examinées par Fagan (2010)
Conclusions de Fagan
Systèmes recensés dans la littérature
Les tendances et recommandations pour la conception d’interface à facettes

Définition

L’utilisabilité désigne la propriété d’un système démontrant son caractère utile. On parle aussi souvent de système convivial. Les propriétés fonctionnelles et autres caractéristiques pertinentes à son bon usage facilitent et permettent l’accomplissement de la tâche pour laquelle ils ont été conçus, fournissent l’ensemble des ressources utiles à l’accomplissement de la tâche et sont faciles à utiliser du point de vue de l’utilisateur cible. Dans le domaine précis de l’interaction homme-machine, l’utilisabilité fait l’objet de la norme ISO 9241. Elle établit comme mesures standards celles de l’efficacité, l’efficience et la satisfaction pour un contexte d’usage situé.(Kulyk et al. 2008, 17).

En outre, on peut considérer l’utilisabilité relative d’un système tout comme absolu. En fonction de la perspective choisie, la méthode va différer; et les variables et mesures considérées dans les expérimentations, aussi.

Retour au sommaire

Les mesures d’utilisabilité

Il est souvent fait mention de trois mesures standard phare de l’utilisabilité : efficacité, efficience et satisfaction. Ces mesures générales regroupent en fait plusieurs sous-dimensions relatives à l’environnement, la tâche et les dimensions individuelles de l’utilisateur. Dans un article faisant un état de l’art sur le concept d’utilisabilité et sa prise en compte dans l’architecture logicielle, Folmer et Bosh (2004) dressent l’ensemble des critères d’utilisabilité en fonction des différents auteurs spécialistes et des normes d’utilisabilité. Aux mesures d’utilisabilité établies par les normes ISO que sont l’efficacité, l’efficience et la satisfaction, ce tableau montre que d’autres critères d’utilisabilité sont aussi considérés dans la communauté scientifique du domaine de l’ergonomie cognitive (Tableau 1, ci-après). Ces critères mesurent l’utilisabilité du système selon deux dimensions objectives et subjectives de l’expérience :

  • la performance du système
  • la satisfaction de l’utilisateur

Tableau 1: critère d’utilisabilité selon les perspectives objectives et subjectives du modèle de l’utilisateur (adapté de Folmer et Bosh 2004, 6)

Critères d’utilisabilité

Dimensions

Critères

Références

Performance du système (objectif)

Apprenabilité

(Shackel et Richardson 1991; Nielsen 1993 ; Normes ISO 9241-11 2008 et 9126 1991)

Efficacité

(Shackel et Richardson 1991; Nielsen 1993 ; Normes ISO 9241-11:1998 et 2008 ; 9126: 1991)

Efficience

(Shackel et Richardson 1991; Nielsen 1993 ; Normes ISO 9241-11:2008 et 9126:1991)

Mémorabilité

(Nielsen 1993)

Erreurs

(Nielsen 1993)

Opérabilité

(Norme ISO 9126 :1991)

Compréhensible

(Norme ISO 9126 :1991)

Satisfaction de l’utilisateur (subjectif)

Flexibilité

(Shackel 1991)

Satisfaction

(Nielsen 1993; ISO 9241-11 :1998 et 2008)

Attitude

(Shackel 1991)

Attractivité

(Norme ISO 9126)

Retour au sommaire

Les méthodes d’utilisabilité

Dans une certaine mesure, toutes les méthodes d’évaluation des systèmes interactifs de recherche d’information visent – a minima – à attester de la capacité du système à satisfaire l’utilisateur (Al-Maskari et Sanderson 2010). Selon les méthodes, les critères prépondérants de satisfaction varient selon le modèle de  l’utilisateur et selon les composantes du système considérées.

Évaluer l’utilisabilité d’un système consiste à démontrer que les différents corps de fonctions du système (indexation, organisation, et affichage interactif de l’information) facilitent les processus de l’utilisateur tant cognitif que physique. L’allègement de la charge cognitive associée à l’utilisation de l’outil dans le contexte d’activité est au cœur du principe d’utilisabilité. Les méthodes d’utilisabilité (heuristique, cheminement cognitif, tests utilisateurs et guidelines) visent à évaluer l’efficacité, l’efficience et la satisfaction, mesures standards en interaction homme-machine établies par la norme ISO 9241 (“Norme ISO 9241-11:2008 – Ergonomie de L’interaction Homme-système — Partie 171: Lignes Directrices Relatives à L’accessibilité Aux Logiciels” 2008). Ainsi, établir un haut degré d’utilisabilité suggère que la charge mentale associée à l’utilisation de l’outil est plus faible que celle occasionnée par les processus liés à la tâche. Par là-même, il est suggéré un lien de cause à effet entre l’évaluation positive de l’efficacité, de l’efficience et de la satisfaction du système et la variation de la charge mentale générée par l’activité de recherche. Enfin, l’analyse statistique inférentielle de ces mesures prises à partir des données comportementales – qualitatives ou quantitatives – permet de pouvoir interpréter dans environnement dont tous les paramètres ne sont pas connus avec certitude.

Selon la norme ISO 16982 :2002, qui actualise la précédente (ISO 9241), les méthodes d’utilisabilité se déterminent en fonction de 6 facteurs : « les étapes de cycle de vie; les caractéristiques des utilisateurs; les caractéristiques de la tâche à exécuter, le produit ou le système lui-même, les contraintes du projet, le degré d’expertise en ergonomie disponible au sein de l’équipe de développement ou d’évaluation » (ISO 16982 :2002, 5-6). Ainsi, on choisit en fonction de ces facteurs, les méthodes de collecte de données permettant de mesurer l’utilisabilité.

Nom de la méthode

Participation directe des utilisateurs

Brève description des méthodes

Observation des utilisateurs

O

Collecte des informations de manière précise et systématique sur le comportement et les performances des utilisateurs, dans le contexte de tâches spécifiques au cours de l’activité de l’utilisateur.
Mesurages relatifs aux performances

O

Collecte de mesures des performances quantifiables afin de comprendre les effets des problèmes l’utilisabilité.
Incidents critiques

O

Collecte systématique d’évènements spécifiques (positifs ou négatifs)
Questionnaires

O

Méthode d’évaluation indirecte qui recueillent, au moyen de questionnaires prédéfinis, les opinions des utilisateurs sur l’interface.
Interviews

O

Proches des questionnaires mais d’une plus grande flexibilité et avec une procédure en face à face.
Penser à haute voix

O

Penser à haute voix implique que les utilisateurs verbalisent continuellement leurs idées, leurs représentations, leurs attentes, leurs doutes, leurs découvertes, etc. au cours de l’utilisation du système testé.
Conception et évaluation collaboratives

O

De telles méthodes permettent à différents types d’acteurs (utilisateurs, développeurs de produits et spécialistes des facteurs humains, etc.) de collaborer à l’évaluation ou à la conception des systèmes.
Méthodes de créativité

O/N

De telles méthodes consistent à faire émerger des caractéristiques pour de nouveaux produits et systèmes, généralement issues d’interactions au sein de groupes. Dans le contexte des approches centrées sur l’opérateur humain, les membres de tels groupes sont souvent des utilisateurs.
Méthodes basées sur des documents

N

Le spécialiste de l’utilisabilité se sert de documents existants pour établir son propre jugement.
Approches basées sur des modèles

N

Utilisation de modèles qui sont des représentations abstraites du produit évalué et qui permettent de prévoir les performances des utilisateurs.
Évaluation par expertise

N

Évaluation s’appuyant sur la connaissance, l’expertise et l’expérience pratique en ergonomie du spécialiste en utilisabilité.
Évaluation automatisée

N

Basée sur des algorithmes centrés sur des critères d’utilisabilité ou sur des systèmes basés sur la connaissance ergonomique, les évaluations automatisées diagnostiquent les défaillances d’un produit par rapport à des règles prédéfinies.

Ces méthodes (tableau ci-avant, repris textuellement de la norme ISO) appellent certaines métriques plutôt que d’autres, sont plus ou moins quantitatives ou qualitatives et impliquent ou pas la participation directe des utilisateurs. On remarque, nonobstant l’exhaustivité, que ces méthodes sont décrites assez  généralement.

On remarque que certaines méthodes sont préférées dans le cas de l’évaluation de l’utilisabilité d’interface de recherche d’information dont font partie les études menées spécifiquement sur les interfaces de navigation ou de recherche à facettes (Sugimoto et Kelly 2013, Dugast 2011 et Fagan 2010).

Retour au sommaire

Les méthodes d’évaluation d’utilisabilité : caractérisation et limites

Les méthodes d’utilisabilité sont maintenant couramment utilisées et populaires. Wilson (2009) rapporte que, dans le cadre du COST294-MAUSE (Law et al.  2005), un projet international a été mené visant à cataloguer et évaluer ces méthodes dans leur application. Law et al 2009 ont dressé un rapport des conclusions auxquelles les 4 groupes de travail sont arrivés.

Le premier groupe de travail « WG 1: Critical Review and Analysis of Individual UEMs » avait pour objectif d’identifier et de cataloguer l’ensemble des méthodes (Wilson 2009, 44). Le catalogue complet a été publié séparément par Scapin et Law (2007). Le second groupe « WG 2: Comparing UEMs: Strategies and Implementation » s’est dédié à l’évaluation comparée de ces méthodes. Le troisième groupe, « WG 3: Refining and Validating Classification Schemes for Usability  Problems » ont étudié les méthodes d’évaluations de type qualitative; et le quatrième groupe les méthodes « automatiques ». Le quatrième groupe « WG 4: Review on the Computational and Definitional Approaches in Usability Evaluation » présente une revue des modèles et des procédures existantes afin d’identifier les paramètres clefs de l’utilisabilité ainsi que les métriques qualitatives d’utilisabilité.

Dans la même lignée, mais adoptant une méthode d’analyse systématique et critique de la littérature, Sugimoto et Kelly (2013) ont récemment publié un rapport présentant l’ensemble des méthodes d’évaluation utilisées pour évaluer les interfaces de recherche d’information. Parmi les méthodes identifiées, figurent les méthodes d’utilisabilité. Ils ont identifiés aussi des métriques d’utilisabilité comme dans le cas du rapport MAUSE-Cost294, mais l’avantage est que cette revue cible les interfaces de recherche d’information interactive. Dès lors les métriques identifiées sont plus pertinentes.

Retour au sommaire

Les méthodes spécifiques pour les études sur les interfaces de recherche ou de navigation à facettes

Peu d’études ont comparé les interfaces de recherche à facettes hiérarchiques versus non hiérarchiques. La plupart des études d’utilisabilité comparent soit des interfaces de recherche soit précisément des fonctionnalités de navigation à facettes dans le cadre récurant des bibliothèques numériques, des OPAC Web ou des répertoires Web (Dugast 2011 et Fagan 2010). De plus, il est souvent question d’étude utilisateur plus que d’étude d’utilisabilité à proprement parler (Fagan 2010). Deux catégories d’étude sont identifiées par Fagan (2010) :

  • les études empiriques issues de la recherche académique
  • les études utilisateurs en situation réelle menées par des bibliothécaires sur une population particulière et des produits bien spécifiques.

Retour au sommaire

Études examinées par Fagan (2010)

Capra, Robert, Gary Marchionini, Jung Sun Oh, Fred Stutzman, and Yan Zhang. 2007. “Effects of Structure and Interaction Style on Distinct Search Tasks.” In Proceedings of the 7th ACM/IEEE-CS Joint Conference on Digital Librarie, 442–451. Vancouver, BC, Canada: ACM New York, NY, USA.

English, Jennifer, Marti Hearst, Rashmi Sinha, Kirsten Swearingen, and Ka Yee. 2002a. “Flexible Search and Navigation Using Faceted Metadata.” (Submitted for Publication). http://citeseer.ist.psu.edu/correct/604137.

English, Jennifer, Marti Hearst, Rashmi Sinha, Kirsten Swearingen, and Ka-Ping Yee. 2002b. “Hierarchical Faceted Metadata in Site Search Interfaces.” InCHI ’02 Extended Abstracts on Human Factors in Computing Systems, 628–639. CHI EA ’02. New York, NY, USA: ACM. doi:10.1145/506443.506517. http://doi.acm.org/10.1145/506443.506517.

Van Zwol, Roelof, Börkur Sigurbjornsson, Ramu Adapala, Lluis Garcia Pueyo, Abhinav Katiyar, Kaushal Kurapati, Mridul Muralidharan, et al. 2010. “Faceted
Exploration of Image Search Results.” In Proceedings of the 19th International Conference on World Wide Web, 961–970. WWW ’10. New York, NY, USA:
ACM. doi:10.1145/1772690.1772788. http://doi.acm.org/10.1145/1772690.1772788.

Yee, Ka-Ping, Kirsten Swearingen, Kevin Li, and Marti Hearst. 2003. “Faceted Metadata for Image Search and Browsing.” InProceedings of the SIGCHI Conference on Human Factors in Computing Systems, 401–408. CHI ’03. New York, NY, USA: ACM. doi:10.1145/642611.642681. http://doi.acm.org/10.1145/642611.642681.

Uddin, Mohammad Nasir, and Paul Janecek. 2007. “Performance and Usability Testing of Multidimensional Taxonomy in Web Site Search and Navigation.” Performance Measurement and Metrics 8 (1) (March 27): 18–33. http://dx.doi.org/10.1108/14678040710748058.

Wanda Pratt, Marti A. Hearst, and Lawrence M. Fagan. 1999. A Knowledge-Based Approach to Organizing Retrieved Documents, Proceedings of the Sixteenth National Conference on Artificial Intelligence, July 18–22, Orlando, Florida (Menlo Park, Calif.: AAAI Pr., 1999) : 80–85.

Retour au sommaire

Conclusions de Fagan

Les études empiriques (fondées sur la mise en évidence de preuve) apportent des résultats positifs en faveur des hypothèses selon lesquelles le dispositif de navigation « à facettes » apporte un soutien du point de vue de l’utilisateur au niveau de l’interface de recherche. (Fagan 2010, 62 notre traduction) :

  • Utiles pour créer des structures de navigation créatives
  • Facilitent le repérage et la recherche dans les bases de données
  • Évite les recherches orphelines de résultats
  • Performance en terme de vitesse d’utilisation
  • Les résultats trouvés sont plus pertinents
  • Appréciation positive des facettes a priori, mais pas de réaction positive notable à ce propos
  • Préférence des utilisateurs pour des résultats de recherche organisés dans des hiérarchies prédictibles et mutidimensionnelles
  • La satisfaction des usagers étaient plus importantes avec les systèmes à facettes
  • Les utilisateurs montraient plus de confiance avec le système à facettes
  • Les utilisateurs préfèrent le mode question réponse de par son aspect familier
  • Les premières réactions des utilisateurs semblent relever d’une certaine prudence en raison des différences et de la non-familièreté.

En contexte réel (VS études empiriques), les études utilisateurs sur la navigation à facettes présentent des caractéristiques limitant la généralisation de leurs résultats

  • Plus petit nombre d’utilisateurs
  • Focus sur l’ensemble de l’interface plutôt que certaines fonctionnalités
  • Utilisent des méthodes divergentes
  • Relié seulement à un produit spécifique ce qui introduit beaucoup de variance dans les résultats.

À partir de l’analyse des méthodologies employées dans les études, Fagan émet des recommandations de types « meilleures pratiques »

  • Au niveau de la conception de l’étude, elle préconise de porter certaines attentions au niveau des étapes-clefs, lesquelles sont :
    • Réutiliser généralement des protocoles qui ont fait leur preuves dans les études antérieures
      • Pour tester les méthodes
      • Pour avoir des points de comparaison
    • Définir des objectifs clairs et précis
    • Une étude par type d’utilisateur [pour éliminer au maximum les sources de variances et avoir plus de contrôle]
    • Effectuer des pré-tests pilotes
    • Laisser les utilisateurs explorer les interfaces
  • Au niveau de la conception des tâches, [en particulier pour les tâches spécifiquement de recherche d’information exploratoire, Kules et Capra ont écrit un article la conception de ce type de tâches présentant les caractéristiques que doit respecter une tâche de recherche d’information exploratoire (Kulesand Capra 2009; Kules and Capra 2008; Kules et al. 2009) :
    • S’assurer que la performance est mesurable sur chacune des tâches
    • Établir des bancs de comparaison, et permettre d’étudier selon le même protocole (design) tour à tour :
      • Les différences entre les interfaces
      • Les différences entre les utilisateurs (expertises)
      • Les différences entres les domaines de recherche
    • Tester les limites du système :
      • Par exemple quand aucun résultat ne sort
    • Concevoir les tâches afin qu’il y ait le moins de sources possibles de distraction vis-à-vis des tâches initiales.
    • Proposer des requêtes simples
    • Si on mesure le temps, il faut faire attention à ce que les tâches demandées (et donc par exemple, le temps de lire ce qu’il y a à faire) soient bien comparables entre elle pour ne pas affecter le résultat du temps écoulé pour exécuter les tâches.
    • Bien prendre en compte les implications de l’environnement choisi pour mener l’expérimentation
  • Au niveau de la population :
    • Essayer d’obtenir un plus large nombre d’utilisateurs
      • « Nielsen (1993) suggests that twenty users is sufficient”

Retour au sommaire

Systèmes recensés dans la littérature

VuFind, Flamenco, mSpace, Relation Browser (RB07) (Capra et Marchionini 2008), Endeca, Exhibit (Huynh et al 2006) développé au MIT

À recenser en plus :

Kules, Bill et Robert Capra. 2010. The influence of search stage on gaze behavior in a faceted search interface. Proceedings of the American Society for Information Science and Technology 47:1, 1-2. Online publication date: 1-Nov-2010. http://www.asis.org/asist2010/proceedings/proceedings/ASIST_AM10/submissions/398_Final_Submission.pdf

Les tendances et recommandations pour la conception d’interface à facettes

Enfin, on trouvera les recommandations actuelles issues d’une expérience de 13 années dans le domaine des interfaces des systèmes de navigation à facette, fondée notamment sur les évaluations qui ont été faites des interfaces (Hearst 2006 et 2008). On retient aussi l’impact des caractéristiques de la recherche d’information exploratoire sur l’usage des interfaces à facettes (Kules and Capra 2009).

Retour au sommaire