Quan et al.

User Interfaces for Supporting Multiple Categorization

de Dennis Quan, Karun Bakshi, David Huynh & David R. Karger

Résumé par Simon Côté-Lapointe

Référence : Quan, D., Bakshi, K., Huynh, D., & Karger, D. R. (2003). User interfaces for supporting multiple categorization. In Proceedings of INTERACT (pp. 228-235).

Cliquez ici pour accéder à l’article original

Abstract

[Traduction du résumé de l’article]

La quantité d’information stockée et accessible par ordinateur a augmenté au cours des vingt dernières années; les outils disponibles pour organiser et rechercher de telles informations sont devenus désuets. Dans les interfaces utilisateurs, la présentation par dossiers est encore le mécanisme de prédilection pour organiser l’information au quotidien. Ce paradigme [« folder paradigm »]  encourage un ou plusieurs dépôts de documents dans une structure hiérarchique rigide. Dans cet article, nous examinons un mécanisme alternatif d’organisation et de navigation qui promeut des catégories multiples qui se chevauchent. Nous explorons en particulier les conséquences, du point de vue de l’interface utilisateur, de l’utilisation de catégories multiples appliquée au moteur de recherche web [« Web browsers »]. Nous avons réalisé des études sur les usagers prouvant que, comparées au « paradigme du dossier » [« folder paradigm »], les catégories multiples améliorent non seulement l’organisation et la recherche mais aussi correspondent plus précisément à la manière dont les usagers conçoivent instinctivement l’organisation de leur information.

Plan du texte

1. Introduction

1.1. Filing Documents
1.2. Retrieving Documents
1.3. Contribution
1.4. Related Work

2. Approach

3. Experimental Method

3.1. Participants
3.2. Test Environment
3.3. Organization Session
3.4. Navigation Session

4. Results

4.1 Organization Session
4.2 Navigation Session

5. Discussion

6. Conclusion
Références sélectionnées

1. Introduction

–        ­Depuis 20 ans, les outils informatiques ont évolués, mais les outils axés utilisateurs pour organiser l’information n’ont pas évolués autant.

–        Le système hiérarchique de fichiers demeure dominant pour classer et catégoriser les documents.

–        Avant : usagers n’avaient pas tant de fichiers à gérer, donc le système fonctionnait.

–        Maintenant : usagers ont des milliers de contenus différents (courriels, documents, pages web) : les limites du système traditionnel sont atteintes.

1.1. Filing Documents

Classer les documents

 –        Système hiérarchique :

  • Design issu des classeurs utilisés depuis des centaines d’années.
  • Avant, le classeur combinait autant le stockage physique qu’un moyen d’organiser les documents; ce système ne fait plus de sens dans un environnement informatique.
  • Problème : Incapacité de classer les documents dans plus d’une catégorie;
  • [Les auteurs mentionnent des exemples d’objets pouvant être classés dans plusieurs dossiers / catégories…]

–        Études démontrant l’inefficacité de la classification unique [« single  classification »] dans un contexte de travail du bureau :

  • Le concept de la classification unique est cognitivement difficile à utiliser;
  • Dans les bureaux, les employés préfèrent empiler indistinctement les documents plutôt que d’avoir à choisir entre plusieurs catégories se chevauchant;
  • Courriels plus longs peuvent être classés selon plusieurs catégories (plusieurs axes / sujets);
  • Les usagers n’utilisent pas les raccourcis [« shortcuts »] pour classer simultanément les documents dans plusieurs catégories.

Retour au plan de l’article

1.2. Retrieving Documents

Rechercher les documents

–        Problèmes liés à l’incapacité de classer les documents dans plusieurs catégories :

  • L’usager est limité à un schéma d’organisation statique;
  • Il ne peut accéder à l’information durant la recherche par un autre moyen duquel il a été organisé initialement;
  • Il doit donc se rappeler de l’ordre des sujets et sous-sujets pour retrouver l’info.

–        Cependant, le système hiérarchique est l’outil privilégié par les gens pour retrouver leurs documents dans un ordinateur.

1.3. Contribution

–        Présente étude expérimente un schéma d’organisation et de navigation basé sur les catégories;

–        Information placée dans plusieurs « contenants » thématiques ou catégories simultanément.

–        Avantages des catégories multiples :

  • Organisation des documents de façon plus intuitive;
  • Environnement informatif plus riche;
  • Information a de manière inhérente plusieurs catégories;
  • L’usager peut facilement les identifier;
  • Peuvent s’appliquer à plusieurs formats (documents, pages web, courriels).

–        Caractéristiques pour assurer l’efficacité des catégories multiples :

  • Interface utilisateur doit englober l’ensemble du système, être omniprésente [« pervasive »];
  • Doit couvrir au moins le même rayon d’action que la hiérarchie traditionnelle;
  • Ne peut pas être qu’un simple ajout au système de recherche de base.

–        Des études antérieures ont démontré la nécessité d’avoir des outils adaptables et faciles d’utilisation, qui s’étendent à l’ensemble du système, pour une utilisation efficace des catégories.

–        Caractéristiques de l’étude :

  • L’étude tente d’exposer des moyens pratiques pour créer des catégories et organiser les documents en catégories.
  • Un test auprès des utilisateurs a été mené pour examiner l’utilité des catégories multiples, tant sur l’aspect des requêtes que sur la catégorisation.
  • Interface inclut la catégorisation multiple dans Microsoft Internet Explorer.
  • Internet Explorer permet l’accès à un large éventail d’information : des pages web en passant par les fichiers locaux, ce qui en fait un environnement d’expérimentation idéal.
  • Étude réalisée en collaboration avec le projet Haystack.

–        Projet Haystack :

  • But : Développer un outil qui permet aux usagers de facilement gérer leurs documents, courriels, rendez-vous, tâches et autres informations.
  • Modèle de donnés semi-structurées pour décrire :
    • Les connexions entre les différents documents;
    • Les métadonnées pour décrire les documents.
    • Usagers peuvent chercher et retrouver les documents à partir de ces données (par exemple : par importance, par auteur, par catégorie.

Retour au plan de l’article

1.4. Related Work

Travaux connexes

–        Exemples de logiciels utilisant la catégorisation multiple :

  • Microsoft Outlook, dans la boîte de dialogue « Categories »; mais n’est pas très bien intégrée ni très pratique.
  • Lotus Agenda, un gestionnaire d’informations personnelles; basé sur la catégorisation multiple.
  • Bibliographix (http://www.bibliographix.com/), logiciel de gestion de références bibliographiques.
  • Telle qu’utilisée par le site Epicurious, une approche plus globale de requête à l’aide de métadonnées, permettant de raffiner par itération les requêtes, a été retenue.

–        L’automatisation du processus de catégorisation est possible à l’aide d’algorithmes, mais indexation humaine est retenue pour cette étude;

–        Les auteurs ne pensent pas que la recherche plein texte (par ex, Google) est la panacée à tous les problèmes de recherche;

–        Deux phases identifiées lors de la recherche de documents :

  • Recherche d’après les souvenirs [« recall-directed search »];
  • Reconnaissance par « balayage » / butinage [« recognition-based scanning »].
    • Les fichiers et catégories servent de guide lors du balayage visuel.

–        Dans un système complet, la recherche plein texte est complémentaire de la hiérarchie des dossiers et des schémas de catégories.

Retour au plan de l’article

2. Approach

–        Fonctionnement du volet catégorie (VOIR figure 1) :

  • Liste de cases à cocher qui correspondent aux catégories (classées alphabétiquement);
  • Série de « widgets » présentée plus bas : pour ajouter/enlever des catégories et renommer les pages;
  • Design similaire aux favoris d’Internet Explorer pour aider les usagers à se familiariser rapidement;

Figure 1 – Volet catégorie : Interface utilisateur pour organiser les documents

–        Fonctionnement du volet recherche (VOIR figure 2) :

  • Présentation d’une liste des catégories utilisant une hiérarchie générée dynamiquement.
  • Lorsque la catégorie est sélectionnée, la liste se développe et fait apparaître des catégories associées.
  • Un nœud [« node »] (point de jonction) correspond à la conjonction des catégories associées au nœud et ses « ancêtres » (termes associés?).
  • Les nœuds « feuilles » de l’arbre correspondent aux pages web; lorsque cliquées, redirigent vers la page.
  • L’usager peut continuellement raffiner sa recherche de façon récursive.
  • L’ordre dans lequel ces nœuds sont développés n’est pas important, car peu importe quelle catégorie il choisit, l’usager peut toujours continuer à raffiner sa recherche avec les catégories associées (peu ou pas de culs-de-sac lors de la recherche).

Figure 2 – Interface utilisateur pour rechercher les documents

Retour au plan de l’article

3. Experimental Method

–        Étude réalisée sur des utilisateurs pour comparer les préférences des usagers entre les deux approches : catégories multiples et organisation hiérarchique par dossiers.

–        Première phase :

  • les usagers devaient organiser deux corpus séparés d’article de journaux en utilisant les deux approches.

–        Deuxième phase :

  • après une semaine, les usagers devaient naviguer dans les schémas organisationnels précédemment créés et répondre à des questions dont les réponses se trouvaient dans les corpus.

–        Deux indicateurs (ou mesures) [« metrics »] principaux :

  • Mesure quantitative de la performance;
  • Rétroaction qualitative des usagers qui décrivent leurs impressions par rapport aux deux approches.

3.1. Participants

–        Caractéristiques :

  • 21 participants (15 hommes et 6 femmes);
  • Étudiants en informatique du MIT recrutés par courriel.

–        Groupe non-représentatif de la population en général, mais présente les avantages suivants :

  • À l’aise avec un ordinateur, donc pas besoin de formation approfondie;
  • Minimise le biais possible lié à la courbe d’apprentissage;
  • Déjà sensibilisés aux problèmes liés à la recherche d’information;
  • Représentent une population diversifiée;
  • Étudiants en informatique organisent typiquement leur information de manière hiérarchique, donc plus facile de montrer une amélioration de la performance avec les catégories multiples.

Retour au plan de l’article

3.2. Test Environment

–        Test d’application :

  • Fenêtre d’Internet Explorer modifiée avec trois volets :
    • Volet d’organisation ou de navigation;
    • Volet pour voir les pages web;
    • Volet pour les instructions.
    • Design réalisé en fonction de faciliter l’analyse des résultats.

3.3. Organization Session [phase 1]

–        Tâche : organiser deux corpus en utilisant deux techniques : catégories multiples et dossiers hiérarchiques.

–        Corpus : Chacun des deux corpus est une collection de 60 articles provenant de ZDNet.com.

  • Avantages :
    • Articles sélectionnés pour maintenir un intérêt chez les participants;
    • Bonne compréhension des sujets pour pouvoir organiser l’information.
    • Nombre d’articles choisi : équilibre entre :
      • Trop peu d’articles, peuvent être gérables sans avoir à organiser l’information;
      • Trop d’articles, usagers peuvent être frustrés ou démotivés.

–        Étape préliminaire : démonstration des deux techniques avec un exemple de corpus;

–        Deux phases qui s’enchaînent :

  • Dans chaque phase, il est demandé à l’usager d’organiser un des deux corpus avec une technique spécifique (catégories ou hiérarchique).
  • L’ordre des corpus et les techniques utilisées varient selon les usagers pour éviter un biais systématique.

–        Étapes :

1)      Les articles sont présentés un à la fois et séquentiellement à l’usager.

2)      Il est demandé à l’usager de créer à partir de zéro un schéma organisationnel, soit hiérarchique ou catégories multiples (prototype, VOIR figure 1).

  • Usagers sont chronométrés mais peuvent prendre le temps qu’ils veulent pour réaliser la tâche;
  • Usagers peuvent déplacer les dossiers s’ils trouvent un meilleur regroupement en cours de route et peuvent revenir en arrière si désiré;
  • Approche par catégories : Usagers sont encouragés à marquer (étiqueter) un article avec le plus de catégories nécessaires selon leur jugement;
  • Approche hiérarchique : Usagers doivent placer chaque article dans une place précise dans la hiérarchie.

Retour au plan de l’article

3.4. Navigation Session [phase 2]

–        Tâche : Répondre à deux séries de questions en utilisant deux techniques de navigation différentes correspondant aux deux schémas structurels créés précédemment.

–        Une semaine entre les deux phases pour atténuer l’effet de mémoire sur la recherche.

–        Étape préliminaire : démonstration et test de l’interface graphique.

Étapes :

1)      Deux tâches de navigation (une hiérarchique et une à catégories multiples) comportant 24 questions chacune :

  • basées sur le corpus utilisé;
  • faisant référence à un ou plusieurs thèmes des articles;
  • présentées une à la fois et séquentiellement à l’usager;
  • l’usager ne peut pas trouver la réponse avec une recherche par mots-clés.

2)      Pour répondre à une question, l’usager doit naviguer à travers le corpus en utilisant ses schémas de navigation, hiérarchique ou catégories multiples (VOIR figure 2).

  • Les usagers se sont faire dire de répondre le plus rapidement possible.

3)      Les articles servent de réponses aux questions : bouton « J’ai trouvé »

4)      Si l’article n’est pas le bon, l’usager peut continuer ou cliquer sur le bouton « J’abandonne ».

Retour au plan de l’article

4. Results

–        Analyses d’après :

  • Le temps pris pour catégoriser et retrouver un article;
  • Les réponses (subjectives) des enquêtes.

4.1. Organization Session

Résultats :

–        Temps moyen pour compléter la session d’organisation : 1 heure 29 minutes.

–        Usagers ont pris 19% moins de temps pour organiser avec les catégories multiples.

–        Majorité approuve ou préfère les catégories multiples.

–        Majorité pense que concevoir et maintenir un schéma hiérarchique demande plus d’effort cognitif que les catégories.

–        8 sur 21 pensent que les catégories multiples correspondent plus à la manière dont ils conçoivent l’information, 11 une combinaison des deux approches.

–        Majorité préfère, en termes d’utilité, une combinaison des deux approches.

–        Les usagers ont créé en moyenne, et pour les deux corpus, 22 dossiers et 45 catégories.

4.2. Navigation Session

Résultats :

–        Temps moyen de 36,9 secondes avec les catégories comparé à 44,7 secondes avec les dossiers pour répondre à une question (VOIR figure 3).

Figure 3 – Temps moyen pour répondre aux questions
[« Relative retrieval performance of folders versus multiple categorization »]

 –        15 usagers pensent que l’option d’aborder la recherche d’un article par différentes catégories est utile.

–        En général, les usagers préfèrent la navigation par catégories.

–        Pour valider l’idée que l’accès à l’information dépend fortement du contexte, 3 paires de questions menant à la même réponse ont été posées. 2 fois sur 3, les utilisateurs ont pris un chemin différent (avec les catégories multiples) pour arriver à la même réponse.

–        En moyenne, lorsque les usagers cherchent un article spécifique, le nombre de catégories utilisées pour raffiner la liste des articles était d’environ la moitié des catégories assignées à l’article cherché.

Retour au plan de l’article

5. Discussion

–        L’analyse montre un intérêt marqué chez les utilisateurs de l’utilisation des catégories multiples pour l’organisation les documents.

–        Commentaires des utilisateurs :

  • Le système idéal devrait combiner le meilleur des deux approches (dossiers hiérarchiques et catégories multiples).
  • Dans certains cas, le système des catégories multiples laisse trop de latitude, et le schéma « dégénère » alors en un système par mots-clés :
    • Au lieu de représenter un concept ou thème spécifique présent dans le corpus, des catégories ont été créées pour représenter un mot trouvé dans un document.
    • De ce fait, les problèmes de synonymie se répandent dans ces catégories, créant confusion et délai dans la recherche.
    • L’incorporation d’un moteur de recherche pourrait régler le problème.
    • Certaines informations sont hiérarchiques par nature, les dossiers sont alors préférables dans cette situation.
    • Multiples catégorisations utiles :
      • Pour organiser des sujets étroitement liés;
      • Dans le contexte où le domaine est mal connu de l’utilisateur ou évolue rapidement;
      • Pour naviguer dans un corpus selon plusieurs perspectives.
      • Améliorations souhaitables :
        • Lors de l’organisation, les usagers auraient voulu savoir quel article appartient à quelle catégorie;
        • Capacité d’organiser les catégories dans une hiérarchie réduirait le temps de repérage des catégories.

–        Proposition pour recherche future :

  • Améliorer l’interface utilisateur en tenant compte de forces et faiblesses des deux approches;
  • Un système hybride pourrait incorporer tant le volet catégorisation que le volet navigation pour indexer et rechercher des documents simultanément;
  • Inclure un module de recherche par mots-clés.

Retour au plan de l’article

6. Conclusion

–        Plusieurs faiblesses dans les systèmes pour organiser l’information ont été identifiées.

–        L’utilisation globale de catégories multiples est une solution possible pour résoudre certains problèmes.

–        L’étude réalisée sur des utilisateurs montre une amélioration dans l’organisation et la recherche.

–        Les participants apprécient plusieurs aspects de la catégorisation multiple, malgré le fait qu’ils sont plus habitués à utiliser les dossiers.

–        Des travaux futurs devraient être menés sur la catégorisation multiple comme technique pour les environnements informationnels d prochaine génération.

Retour au plan de l’article

Références sélectionnées

Abrams, D., Baecker, R., and Chignell, M. (1998), Information Archiving with Bookmarks: Personal Web Space Construction and Organization, Proceedings of CHI 1998, 41–48.

Agrawal, R., Bayardo, R., and Srikant, R. (2000), Athena: Mining-based Interactive Management of Text Databases, Extending Database Technology, 365–379.

Barreau, D. and Nardi, B. (1995), Finding and Reminding: File Organization from the Desktop, SIGCHI Bulletin 27(3), 39–43.

Cutting, D., Karger, D., Pedersen, J., and Tukey, J. (1992), Scatter/gather: A cluster-based approach to browsing large document collections, Proceedings of the 15th SIGIR, 318–329.

Lansdale, M. (1988), The Psychology of Personal Information Management, Applied Ergonomics 19(1), 55–66

Malone, T. (1983), How Do People Organize Their Desks? Implications for the Design of Office Information Systems, ACM Transactions on Office Information Systems 1(1), 99–112.

Whittaker, S. and Sidner, C. (1996), Email Overload: Exploring Personal Information Management of Email, Proceedings of CHI 96: Human Factors in Computing Systems.