Tang

Browsing and searching in a faceted information space:  A naturalistic study of PubMed users’ interaction with a display tool

de Muh-Chyun Tang

Résumé par Simon Côté-Lapointe

Référence : Tang, M.-C. (2007). Browsing and searching in a faceted information space: A naturalistic study of PubMed users’ interaction with a display tool. Journal of the American Society for Information Science and Technology, 58(13), 1998-2006.

Cliquez ici pour accéder à l’article original.

Résumé

[Traduction du résumé de l’article]

L’étude se penche sur l’interaction des usagers avec une interface utilisant les MeSH (medical subject headings) conçue pour faciliter la construction des requêtes pour la base de données bibliographique PubMed. Cette étude poursuit un double objectif : premièrement, tester l’utilité d’une interface de navigation appliquant le principe de la classification à facettes; deuxièmement, connaître les méthodes de soumission de requêtes préférées face à différentes situations problématiques.

Une interface qui incorpore une boîte de recherche unique et des méthodes de présentation des facettes a été construite. Les interactions des participants avec l’interface ont été observées à distance sur une période de 10 semaines. De l’information sur les situations problématiques [« problematic situations »] et les comportements de recherche d’information a ainsi été compilée. La technique expérimentale traditionnelle s’appliquant mal aux visées de la recherche, une approche plus « naturaliste » a été adoptée.

Les résultats montrent qu’il y a effectivement une relation entre les méthodes de soumission des requêtes proposées par l’interface MeSH et les situations problématiques des usagers. Lorsque l’usager a des besoins informationnels vagues et qu’il ne connaît pas bien le sujet de recherche, les outils préférés pour la recherche sont les requêtes multiples combinées avec la présentation des facettes.

Les résultats supportent la proposition théorique selon laquelle les usagers engagés dans un processus de recherche informationnel contenant une variété de situations problématiques ont besoin de différentes approches pour atteindre leur but. L’auteur soutient que plutôt que de traiter le système de recherche d’information comme un outil d’emploi général, plus d’attention devrait être portée sur l’interaction entre la fonctionnalité de l’outil et les caractéristiques liées situations problématiques particulières de l’usager.

Plan du texte

1. Introduction

2. Theoretical Standpoint

2.1. Categorization of Users’ Problematic Situations

2.2. The Interface

3. Methodology

3.1. Research Procedures

4. Results

4.1. Participant Characteristics

4.2. Query Submission Methods: Overall and Final

4.3. Types of Problematic Situations

4.4. Query Submission Methods and Types of Search

4.5. Query Submission Methods and Search Goals

4.6. Other Problematic Situation Variables

5. Discussion

5.1. The Relationships Between Problematic Situations and Query Submissions

5.2. The Variety of User Expressions

6. Conclusion

6.1. The Case for Interactive Information Retrieval Evaluation

6.2. The Significance of Task in Information Retrieval Evaluation

Références sélectionnées

1. Introduction

–        Résultats d’études antérieures :

  • Potentiel de l’utilisation de classification à facettes dans un environnement en réseau reconnu depuis longtemps;
  • Résultats favorables et meilleure performance lorsqu’il y a utilisation des facettes dans les requêtes;
  • Analyse par facettes est utile pour représenter les différents aspects d’un document (indexation);
  • Analyse par facettes est utile pour articuler sous différents aspects les besoins informationnels des utilisateurs.

–        Problématique :

  • Différents besoins informationnels requièrent différent méthodes de représentation des besoins.
  • Question : À quels types de situations problématiques répondent le mieux la classification à facettes?

Retour au plan de l’article

2. Theoretical Standpoint

Point de vue théorique

–        La représentation d’un objet engendre nécessairement la perte d’information.

–        Chaque dispositif de représentation met en perspective certains aspects de l’objet au détriment d’autres.

–        La manière de représenter a un impact significatif sur l’accès et la découverte d’informations.

–        Usagers utilisent différentes stratégies de recherche — qui varient en fonction de facteurs contextuels tels que les situations problématiques ou les contraintes liées au travail — lorsqu’ils interagissent avec un système de recherche d’information [ « information retrieval (IR) system »].

–        Il n’y a donc pas de représentation unique idéale pour répondre à tous les besoins des utilisateurs.

–        Questions :

  • Peut-on identifier la compatibilité entre les différents modes de représentations et les diverses situations de recherche de l’utilisateur?
  • Quel est la représentation idéale pour une certaine situation (ou besoin) de recherche?

Retour au plan de l’article

2.1. Categorization of Users’ Problematic Situations

–        Définition des situations problématiques :

  • Déficience cognitive vécue par une personne lors d’une tâche de travail.

–        Quatre facteurs :

  • Familiarité avec le sujet;
  • Persistance du sujet [« topic persistence »];
  • Endurance à la tâche;
  • Étapes de résolution du problème.

–        Les activités de recherche d’information varient selon les étapes de recherche.

–        La recherche d’information se caractérise par trois dimensions :

  • Spécificité;
  • Quantité;
  • Délai / durée.

–        Buts de la recherche avec les OPAC :

  • Chercher des documents déjà connus;
  • Chercher des documents inconnus;
  • Chercher des informations sur des documents;
  • Chercher de l’information non-spécifique.

–        Attributs des questions de recherche :

  • Domaine, clarté, spécificité, complexité et présupposition.

 

–        Dans cette recherche, les participants devaient caractériser leurs situations problématiques avant de réaliser leur recherche :

  • Deux variables nominales :
    • Buts de la recherche (recherche d’un item connu, recherche d’une question spécifique, recherche sans question spécifique);
    • Types de recherche (familiarité avec le sujet, compréhension nécessaire).
    • Quatre variables numériques :
      • Familiarité avec le sujet;
      • Spécificité de la recherche;
      • Étapes de la recherche;
      • Efficacité pour parvenir au résultat.

–        Intérêt pour savoir comment ces variables influencent les requêtes des utilisateurs.

Retour au plan de l’article

2.2. The Interface

–        Interface construite pour afficher l’arborescence des MeSH (Medical Subject Headings) dans PubMed.

–        Pubmed est une base de données indexée par facettes.

–        Interface conçue tant pour naviguer que pour rechercher [« incorporate both browsing and searching modes of  access »].

–        Plutôt que de compter seulement sur la navigation [« browsing »], l’interface permet l’accès par mots-clés et fournit en plus un thésaurus pour aider à la recherche.

Retour au plan de l’article

3. Methodology

–        Approche de recherche : naturaliste et longitudinale.

–        L’effet de familiarité est un aspect important à prendre en compte lorsque l’on compare un nouvel outil avec un outil familier. L’usager peut préférer l’interface avec laquelle il est habitué et mieux performer avec. Pour cette raison, les tests sur l’utilisabilité doivent être réalisés sur plusieurs sessions pour que l’usager ait la possibilité d’explorer l’outil à facettes.

–        Préférer des tâches définies par l’utilisateur [« user-defined tasks »] plutôt que des tâches définies par l’outil [« product-supported tasks »].

–        Étude longitudinale permet d’observer l’apprentissage et l’assimilation de l’interface chez les usagers, ce qui n’est pas possible dans un environnement contrôlé. Aussi, permet d’analyser plusieurs situations problématiques et les stratégies pour les résoudre.

–        Choix de laisser les participant chercher leur propres questions plutôt que de leur assigner des tâches.

  • Raisons :
    • La représentation textuelle de la tâche interfère sur la requête elle-même.
    • Risque de menacer la validité de la tâche de catégorisation, particulièrement dans les domaines hautement spécialisés tels que la biomédecine, car :
      • Difficulté de créer des descriptions de tâches sémantiquement ouvertes dû à la terminologie;
      • Difficulté de rendre les tâches motivantes pour les participants spécialisés dans le domaine.

–        Donc : les participants ont fait des sessions de recherche sur une période prolongée dans un « cadre naturel ».

Retour au plan de l’article

3.1. Research Procedures

Étapes :

1)      Recrutement : invitations par listes d’envoi institutionnelles et babillards dans les départements de santé dans une université.

2)      À chaque participant fut demandé de participer à au moins 9 sessions choisies selon leur convenance sur une période de 2 mois et demi.

3)      Tutoriel en ligne pour montrer les fonctionnalités de recherche de l’interface à facettes.

4)      Création d’un compte pour accéder à distance.

5)      Début de l’expérimentation : les participants se connectent et font les recherches à distance (à partir de leur lieu de travail) à l’aide d’un serveur proxy.

6)      Chaque session commence avec un questionnaire « pré-recherche », suivi par des recherches basées sur des requêtes / besoins informationnels qui leurs sont propres, puis conclu par un questionnaire « post-recherche ».

–        Chaque participant avait l’option d’utiliser l’interface à facettes ou la traditionnelle boîte de requête de PubMed.

–        Tous les questionnaires étaient gérés en ligne pour permettre le contrôle à distance.

Retour au plan de l’article

4. Results

4.1. Participant Characteristics

–        19 participants : 6 étudiants, 9 chercheurs, 1 membre de la faculté, 3 professionnels de la santé.

–        Majorité sont des étudiants ou des chercheurs motivés par des tâches associées à des projets de recherche.

–        En général, les participants étaient assez familiers avec la base de donnée PubMed (score moyen de 6 sur 7).

–        Cependant, score de familiairité avec MeSH (vedettes-matières médicales [« Medical Subject Headings »]) assez bas (9 ne l’avaient jamais utilisé).

–        Le pré-questionnaire confirme que la recherche par mots-clés est la méthode la plus courante pour soumettre les requêtes.

Retour au plan de l’article

4.2. Query Submission Methods: Overall and Final

–        201 sessions de recherche, 633 requêtes de recherche : un peu plus de 3 en moyenne par utilisateur par session.

–        5 méthodes de formulation des requêtes identifiées (Table 1, p. 2001) :

–        Méthodes de soumission de la requête :

  • Recherche « classique » :
    • Boîte de recherche unique [« Single line »];
    • Par auteur/sujet.
    • Recherche par facettes :
      • Vedettes-matières [« MeSH »];
      • Sélection de facettes [« Multi-facet input »];
      • Combinaison de vedettes-matières et de facettes.

Table 1

–        Difficulté d’analyse pour faire le lien entre de multiples requêtes et la satisfaction des résultats et la situation problématique par session.

–        Difficulté d’examiner la relation entre les méthodes de formulation des requêtes et les situations problématiques.

–        Donc : La requête finale d’une session de recherche est retenue comme variable pour déterminer les résultats, étant donné que :

  • Les méthodes de requêtes ne changent généralement pas durant une session;
  • On présume que la requête finale est la représentation idéale des besoins informationnels de l’utilisateur.

Table 2

Retour au plan de l’article

4.3. Types of Problematic Situations

2 aspects principaux pour caractériser les situations problématiques :

–        Par familiarité/exhaustivité [« familiarity/comprehensiveness »] :

  • Participants devaient classer leurs recherches dans une des cinq catégories créées à partir de ces  deux dimensions (Table 3, p. 2001).
  • 67 % des sessions de recherche portaient sur des renseignements généraux [« Searching for background information »];
  • Situations d’exploration plus détaillée [« Comprehensive exploration »] moins courantes.

Table 3

– Par buts de recherche :

  • Participants devaient classer leurs recherches dans une des trois catégories (Table 4, p. 2001).

Table 4

  Retour au plan de l’article

4.4. Query Submission Methods and Types of Search

–        Utilisation d’un tableau de contingence à double entrée pour évaluer la relation entre les méthodes des requêtes finales et les situations problématiques. (Table 5, p. 2002)

Table 5

–        Usagers optent à 42 % pour la boîte de recherche unique [ « single-line query box »] lors de recherches d’informations générales familières [« background information in familiar areas »].

–        Boîte de recherche unique rarement utilisée pour l’exploration plus détaillée.

–        Le niveau d’exhaustivité, de plus général au plus exhaustif [« background/comprehensive »] nécessaire pour la recherche influence l’utilisation de la présentation par facettes [« classification display »]. (Table 6, p. 2002)

Table 6

 Retour au plan de l’article

4.5. Query Submission Methods and Search Goals

–        Utilisation d’un tableau de contingence à double entrée pour évaluer la relation entre les types de formulation de requêtes et les buts des recherches. (Table 7, p. 2003)

Table 7

–        Facettes rarement utilisées lors de recherches d’éléments déjà connus.

–        Vedettes-matières médicales (MeSH) utilisées pour le butinage [« Browsing without specific question »].

–        Facettes moins utilisées lorsque les utilisateurs ont déjà une idée précise de la formulation et des mots à utiliser pour la recherche.

–        En conclusion : Les données prouvent que les situations problématiques, classées par buts de recherche ou par types de recherche, influencent le choix des « sources » des termes de recherche (libre ou contrôlé) et les méthodes de soumission des requêtes.

Retour au plan de l’article

4.6. Other Problematic Situation Variables

–        Quatre autres variables numériques ont été créées pour caractériser, sur une échelle de 7, les situations problématiques des participants :

  • Familiarité avec le sujet;
  • Spécificité de la recherche;
  • Étapes de la recherche;
  • Efficacité pour parvenir au résultat.

–        Résultats :

  • Forte corrélation entre les étapes de la recherche et la familiarité avec le sujet, les usagers devenant plus familier à travers l’avancement des étapes de recherche.
  • Forte corrélation entre familiarité avec le sujet et la spécificité de la question de recherche.
  • Corrélation entre la spécificité de la question de recherche et les étapes de la recherche, confirmant que la requête se précise au fur et à mesure de l évolution du processus de recherche.

Retour au plan de l’article

5. Discussion

5.1. The Relationships Between Problematic Situations and Query Submissions

–        Relation entre les situations problématiques et les méthodes de soumission des requêtes a été testée sous deux aspects :

  • Habitudes d’utilisation des participants;
  • Satisfaction des participants.

–        Habitudes d’utilisation : modèles observés entre la méthode de soumission de requête préférée et les situations problématiques.

–        Soutient l’idée que de multiples méthodes de représentation (différentes structures cognitives) sont nécessaires dans le système de recherche pour anticiper les différents besoins informationnels des usagers.

–        Les besoins informationnels sont changeants (dynamiques) au cours du processus de repérage de l’information.

–        Donc diversité de services et d’outils pour combler les divers besoins informationnels.

Retour au plan de l’article

5.2. The Variety of User Expressions

–        La plupart des usagers ont trouvé l’interface facile à utiliser.

–        Thésaurus (MeSH) :

–        Ils ont trouvé que les termes n’étaient pas assez spécifiques pour leurs besoins;

–        Difficulté de trouver un terme dans les hiérarchies.

–        Il existe un outil de traduction des requêtes des utilisateurs en termes MeSH (vedettes-matières) pour faciliter l’interaction avec les utilisateurs.

Retour au plan de l’article

6. Conclusion

6.1. The Case for Interactive Information Retrieval Evaluation

–        Préoccupation dans l’évaluation des systèmes IR (information retrieval) d’équilibrer la mesurabilité objective et la réalité.

–        D’un point de vue cognitif et centré sur l’utilisateur, les chercheurs ont commencé à tenir compte des contextes d’utilisation.

–        La conjonction de la recherche sur les comportements de recherche d’information et les systèmes IR ont fait ressortir la nécessité de rendre pertinents la recherche d’information pour améliorer la performance des systèmes.

–        Nouveau paradigme d’évaluation des systèmes : observer et analyser non seulement la performance, mais aussi le processus interactif entre l’usager et la système.

–        Avec une approche plus centrée sur l’utilisation [« end-user »], on porte plus d’attention sur l’utilisabilité de l’interface et les modèles mentaux des utilisateurs.

Retour au plan de l’article

6.2. The Significance of Task in Information Retrieval Evaluation

–        Résumé de la problématique :

  • Problème méthodologique lié à une approche centrée utilisateur : la construction des tâches de recherche.
  • Des expériences dans des environnement très contrôlés [« controlled-experiment approach »] sont efficaces si le système ou les caractéristiques comparés sont conçus comme des outils d’usage général [« tools of general purposes »]. Cependant, peu de conclusions sur la différentiation et la catégorisation des tâches de recherche peuvent être tirées.
  • Avec des outils possédant de plus en plus de caractéristiques interactives, ceux-ci deviennent spécialisés pour certains aspects du processus de recherche et certaines tâches de recherche. Donc, difficulté d’observer leur précision pour tous types de tâches.
  • En contrepartie, il y a conscience croissante de la diversité des tâches de recherche lors de la recherche d’information en ligne.

–        Limites des résultats :

  • Pas beaucoup d’études sur l’évaluation des techniques de recherche liées à des types de tâches de spécifiques, selon des critères adaptés conçus pour des contextes spécifiques.
  • L’avantage de l’approche naturaliste est l’authenticité des problèmes de recherche.
    • En contrepartie, manque de preuves objectives sur l’efficacité  de l’interface par rapport aux paramètres traditionnels d’évaluation.
    • Méthodologie longitudinale :
      • Complications lors de l’analyse : le participant devient l’unité secondaire d’échantillonnage;

–        Moyen possible d’équilibrer réalisme et données comparables : mise en situation réaliste où plusieurs participants ont une série uniforme de problèmes informationnels, soit de travaux de classe ou de travaux pour professionnels de l’information. Permettrait des mesures objectives et subjectives.

–        Une mesure plus objective de l’efficacité de l’interface pourrait être atteinte avec une expérience en environnement contrôlé utilisant des scénarios de recherches simulées.

Retour au plan de l’article

Références sélectionnées

Allen, R.B. (1995). Retrieval from facets spaces. Electronic Publishing, 8(2&3), 247–257.

Anderson, J.D. (2002). Effective display of browsable classification on the WWW and other hypertext media. In J.-E. Mai, C. Beghtol, J. Furner, & B. Kwasnik (Eds.), Proceedings of the 13th ASIS&T SIG/CR Classification Research Workshop (pp. 110–123). Silver Spring, MD: Information Today.

Bates, M.J. (2002). After the dot-bomb: Getting web information retrieval right this time. First Monday, 7(7). Retrieved July 11, 2002, from http://dx.doi.org/10.5210%2Ffm.v7i7.971

Borlund, P. (2000). Experimental components for the evaluation for interactive information retrieval systems. Journal of Documentation, 56(1), 71–90.

Borlund, P., & Ingwersen, P. (1997). The development of a method for the evaluation of interactive information retrieval systems. Journal of Documentation, 53(3), 225–250.

Broughton, V. (2002). Facet analytical theory as a basis for a knowledge organization tool in a subject portal. Challenges in Knowledge Representation and Organization for the 21st century: Integration of Knowledge Across Boundaries: Proceedings of the Seventh International conference (pp. 135–142) Granada, Spain/Wurzburg: Ergon Verlag. Retrieved on May 20, 2002, from http://www.ucl.ac.uk/fatks/paper2.htm

Bystrom, K., & Hansen, P. (2005). Conceptual framework for tasks in information studies. Journal of the American Society for Information Science 56(10), 1050–1061.

Cleverdon, C., & Keen, E. (1966). Factors determining the performance of indexing systems (vol. 1: Design, vol. 2: Results). Cranfield, England: Aslib Cranfield Research Project.

Cordes, R.E. (2001). Task-selection bias: A case for user-defined tasks. International Journal of Human Computer Interaction, 13(4), 411–419.

Ellis, D., & Vasconcelos, A. (2000). The relevance of facet analysis for world wide web subject organization and searching. Journal of Internet Cataloging 2(3/4), 97–114.

Heo, M., & Hirtle, S.C. (2001). An empirical comparison of visualization tools to assist information retrieval on the web. Journal of the American Society for Information Science and Technology 52(8), 666–675.

Ingwersen, P. (1994). Polyrepresentation for information needs and semantic entities: Elements of a cognitive theory for information retrieval interaction. In W.B. Croft & C.J. van Rijsbergen (Eds.), SIGIR ’94: Proceedings of the Seventeenth Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval (pp. 101–110). New York: ACM.

Jacob, E.K. (2001). The everyday world of work: Two approaches to the investigation of classification in context. Journal of Documentation, 57(1), 76–99.

Kaptelinin, V. (1996). Computer-mediated activity: Functional organs in social and developmental contexts. In B. Nardi (Ed.), Context and consciousness: Activity theory and human–computer interaction (pp. 45–68). Cambridge, MA: The MIT Press.

Kelly, D., & Belkin, N.J. (2002). A user modeling system for personalized interaction and tailored retrieval in interactive IR. In Proceedings of Annual Conference of the American Society for Information Science and Technology (pp. 316–325). Colorado Spring, MD: American Society for Information Science and Technology.

Kuhlthau, C.C. (1991). Inside the search process: Information seeking from the user’s perspective. Journal of American Society for Information Science, 45(5), 361–371.

Kwasnik, B.H. (1999). The role of classification in knowledge representation and discovery. Library Trends 48(1), 22–47.

Marchionini, G. (1995). Information seeking in electronic environment. Cambridge, UK: The University of Cambridge Press.

Nardi, B., & O’Day, V. (1999). Information ecologies: Using technology with heart. Cambridge, MA: The MIT Press.

Pollitt, A.S. (1998). The key role of classification and indexing in viewbased searching. International Cataloguing and Bibliographic Control, 27(2), 37–40.

Robertson, S.E., & Hancock-Beaulieu, M.M. (1992). On the evaluation of IR system. Information Processing and Management, 28(4), 457–466.

Soergel, D. (1994). Indexing and retrieval performance: The logical evidence. Journal of the American Society for Information Science, 45(8), 589–599.

Vakkari, P. (2001). Changes in search tactics and relevance judgments where preparing a research proposal: A summary of the findings of a longitudinal study. Information Retrieval, 4, 295–310.

Vakkari, P. (2003). Task-based information searching. In B. Cronin (Ed.), Annual Review of Information Science and Technology (Vol. 37, pp. 413–464). Medford, NJ: Information Today.

Vakkari, P., & Hakala, N. (2000). Change in relevance criteria and problem stages in task performance. Journal of Documentation 56(5), 540–562.

White, M.D. (1975). The communications behavior of academic economists in research phases. Library Quarterly, 45(4), 337–354.

Yuan, W. (1997). End-user searching behaviors in information retrieval: A longitudinal study. Journal of the American Society for Information Science, 48(3), 218–234.