Jackson et Smith

Retrieving relevant information: traditional file systems versus tagging

 de Thomas W. Jackson et Stephen Smith

Résumé par Simon Côté-Lapointe

Référence : Jackson, Thomas W. et Smith, Stephen. (2012), »Retrieving relevant information: traditional file systems versus tagging », Journal of Enterprise Information Management, Vol. 25 Iss: 1 pp. 79 – 93

Cliquez ici pour accéder à l’article original

Abstract

[Traduction du résumé de l’article]

Objectif

L’objectif de cette recherche est de déterminer si, dans un contexte d’affaire, l’étiquetage [« tagging »] est une méthode plus efficace pour la recherche d’information que les systèmes hiérarchiques traditionnels d’enregistrement / dépôt de fichiers [« traditional hierarchical filing systems »].

Design / méthodologie / approche

Pour comparer l’efficacité du tagging par rapport à la méthode hiérarchique traditionnelle, une approche interprétative hybride en cinq étapes combinant un groupe de discussion [« focus group »], des questionnaires et une analyse SWOT[1] a été mise en place. Cette approche a été choisie à cause des difficultés et compromis dus à la disponibilité des participants et aussi parce que les transcriptions ou enregistrements n’étaient pas permis. En contrepartie, les participants étaient encouragés à utiliser le questionnaire et la matrice SWOT pour faire part de leurs opinions anonymement. De plus, le groupe de discussion a aidé à comprendre les sentiments et réflexions des participants.

Résultats

Les systèmes hiérarchiques traditionnels d’enregistrement de fichiers peuvent mener à collecter de l’information non-pertinente. La recherche démontre que l’étiquetage, en réduisant la redondance et l’extraction de données non-pertinente, pourrait être une solution peu coûteuse pour améliorer les systèmes structurés de gestion de fichiers.

Limitations / implications de la recherche

Une des limitations de l’étude était le nombre restreint de participants et issus d’un même groupe d’âge. Ainsi, la généralisation des résultats de cette recherche à l’ensemble de la population reste hasardeuse.

Répercussions pratiques

Les organisations devraient évaluer la fonctionnalité de leur système d’opération et d’information à la lumière des bénéfices potentiels offerts par l’étiquetage.

Originalité / valeur

En étudiant l’effet de l’étiquetage sur les organisations, cet article contribue à la littérature sur la surcharge [« information overload »] et la recherche d’information. Il donne un aperçu des développements futurs possibles pour les systèmes de gestion de fichiers et est donne une piste pour de futurs travaux empiriques sur la réduction de la redondance d’information dans l’environnement de travail.

Plan du texte

1. Introduction
2. Discovering relevant information
3. Methods
4. Proof of concept – TagDav
5. Results and analysis

5.1 Knowledge of tagging
5.2 Assessing TagDav
5.3 Research synthesis

6. Conclusions and limitations
Références sélectionnées

 

1. Introduction

1.1. Problématique dans les organisations : trouver la bonne information :

–        Source de problèmes depuis plusieurs années.

–        Investissements importants dans les outils de gestion documentaire.

–        Perte de temps due à la recherche : jusqu’à 10 % du temps d’un employé.

–        Problèmes dus à l’indexation des documents.

–        Moteur de recherche web [« web-based search systems »] (ex : Google) n’est pas une solution adaptée au contexte organisationnel.

1.2. Problématique dans les organisations : excès d’information [« information overload »] :

–        L’usager du système a un rôle à jouer pour réduire l’excès d’information.

–        Réduire l’excès d’information pour faciliter la communication.

–        Effets dramatiques sur les organisations : problèmes avec la communication par courriels.

–        Solutions possibles :

  • Mieux former les employés;
  • Améliorer le système d’enregistrement et de recherche des documents électroniques.

1.3. Primordial d’améliorer le stockage et l’accès à l’information pour réduire les coûts et améliorer la performance des organisations.

–        Pour mettre en place des bonnes pratiques documentaires.

–        Pour améliorer et raffiner les pratiques opérationnelles.

Retour au plan de l’article

2. Discovering relevant information

2.1. Structure de répertoire actuelle des ordinateurs :

a) Problèmes :

  • L’usager place un fichier dans un dossier et doit accéder au même dossier (chemin) pour retrouver le fichier.
  • Certaines fois, l’usager doit ajouter un nombre au nom de fichier ou le dupliquer dans plusieurs dossiers pour être sûr de le retrouver.

b) Solutions :

  • Utiliser le système de recherche de l’organisation.
  • Remplacer par un système utilisant l’étiquetage (tagging).

 

2.2. Deux cas intéressants de tagging (ou folksonomie, social bookmarking) :

–        Flickr (partage d’images).

–        Delicious (« […] site web social permettant de sauvegarder et de partager ses marque-pages Internet et de les classer selon le principe de folksonomie par des mots clés (ou tags) »[2]).

–        L’étiquetage est une très bonne alternative aux structures traditionnelles hiérarchiques de classification. Elle permet entre autre aux usagers de créer manuellement des catégories pour classer leur contenu.

 

2.3. Aspects liés à l’utilisation de folksonomies (soulevés dans des recherches antérieures) à considérer pour une organisation qui décide d’implanter un tel système :

a)      L’ajout d’un nouveau tag (ou tag unique) doit être évité le plus possible. C’est pourquoi Delicious recommande des étiquettes aux usagers. Aussi, certains systèmes montrent les étiquettes précédemment utilisées par l’usager.

b)      Versions du même mot au pluriel et au singulier. L’indexation non-structurée conduit parfois à un dédoublement des tags. Il est donc recommander d’exercer un certain contrôle sur le vocabulaire disponible.

c)      Erreurs d’orthographe ou de frappe. Peuvent créer des nouveaux tags non-pertinents.

d)      Étiquetage personnel. Plusieurs utilisateurs qui indexent librement par sujet sans vocabulaire contrôlé n’utilisent pas les mêmes étiquettes. Pour éviter le problème : établir un moment tampon dans l’utilisation pour mieux distinguer les mots-clés.

e)      Éviter l’utilisation des espaces et des lettres majuscules pour optimiser efficience et l’efficacité.

f)       Synonymes. Par exemple : un usager utilise « personne » alors qu’un autre, « humain ». Solution : inclure le plus de synonymes possible peut aider à bien indexer le contenu.

g)      Beaucoup de tags. Entrer un grand nombre d’étiquettes peut aider à améliorer la recherche et permettre une recherche plus pointue.

 Retour au plan de l’article

3. Methods

3.1. Trois grandes phases dans le développement du système :

–        Développement conceptuel

–        Construction du système

–        Évaluation du système

 

3.2. Système et participants.

– Les auteurs ont développé TagDav, système permettant aux usagers d’étiqueter les fichiers qu’ils utilisent.

– TagDav a été testé sur des employés de la compagnie SoftwareCo.

– Participants :

  • 9 employés sélectionnés
  • Considérés comme des « champions » dans leur domaine.
  • Sélectionnés pour leur capacité à donner de bons commentaires
  • Avec ou sans expérience préalable du tagging.
  • Choisis aussi pour inclure le plus de points de vue possibles : ceux qui ont des préjugés favorables et ceux qui ont des préjugés défavorables à l’utilisation d’un tel système.

 

3.3. Cinq étapes pour déterminer l’efficacité du système d’étiquetage des fichiers :

1)      Questionnaire individuel comportant huit questions pour évaluer les obstacles possibles.

2)      Démonstration du fonctionnement de TagDav sous forme de groupe de discussion [« focus group »].

3)      Deuxième questionnaire individuel comportant 16 questions et portant sur les habitudes de stockage et de recherche de fichiers et expliquant le système TagDav. But : savoir si les employés ont un système commun de classement ou chacun utilise un système différent.

4)      Groupe de discussion. Discussion ouverte pour permettre aux participants d’aborder un large éventail de sujets pertinents dans un contexte de groupe.

5)       Matrice SWOT où les participants peuvent écrire leurs réflexions sur les possibles forces, faiblesses, opportunités et potentiels liés à l’utilisation potentielle d’un système d’étiquetage pour la recherche de fichiers.

 

3.4. Approche hybride combinant questionnaires et groupe de discussion adaptée aux contraintes contextuelles de l’étude :

–        Dû au nombre de champions disponibles ;

–        Dû au temps limité accordé au chercheur ;

–        Dû au fait que l’enregistrement ou la transcription n’étaient pas permis par la compagnie.

Retour au plan de l’article

4. Proof of concept – TagDav

Démonstration du concept

 

4.1. TagDav = Tag-based Distributed Authoring and Versioning.

–        Programmé avec le langage Ruby.

–        Serveur développé comme un serveur de stockage en réseau (NAS), mais en utilisant les étiquettes comme méthode de navigation au lieu de l’approche hiérarchique traditionnelle.

 

4.2. Avantages de l’intégration avec le système d’opération :

–        Fichiers apparaissent comme dans l’environnement d’un ordinateur local (personnel) ;

–        Usager n’a pas besoin d’ouvrir un moteur de recherche web pour chercher ;

–        Facilité d’accès aux fichiers (pas besoin de les télécharger) ;

–        Permet aux usagers d’améliorer leur aptitude à utiliser le nouveau système en présentant un environnement informatique familier.

 

4.3. Fonctionnement

–        Création d’un système de fichiers virtuel

–        Les fichiers sont enregistrés conjointement avec la base de données qui comprend entre autre les tags, facilitant ainsi la vitesse de réponse lors d’une requête (plus rapide qu’une recherche plein texte par exemple).

–        Cette méthode requiert moins d’espace, car ne nécessite pas d’index.

–        La base de données est ensuite utilisée pour générer une structure virtuelle pour chaque client. (selon ses tags).

–        Chaque tag apparaît comme un répertoire dans le dossier racine [« root folder »].

–        Lorsque l’utilisateur choisi un répertoire, le tag est utilisé pour trouver et afficher tous les fichiers associés.

–        Les autres tags apposées aux fichiers montrés apparaissent aussi sous forme de répertoires, permettant à l’usager de raffiner sa recherche et restreindre la liste de fichiers.

–        L’usager peut choisir autant de tags qu’il veut.

–        Le serveur crée dynamiquement et au fur et à mesure les dossiers et répertoires selon la recherche effectuée par l’usager.

 

4.4. Avantages :

–        Pas besoin d’entrer de terme de recherche pour voir un résultat;

–        Possibilité de rapidement préciser [« narrow »] la recherche ;

–        Au lieu d’utiliser un répertoire prédéfini, un répertoire est créé sur mesure d’après les tags choisis.

–        Au lieu de naviguer dans une structure fixe, la structure du répertoire se précise continuellement, présentant à l’usager les fichiers correspondant aux tags sélectionnés.

 

4.5. Exemples

[Voir l’article original (p.86-87) pour les captures d’écran explicatives]

Retour au plan de l’article

5. Results and analysis

5.1 Knowledge of tagging

Connaissances sur l’étiquetage

 

a) Résultats du premier questionnaire (étape 1, voir point 3.3) :

–        4 employés sur 9 n’avaient jamais étiqueté de contenu

–        Beaucoup de différence chez les 5 autres employés dans l’utilisation des tags :

  • Moyenne de mots utilisés lors de l’étiquetage : 3.3.
  • Certains utilisateurs n’utilisent pas assez de tags (de 1 à 2 seulement)
  • Pas de consensus quant à la réutilisation des tags lors de l’étiquetage (utilisés par l’usager ou par quelqu’un d’autre).
  • Pas de consensus dans l’utilisation d’espaces dans les tags.
  • Seul un participant se sert des synonymes.

 

b) Résultats du groupe de discussion (étape 2) :

– Participants ne connaissent pas les enjeux associés à l’étiquetage.

– Ne pensaient pas de prime abord que l’étiquetage puissent être utilisé par d’autres usagers.

– Plusieurs systèmes utilisant les tags = utilisent les tags de manière différente et n’expliquent pas comment les utiliser.

– Consensus des participants : avec une formation adéquate et l’utilisation d’un même système d’étiquetage, les bénéfices de l’étiquetage seraient beaucoup plus importants.

Retour au plan de l’article

5.2 Assessing TagDav

Évaluer TagDav

a) Résultats des deuxièmes questionnaire et groupe de discussion  (étape 3 et 4)

–        Chaque participant utilise une méthode de classement des fichiers différente : par sujet, par projet, par année. Ceci rend le stockage collaboratif des dossiers difficile à utiliser.

–        Après avoir utilisé TagDav :

  • Majorité a senti que le système pourrait les aider à trouver des fichiers sans l’utilisation d’un moteur de recherche;
  • Majorité pense que les fichiers étiquetés peuvent faire gagner du temps;
  • Tous ont pensé que le système comporte des avantages comparé au système traditionnel;
  • Évaluation moyenne du temps économisé avec TagDav : 40 minutes par jour;
  • Majorité pense qu’il faut une formation avant d’utiliser un tel système.

 

b) Résultats de la matrice SWOT (étape 5)

– Forces et opportunités :

  • Majorité impressionnée par la façon dont le système leur permet de trouver un document;
  • Facilité d’utilisation du système;
  • Permet de retrouver un document en utilisant plusieurs approches (différents mots-clés ou chemins);
  • Établit un consensus pour la structure du répertoire;
  • Réduit duplication des documents (n’est plus nécessaire de sauvegarder le document en plusieurs endroits).

– Faiblesses et inquiétudes :

  • Fichier / document sans tags se retrouve « perdu » dans le système;
  • Système doit être utilisé à bon escient dès le départ, sinon résulterait du chaos;
  • Inquiétude quant à une incompréhension ou une mauvaise utilisation de l’étiquetage par certains utilisateurs;
  • S’assurer que les tags préalablement utilisés soient consultables;
  • Préoccupation : s’il y a un trop grand nombre de tags, cela peut rendre la recherche dans le répertoire plus difficile;
  • Préoccupation quant au temps utiliser pour indexer les documents.

 Retour au plan de l’article

5.3 Research synthesis

Synthèses de la recherche

a) Difficulté de retrouver des documents stockés dans un ordinateur :

  • Force les utilisateurs à se souvenir où ils ont placé leurs fichiers / documents;
  • Problème aggravé par le manque de formation et le manque de communication des bonnes pratiques;
  • Résulte que chaque utilisation contribue à une surcharge de l’information.

 

b) Méthodes différentes des usagers pour classer les documents :

  • Induit des problèmes pour retrouver l’information.
  • Même lorsqu’il y a formation, les effets positifs s’atténuent après 30 jours.

 

c) Pour implanter un nouveau système de classement :

  • Prouver l’efficacité et les bénéfices du nouveau système;
  • Doit être facile à utiliser;
  • Doit nécessiter peu de formation;
  • Règles de base structurées et assistées par ordinateur pour s’assurer que l’utilisateur indexe correctement.

 

d) Caractéristiques des règles de base (voir point 2.3) :

  • Pas de tags à usage unique;
  • Déterminer le pluriel ou le singulier des mots;
  • Inclure un vérification d’orthographe;
  • Enlever les tags « personnels »;
  • Normaliser l’utilisation des espaces et des majuscules;
  • Inclure les synonymes;
  • Promouvoir l’utilisation de plusieurs tags lors de l’étiquetage.

 

e) Confirme la possibilité d’économiser du temps

f) Confirme que l’étiquetage est plus efficace pour retrouver les fichiers que la méthode traditionnelle.

Retour au plan de l’article

6. Conclusions and limitations

a) Rappel :

–        Étude porte sur le rôle de l’étiquetage dans un contexte d’entreprise;

–        Question principale de la recherche : Est-ce que l’étiquetage des fichiers, par rapport au système hiérarchique traditionnel, peut permettre l’économie de temps dans la recherche d’information?

 

b) Résultats :

– Montre que les utilisateurs utilisent plusieurs méthodes de classement des documents (par sujet, par projet, etc.).

– Utilisation de TagDav :

  • 67 % des participants ont dit que le système pourrait les aider à trouver des fichiers sans l’utilisation d’un moteur de recherche;
  • 78 % des participants ont dit que le système leur permettrait définitivement d’économiser du temps lors de recherches de fichiers;
  • Évaluation moyenne du temps économisé avec TagDav : 40 minutes par jour, cependant plus de temps passé à indexer les fichiers;
  • Un tel système pourrait réduire jusqu’à 80% l’effort du stockage et de la recherche chez les employés.

 

c) Répercussions :

–        Les entreprises traitant de grands volumes d’information devraient évaluer la fonctionnalité de leur système d’opération et d’information à la lumière des bénéfices potentiels offerts par l’étiquetage et les coûts et limites du stockage traditionnel.

–        Résultant à l’adoption de bonnes pratiques en terme de recherche d’information.

–        L’approche TagDav fournit une aide pour le stockage et la recherche d’information dans l’entreprise. Elle peut améliorer le rapport coût-efficacité et la performance d’entreprises traitant de grands volumes d’information.

 

d) Limites

–        Les employés n’ont pas utilisé TagDav quotidiennement, ce qui ne permet pas de mesurer si TagDav a une véritable incidence sur les capacités de recherche.

–        Le nombre restreint de participants : il faudrait refaire l’étude sur un nombre plus grand.

–        Les techniques traditionnelles d’enregistrement des documents devraient être revues.

Retour au plan de l’article

Références sélectionnées

 

Burstein, F. (2002), “System development in information systems research”, in Williamson, K. (Ed.), Research Methods for Students, Academics and Professionals: Information Management and Systems, 2nd ed., Centre for Information Studies, Charles Sturt University, Wagga Wagga, pp. 147-58.

Dubie, D. (2006), “Time spent searching cuts into company productivity”, Network World, available at: http://www.networkworld.com/news/2006/102006-search-cuts-productivity.html (consultée août 2013).

Golder, S.A. and Huberman, B.A. (2006), “Usage patterns of collaborative tagging systems”, Journal of Information Science, Vol. 32 No. 2, p. 198.

Hayman, S. and Lothian, N. (2007), “Taxonomy directed folksonomies”, available at: http://archive.ifla.org/IV/ifla73/papers/157-Hayman_Lothian-en.pdf (consultée août 2013).

Jackson, T.W. and Culjak, G. (2006), “Can seminar and computer-based training improve the effectiveness of electronic mail communication within the workplace?”, in Spencer, S. and Jenkins, A. (Eds), Proceedings of the 17th Australasian Conference on Information Systems.

Karr-Wisniewski, P. and Lu, Y. (2010), “When more is too much: operationalizing technology overload and exploring its impact on knowledge worker productivity”, Computers in Human Behavior, Vol. 26 No. 5, pp. 1061-72.

Kelly, D., Fu, X. and Shah, C. (2010), “Effects of position and number of relevant documents retrieved on users evaluations of system performance”, ACM Transactions on Information Systems (TOIS), Vol. 28 No. 2, pp. 1-29.

Kirsh, D. (2000), “A few thoughts on cognitive overload”, Intellectica, Vol. 1 No. 30, pp. 19-51.  Kobayashi, T., Misue, K., Shizuki, B. and Tanaka, J. (2006), “Information gathering support interface by the overview presentation of web search results”, Proceedings of the Asia Pacific Symposium on Information Visualisation, Vol. 60, pp. 103-8.

Mathes, A. (2004), “Folksonomies-cooperative classification and communication through shared metadata”, paper presented at Computer Mediated Communication, LIS590CMC (Doctoral Seminar), Graduate School of Library and Information Science, University of Illinois Urbana-Champaign, Urbana, IL, December.

Meglio, C. and Kleiner, B. (1990), “Managing information overload”, Industrial Management & Data Systems, Vol. 90 No. 1, pp. 23-5.

Nelson, M.R. (1994), “We have the information you want, but getting it will cost you!: held hostage by information overload”, Crossroads, Vol. 1 No. 1, pp. 11-15.

Rosacker, K. and Rosacker, R. (2010), “Information technology project management within public sector organizations”, Journal of Enterprise Information Management, Vol. 23 No. 5, pp. 587-94.

Smith, S. (2010), “Reducing information overload by optimising information retrieval approaches”, PhD thesis, Loughborough University, Loughborough.

Wang, Y. and Forgionne, G. (2008), “Testing a decision-theoretic approach to the evaluation of information retrieval systems”, Journal of Information Science, Vol. 34 No. 6, pp. 861-76.

 


[1] En gestion, méthode d’analyse en quatre grands axes des problèmes. Strengths (forces), Weaknesses (faiblesses), Opportunities (opportunités), Threats (menaces).