Uddin et Janecek (2)

Faceted classification in web information architecture: A framework for using semantic web tools

de Mohammad Nasir Uddin et Paul Janecek

Résumé par Simon Côté-Lapointe

Référence : Uddin, M. N., & Janecek, P. (2007). Faceted classification in web information architecture : a framework for using semantic web tools. The Electronic Library, 25(2), 219-233.

Cliquez ici pour accéder à l’article original.

Abstract

[Traduction du résumé de l’article]

Objectif

Le présent document a pour objet de développer et de mettre en place une structure de classification à facettes pour améliorer l’organisation, l’accès et la navigabilité de l’information sur un site web.

Design / méthodologie / approche

Pour développer une approche de classification, des études de cas portant sur des sites commerciaux utilisant des métadonnées classées par facettes [« faceted metadata »] ont été analysées. Le cadre proposé adapte la théorie de l’analyse des facettes du Système de Classification à Facettes (SCF) [« Faceted Classification System (FCS) »] aux outils du web sémantique (spécifiquement les systèmes de stockage XML et RDF) et aux ontologies, conçus pour être intégrés dans un système de gestion de contenu (CMS) [« Content Management System (CMS) »]. Les étapes de construction d’un SCF à partir de métadonnées est démontrée dans le contexte d’un système d’information universitaire.

Résultats

Des exemples détaillés démontrent que le classement et l’organisation de l’information en hiérarchies multidimensionnelles est plus accessible qu’avec une simple taxonomie hiérarchique unidimensionnelle.

Limitations / implications de la recherche

Comme étude de cas, un prototype développé d’après le cadre proposé est utilisé sur le site web d’une institution universitaire.

Originalité / valeur

Améliorer la recherche sur les SCF en intégrant les structures de classification à facettes en langage XML/RDF basées sur des ontologies et les outils de gestion de contenu [« content management tools »]. Une approche dynamique dans l’organisation et la recherche d’information web fournit aux utilisateurs plusieurs moyens, basés sur leurs connaissance et besoins d’information, d’accéder à l’information.

Plan du texte

1. Introduction
2. Faceted classification system
3. Case studies of faceted metadata search and navigation

3.1 Epicurious
3.2 Flamenco
3.3 LawforWA

4. The system framework

4.1 Knowledge-base
4.2 Content Management System (CMS)
4.3 Communicator

5. Conclusions and future work
Références sélectionnées

 

1. Introduction

1.1. Explications de l’utilité d’une structure classificatoire dans un site web.

1.2. Limites des structures classificatoires :

  • Pour l’architecte du site : Difficulté de mettre en place une seule structure qui demeure cohérente à cause :
    • de l’ajout constant d’information;
    • de l’hétérogénéité des informations web.
  • Pour l’usager : difficulté de trouver l’info lorsque :
    • le site ne les guide pas vers l’info qu’ils cherchent;
    • les résultats de recherche ne décrivent pas adéquatement le contenu du site.

–        Donc : bonne partie de l’info dans les entreprises reste inutilisée.

–        Pour résoudre le problème, un système de classification et de métadonnées doit avoir une structure dynamique.

–        Problématique de la hiérarchie traditionnelle : division par « arbre », un objet = une catégorie, pas d’ordre dominant : n’exprime pas les propriétés et relations multidimensionnels des objets numériques.

 

1.3. Caractéristiques d’une structure de classification à facettes :

–        Avantages des catégories multiples organisées en taxonomies multidimensionnelles;

–        Catégories déterminées par l’analyse du contenu par domaine;

–        Demande l’intervention humaine :

  • pour créer des facettes (catégories orthogonales);
  • pour indexer et assigner les métadonnées pour les taxonomies.

–        Taxonomie à facette multidimensionnelle utile pour :

  • classifier et organiser les documents;
  • guider dans la navigation, l’exploration et la recherche.

 

1.4. Caractéristiques d’après des travaux connexes :

–        Les usagers préfèrent les catégories hiérarchiques formées de métadonnées issues de contenu plutôt que de catégories issues des résultats de recherche regroupés.

–        Les métadonnées peuvent être de différents types : métadonnée plate (un seul niveau) ou hiérarchique (ex : Lieu : Europe > Italie > Rome), permettant plusieurs chemins d’accès possibles.

–        La structure logique et prévisible des facettes est plus adaptée à l’environnement électronique que les systèmes énumératifs et pré-coordonnés (combinaison de vedettes matières et de sous-vedettes).

–        La classification à facettes a été utilisée dans le répertoires par sujets et les moteurs de recherche, pour la recherche d’images.

–        Cependant, aucune de ses applications n’utilise d’outils sémantiques pour exploiter l’avantage de l’intégration des structures ontologiques dans les taxonomies à facettes.

Retour au plan de l’article

2. Faceted classification system

2.1. Explication du concept et de l’utilisation des facettes.

–        La classification à facettes est une approche ascendante [« bottom-up approach »] où chaque objet est étiqueté avec un certain ensemble d’attributs et valeurs dans plusieurs dimensions.

–        L’organisation des objets est déterminée par la manière dont l’utilisateur choisit d’y accéder.

–        Ranganathan, 1930 : premier à introduire l’idée de décomposer et organiser les sujets complexes par facettes.

2.2. Avantages du SCF dans un contexte web :

–        Usagers ont une vision précise du contenu même s’ils ne sont pas familiers de prime abord avec le domaine du contenu.

–        Usagers reconnaissent les concepts spécifiques à un domaine et les attributs des sujets [« domain concepts and objects attributes »] grâce à la visibilité de la structure.

–        Facilité de navigation et de formulation de requêtes en donnant le choix de varier, combiner ou changer les métadonnées sous différents angles (recherche interdomaines [« cross domain searching »]).

–        Permet aussi une recherche par mots-clés modifiable à travers les terminologies.

Retour au plan de l’article

3. Case studies of faceted metadata search and navigation

Quelques bons exemples d’utilisation commerciale de SCF pour la recherche et l’exploration de contenus web.

3.1 Epicurious

www.epicurious.com : Site de cuisine qui offre de l’info sur des recettes. [VOIR article des mêmes auteurs]

3.2 Flamenco

FLexible Access to MEtadata in NOvel Combinations : moteur de recherche d’images. [VOIR article des mêmes auteurs]

3.3 LawforWA

http://www.lawforwa.org/search/node : site gouvernemental de l’état de Washington permettant l’accès à de l’information concernant les lois, les cours, le gouvernement et les droits et responsabilités civils.

– Site utilise trois facettes principales :

  • Utilisation [« Purpose »] : comment le document sera utilisé;
  • Sujet [« Topic »]:  de quoi traite le document, le sujet abordé;
  • Type : format légal du document;

Retour au plan de l’article

4. The system framework

– Cadre : Architecture de l’information développée pour mettre en place un SCF dans le domaine académique.

– Caractéristiques :

  • Navigation et exploration multidimensionnelles;
  • Plusieurs utilisateurs à la fois;
  • Intégration sémantique de l’information par le stockage des facettes et les ontologies;

– Capacités du système dépendent de trois composantes :

  • Base de connaissances
  • Système de gestion de contenu (CMS)
  • Interface utilisateur [« Communicator »]

Figure 1 – Structure du système [« The system framework »]

 4.1 Knowledge-base

La base de connaissances : elle est le cœur du système.

– Elle contient :

  • les facettes;
  • l’ontologie du domaine [« the knowledge : domain ontology »] utilisée pour construire les facettes;
  • les ressources externes au CMS (les liens vers des sites internet ou autres ressources locales);

4.1.1. Facet Storage

– La partie stockage des facettes (voir figure 1 : Facet Storage) contient les facettes avec les hiérarchies des métadonnées / termes.

– Ces métadonnées, aussi appelées «isolats» [« isolates »] (cellules d’une facette), forment les sous-catégories des facettes.

– Chaque isolat représente une relation générique servant à classer le document.

– D’autres relations, comme des relations partitives (partie-tout) [«part-whole relation »] et des relations de termes associés [« related term »] sont définies dans les ensembles de termes [« set of terms »].

– Les facettes peuvent être construites soit par agrégation ou par combinaison de termes :

  • Par agrégation de termes : regrouper les concepts associés;
    • Ex : Regrouper les futurs étudiants et les étudiants actuels sous la facette « Étudiants ».
    • Par combinaison de termes : créer une nouvelle facette en utilisant les termes issus de deux facettes différentes;
      • Ex : Lieu subdivisé par « école » et par « pays ».

4.1.2. Étapes de développement des facettes pour un SCF :

1)      Analyser le champ d’activité [« domain »], les contenus et les usagers;

2)      Identifier et agréger les concepts et sous-concepts;

3)      Construire les facettes mutuellement exclusives par l’agrégation et la combinaison de termes pour couvrir l’ensemble des concepts;

4)      Utiliser un langage contrôlé et des taxonomies pour compléter chaque facette avec des descripteurs / métadonnées (isolats);

5)      Indexer / catégoriser chaque document d’après les facettes élaborées.

4.1.3 Langages

– Une base de données relationnelle ou des langages de métadonnées comme XFML (Exchangeable Faceted Metadata language), XTM et RDF (Resource Description Format) peuvent être utilisés pour transférer la classification à facettes en langage informatique.

  • Exemple de représentation d’une facette en XFML :

< facet id = “Academics” > Academics < /facet >

  • Exemple de représentation d’un descripteur/isolat en XFML :

< topic id = “Curricula” facetid = “Academics” >

< name > Curricula < /name ></topic >

Note : D’autres spécifications techniques sont décrites; pour plus de détails, se référer à l’article.

Retour au plan de l’article

4.2 Content Management System (CMS)

– Définition :

  • Le CMS est la plateforme web utilisée pour gérer et publier l’information créée par les usagers autorisés à publier du contenu;
  • Un outil pour créer, éditer, gérer et publier les textes, graphiques vidéos, documents, etc. dans différents formats;
  • À l’aide de règles, processus et outils de travail [« workflows »] qui assurent une cohérence et une validité du contenu numérique.

– Dans le cadre du SCF, il permet :

  • de filtrer, en reformatant, le contenu de la présentation;
  • de réutiliser le contenu selon différents contextes et pour différents usagers;
  • d’avoir de multiples métadonnées qui peuvent être intégrées à la recherche ou pour générer des rapports;
  • des outils de travail qui permettent à plusieurs auteurs de créer et d’éditer du contenu et un nombre plus restreint de réviser et d’approuver les publications;
  • d’assurer un contrôle sur les versions d’un contenu;
  • d’archiver à travers un système de sauvegarde et de récupération des données.

– Un CMS open source permet l’intégration dans la structure du SCF et de l’ontologie.

4.3 Communicator

– L’interface utilisateur du SCF.

– Caractéristiques :

  • Reçoit les demandes de l’usager et génère les processus concernés;
  • Structure du contenu et navigation peut être basée sur les facettes et les ontologies;
  • Recherche et navigation libre et par sélection de facettes sont complémentaires à la recherche par mots-clés;
  • Doit être flexible pour permettre d’explorer une collection de contenus sous plusieurs dimensions;
  • Devrait permettre une utilisation fluide entre la recherche raffinée et élargie;
  • Devrait supporter l’exploration dirigée et intuitive.

Retour au plan de l’article

5. Conclusions and future work

– La manière dont les sites web sont structurés sont déterminant pour le succès dans le  développement d’interfaces, tout particulièrement dans le cas d’utilisateurs peu connaissants du domaine couvert par le site.

– Cet article propose un cadre d’intégration d’un système classification à facettes dans un CMS dans le but d’améliorer l’accès, l’organisation, la visualisation et la navigation du contenu.

– Étude de cas d’un prototype mis en place dans une institution d’enseignement.

– Système basé sur le principe que la classification à facettes permet aux usagers des sites web d’accéder à l’information plus facilement que la taxonomie hiérarchique simple.

– Le système utilise la théorie de l’analyse par facettes et focalise sur la technologie web sémantique, plus spécifiquement les ontologies et le XML, pour modeler, stocker et appliquer le système de classification à facettes pour fournir une structure dynamique pour naviguer à travers le contenu du site web.

Retour au plan de l’article

Références sélectionnées

Broughton, V. (2001), “Faceted classification as a basis for knowledge organization in a digital environment; the Bliss Bibliographic Classification as a model for vocabulary management and the creation of multi-dimensional knowledge structures”, The New Review of Hypermedia and Multimedia, Vol. 7 No. 1, pp. 67-102.

Broughton, V. (2004), Faceted Classification, Essential Classification, Facet, London, pp. 257-83.

Broughton, V. (2005), “The need for a faceted classification as the basis of all methods of information retrieval”, Aslib Proceedings : New Information Perspectives, Vol. 58 Nos 1/2, pp. 49-72.

Chen, H., Houston, A.L., Sewell, R.R. and Schatz, B.R. (1998), “Internet browsing and searching : user evaluations of category map and concept space techniques”, Journal of the American Society for Information Sciences, Vol. 49 No. 7, pp. 582-603.

Dijck, P.V. (2003), “Introduction to XFML”, < www.xml.com/pub/a/2003/01/22/xfml.html>

Ellis, D. and Vasconcelos, A. (2000), “The relevance of facet analysis for world wide web subject organization and searching”, Journal of Internet Cataloging, Vol. 2 Nos 3/4, pp. 97-114.

Ingwersen, P. and Wormell, I. (1992), “Ranganathan in the perspective of advanced information retrieval”, Libri, Vol. 42, pp. 184-201.

Louie, A.J., Washington, W. and Maddox, E. (2003), “Using faceted classification to provide structure for information architecture”, <http://depts.washington.edu/pettt/presentations/conf_2003/IASummit.pdf>

Pratt, W., Hearst, M. and Fagan, L. (1999), “A knowledge-based approach to organizing retrieved documents”, Proceedings of 16th Annual Conference on Artificial Intelligence (AAAI 99), Orlando, FL.

Priss, U. and Jacob, E. (1999), “Utilizing faceted structures for information systems design”, Proceedings of the 62nd Annual Meeting of ASIS, pp. 203-12.

Ranganathan, S.R. (1960), Colon Classification, Basic Classification, 6th ed., Asia Publishing House, New York, NY.

Taylor, A.G. (1999), The Organization of Information, Libraries Unlimited, Englewood, CO.

Yee, K., Swearingen, K., Li, K. and Hearst, M.A. (2003), “Faceted metadata for image search and browsing”, Proceedings of the CHI, Lauderdale, Florida, available at: http://bailando.sims.berkeley.edu/papers/flamenco-chi03.pdf