Imprimer la page

Les enjeux de l'indexation

Rize+ / archives / bibliothèque / inventaires

Le Rize est largement touché par les enjeux de description à la fois documentaires, archivistiques et patrimoniaux :

  • mise en place d'inventaires territoriaux variés, s'inspirant notamment de ce qui est fait par l'Inventaire général du patrimoine culturel ;
  • développement du Rize+, qui suppose une indexation pour que les internautes puissent facilement avoir accès à l'information ;
  • politique nationale de "transition bibliographique" pour les bibliothèques (mise en relation des métadonnées des bibliothèques avec le web sémantique), portée notamment par la Bnf et Sudoc (et expliquée sur un site dédié).
  • politique nationale (moins rapide) d'évolution des descriptions archivistiques vers la norme Ric. Voir par exemple la journée organisée par France Archives en 2020 : "les métadonnées archivistiques en transition", dont la synthèse est conservée sur le blog hypothèses des Archives Nationales.

Si ce contexte peut bousculer le fonctionnement actuel de certains services, il y a de fortes chances que, d'une manière ou d'une autre, il s'impose aux collectivités, via des instructions nationales.

Les politiques de métadonnées au sein des administrations nationales

D'une façon générale, les données produites par les administrations évoluent pour faciliter leur utilisation dans le contexte du web, mais aussi pour permettre de mutualiser les données entre différents services, différentes branches de la fonction publique.

A titre d'exemples, les données fiscales de la DGFip, les données de l'Insee et celles de l'Ign sont en phase d'harmonisation et viennent alimenter les analyses relatives aux territoires. L'harmonisation se déploie à plusieurs échelles : d'une part, en lien avec les institutions européennes, d'autre part, en lien avec les collectivités. Le Grand Lyon intègre par exemple certaines de ces données harmonisées (données économiques, données fiscales, ...), mais contribue aussi à les alimenter (données d'adresses, données cadastrales, ...). Les adresses et les parcelles cadastrales sont un terrain d'expérimentation et d'échanges importants entre les différentes administrations.

Autre exemple : la Note d’information DGP/SIAF/2012/015 en date du 12 novembre 2012, signée du directeur chargé des archives de France, détaille les évolutions récentes du Thesaurus pour la description et l'indexation des archives locales, mordernes et contemporaines. La mise à jour de ce Thesaurus s'inscrit dans un projet d'harmonisation des données culturelles au sein du ministère de la Culture. Ce projet "HADOC", est piloté par la Direction générale des patrimoines (DGPat).

En voici l'objectif annoncé :

"L’objectif est de créer un référentiel terminologique unifié permettant d’offrir aux usagers un accès unique et cohérent aux ressources terminologiques produites par le MCC et d’en démultiplier les usages."

En parallèle, La Bnf projette de mutualiser ses metadonnées avec Abes (Sudoc/MESRI), et avec d'autres organisations internationales, dans un Fichier national d'entités (FNE). Un prototype a aussi été élaboré par les institutions nationales d'archives (Archives Nationales, France archives, SIAF) pour expérimenter la potentielle mutualisation de métadonnées avec la BnF, via le web.

L'ensemble du processus d'harmonisation des données s'inscrit dans la stratégie d'Open Data de l'État, pilotée via sa mission Etalab, qui vient d'avoir 10 ans.

Un changement de modèle dans la description documentaire et administrative

L'évolution globale dans les différentes administrations et dans les établissements publics est le passage vers la description d'objets divers (ouvrages, oeuvres, documents d'archives, objets réels, entreprises réelles) grâce à des modèles "entités-relations", plus souples que ceux qui existaient auparavant, plus compatibles avec la recherche sur la web et plus interopérables.

Les organismes publics sont aussi de plus en plus incités à développer des Api (des "interface de programmation d’application" soit des plateformes permettant des échanges de données entre sites web). Ainsi, chacun peut récupérer les données de l'autre.

Adapter le modèle de données du Rize+ : vers une approche "entité-relations"

Pour faciliter la recherche d'information, Le Rize+ devrait, lui aussi, évoluer vers un modèle "entités-relations" : des listes d'adresses, de personnes, d'organismes, de lieux, communes à l'ensemble du site internet et permettant d'indexer l'ensemble des documents qui y figurent. Cette approche devrait permettre de mettre en place un moteur de recherche transversal à l'ensemble du site.

En cela, il se rapprochera du logiciel Avenio, utilisé par le pôle archives du Rize, qui fonctionne déjà selon un modèle de ce type. Il est donc souhaitable que les listes d'autorité et les index du Rize+ s'alignent ceux utilisés dans Avenio.

Prendre en compte les évolutions des normes archivistiques

Les listes d'autorité et index d'Avenio ont besoin d'un nettoyage, ainsi que de la rédaction d'un mode d'emploi. En effet, c'est leur qualité qui permet d'améliorer la recherche sur Avenio, et donc l'accès à l'information archivistique.

Pour éviter de faire le travail plusieurs fois, il est important de s'appuyer sur les normes archivistiques nationales (ISAD (G)ISAAR (CPF), ISDF, ISDIAH), les schémas d'informatisation de la description (DTD EAD, EAC-CPF), les circulaires, et nomenclatures (Géonomenclature historique des lieux habités, décembre 2003, Thésaurus pour la description et l'indexation des archives locales) déjà existants.

Mais, il est aussi stratégique de prendre en compte les évolutions en cours de ces normes (Standards du Web de données, norme Rico-O), pour éviter que ce travail de nettoyage des index ne devienne rapidement obsolète.

Métadonnées archivistiques en transition, affiche

Les évolutions à prévoir pour les bibliothèques : la transition bibliographique

Par ailleurs, il y a de fortes chances que les descriptions bibliographiques des médiathèques municipales évoluent vers des modèles "entités-relation" puisque c'est la politique menée à l'échelle nationale.

A titre d'exemple, l'Abes et la Bnf projettent ensemble une plateforme commune dont l'objet rejoint la plupart des activités documentaires du Rize :

"Le Fichier national d’entités (FNE), co-réalisé par la BnF et l’Abes, est un projet de plate-forme centralisée de production mutualisée des données relatives à plusieurs des entités nécessaires à la description d’objets documentaires des bibliothèques, centres de documentation et potentiellement archives et institutions culturelles françaises."

Source : https://www.transition-bibliographique.fr/fne/charte-fichier-national-entites/
 

Autre exemple : le CNFPT commence à sensibiliser les collectivités aux enjeux de la transition bibliographique, via des journées professionnelles dédiées.

La transition bibliographique

Vers une meilleure transversalité des métadonnées documentaires au sein du Rize

Pour le fonctionnement du Rize, l'enjeu global est de simplifier l'accès aux informations produites et conservées par le Rize. Mais, on le voit, s'y ajoute un deuxième enjeu : préparer les transitions documentaires qui s'annoncent via les initiatives nationales. Il est donc stratégique de fabriquer au fil du temps des index communs entre les pôles du Rize qui le peuvent, avec ces perspectives en arrière-plan.

Les archives étant soumises à une réglementation et à des contraintes plus strictes que le pôle recherche ou le pôle valorisation, c'est de leurs contraintes qu'il convient de partir pour harmoniser le reste.

Les bibliothèques sont soumises à d'autres normes documentaires, et suivent leur propre logique, mais il y a de forte chances que leurs modèles de données se rapprochent au fil du temps de ceux utilisés pour les archives. Il est donc intéressant d'intégrer dans la réflexion (sans forcément s'y soumettre) les normes documentaires en cours d'élaboration au sein du groupe de travail national sur la "transition bibliographique". Cette approche permet d'anticiper les futures contraintes qui s'appliqueront vraisemblablement aux bibliothèques, et de les prendre en compte, au moins en partie.

On peut ainsi espérer que les index retenus pour les pôles archives, valorisation et recherche seront assez proches de ceux qui s'imposeront dans les années qui viennent au sein des bibliothèques municipales.

Rize+ / archives / bibliothèque / inventaires : des catégories communes

Les différentes activités documentaires du Rize ont en commun de devoir décrire des objets (document de médiathèque, fond ou pièce d'archives, oeuvre, bâtiment, entité géographique) à travers un certain de nombre de catégories, dont la forme est harmonisée.

Certaines d'entre-elles sont communes, du moins au niveau conceptuel :

  • Type d'objet
  • Personne physique (agent individuel)
  • Groupe ou personne morale ou organisme (agent collectif)
  • Lieu
  • Dates

Chacune de ces catégories demande parfois d'y ajouter des précisions. Exemples :

  • Personne physique : profession, poste, activité, etc.
  • Groupe ou personne morale ou organisme : statut juridique, activité, etc.
  • Lieu : type de lieu (adresse, rue, etc.)
  • Dates : type de date (date unique, intervalle entre dates extrêmes, périodes historiquesetc.), source de la date, certitude de la date, etc.

Par ailleurs, l'harmonisation suppose de trouver une forme commune (typographie, ordre des termes), qui facilite les recherches et évite les doublons.

Références externes

On peut observer plusieurs références extérieures qui peuvent alimenter la réflexion ; celles-ci dépendent des métiers et des organisations qui les produisent.

Bibliothèques

Dans les bibliothèques, il est propable que le Système de description actuel Rameau (assez complexe), évolue vers un système adapté du modèle IFLA LRM.

"Le modèle IFLA LRM (Library Reference Model / Modèle de référence pour les bibliothèques) a été publié par l’Ifla en 2017. Ce modèle conceptuel, offrant une représentation schématique de l’activité des bibliothèques, est orienté vers les besoins des utilisateurs. Il est conçu pour être facilement transposable dans les technologies du web.

À terme, les notices bibliographiques seront amenées à être remplacées par un réseau d’entités et de relations entre ces entités, qui seront plus visibles sur le web. Une voie est ouverte vers une interopérabilité accrue des données des catalogues de bibliothèques."

Source : https://www.transition-bibliographique.fr/enjeux/definition-ifla-lrm/
 

Schéma IFLA-LRM

 
 Source : Schéma du modèle IFLA LRM, © Transition bibliographique, https://www.transition-bibliographique.fr/enjeux/definition-ifla-lrm/.
 Archives

Dans les services d'archives, il est probable que les pratiques intègrent au fil du temps le modèle conceptuel RIC-CM, à travers les différentes versions de la norme RIC-O.

Ric-CM

 

Ce modèle permet, par exemple de décrire :

  • les relations entre une personne physique et une organisation

 

RIC-CM, relations personne physique-organisation

  • un lieu 
RIC-CM, Lieu

 

On le voit, cette modélisation du lieu permet de faire le lien entre la description dans un logiciel d'archives d'un lieu (ici, une commune) et sa définition pour des systèmes d'information géographiques (Ign, Géonames du W3C sur le web) ou des normes statistiques (Insee). Elle permet donc de faire concrètement le lien avec des données géographiques créés ou commandées par le Rize à travers ses inventaires géolocalisés (Carnet des mémoires, inventaire des noms de rue, inventaire professionnel du bâti).

Référentiels des archives nationales en Opendata

A l'occasion d'un Hackathon, les archives nationales ont communiqué leurs référentiels en EAD.

Ils ont été mis en ligne sur : https://www.data.gouv.fr/fr/datasets/les-donnees-du-hackathon-des-archives-nationales/Un des jeux de données contient les référentiels du système d'informations archivistiques des Archives Nationales au format EAD.xml, ainsi que le référentiel général au format EAD.dtd :

https://www.data.gouv.fr/fr/datasets/r/ebb7e742-931c-40da-9c62-f8630e89f805Au cours du Hackathon, certaines listes d'autorité ont été converties au format RDF/XML, pour avancer vers le projet de participation des archives nationales à l'échange de métadonnées sur le web.

Afin de travailler sur son propre référentiel d'indexation, le Rize a converti le fichier ref.dtd en schéma .XML :

http://lerizeplus.villeurbanne.fr/arkotheque/client/am_lerize/_depot_arko/articles/3031/schema-xml-du-referentiel-des-archives-nationales-en-xsd_doc.xsd

 

Les perspectives de réutilisation des données indexées

Au delà des enjeux purement documentaires, la bonne gestion de l'indexation des données va favoriser leur partage raisonné sur différents supports, dédiés à des publics ou à des situations d'usages différentes.

On peut par exemple prendre le cas de deux inventaires déjà réalisés :

  • l'inventaire des noms de voies de Villeurbanne ;
  • l'inventaire professionnel du bâti villeurbannais.

Le premier est déjà en ligne sur le Rize+, le second le sera vraisemblablement en 2022.

Ce type de mise en ligne est adapté à un usage grand-public, ou, plus précisément, aux curieux et amateurs de patrimoines qui souhaitent se renseigner sur des cas précis (leur rue, tel ou tel immeuble, etc.)

Cependant, il existe un autre public, étudiant, chercheur ou professionnel (organismes publics et privés autour de l'urbanisme et de l'architecture, notamment) qui a besoin de pouvoir télécharger ces jeux de données en entier pour effectuer des cartographies, des traitements statistiques, des croisements d'informations divserses. Il est envisageable et semble relativement simple de mettre ces jeux de données à disposition d'un public plus spécialisé sur https://data.grandlyon.com.

Dans cette perspective, l'inventaire des noms de voies de Villeurbanne peut être croisé avec les tronçons de la trame viaire fournie sur le même site par le Grand Lyon. Le Rize peut alors proposer au Grand Lyon une réutilisation des tronçons de la trame viaire, enrichie avec les données issues de l'inventaire des voies du Rize+. Ainsi, l'ensemble des professionnels peuvent avoir accès à l'évolution des noms de voies de Villeurbanne au fil du temps, pour des recherches impliquant une analyse historique du territoire.

De la même manière, l'inventaire professionel du bâti villeurbannais peut être croisé avec la couche de parcelles cadastrales fournies par le Grand Lyon. Il peut être soumis au Grand Lyon en tant que réutilisation et enrichissement de leurs données initiales. Alors, les étudiants, chercheurs, professionnels pourrons s'en saisir pour leurs propres usages, et, on peut l'espérer, eux-même soumettre sur le même site les réutilisations qu'ils font de ces données.

D'un point de vue pratique, cette approche permet aussi au Rize de renvoyer directement au site data.grandlyon.com pour ce type de besoins. Un lien vers le site peut même être envisagé sur le Rize+. Cette approche permet d'éviter les mails intempestifs de demandes émanant de différents interlocuteurs sur différents sujets : gain de temps, et d'éfficacité, meilleur disposinibilité de la donnée, visibilité du Rize pour les professionnels.

Ce type de données peut également être mobilisée par Villeurbanne pour des Hackathons, par exemple, pour des évènements dédiés au numérique.

On pourrait aussi envisager un usage pour l'éducation nationale pour la cartographie via l'application Magrit, logiciel libre et gratuit spécialement élaboré à cet effet.

Cependant, la condition de mise à disposition de ces données dans ce type de contexte est leur indexation correcte, avec une description pertinente qui les accompagne. Pour favoriser les croisements d'informations, la présence d'index et de champs harmonisés, est nécessaire.

Conclusion provisoire

(mise à jour mai 2021)

L'indexation devient un enjeu documentaire important du fait du développement du web sémantique. Très concrètement il s'agit de la façon dont les moteurs de recherche peuvent trouver de l'information. Les institutions internationales et nationales en charge des normes documentaires pour le web, les archives, les bibliothèques et le patrimoine planchent sur la question et ont créé de nouvelles normes.

L'idée générale est que les métadonnées des archives et des bibliothèques (descriptions, index, catalogues) soient compatibles avec leur mise en ligne sur le web.

En France, la Bnf et les Archives Nationales commencent à sensibiliser les collectivités sur ces questions. Le ministère de la Culture essaie aussi d'harmoniser l'ensemble de ses inventaires (patrimoine, musées, bibliothèques, archives).

On peut donc s'attendre à ce que des normes ou circulaires liées à ces questions soient envoyées par l’État aux collectivités dans les années qui viennent.

Tout le monde semble d'accord sur quelques points :

  • Il faut raisonner par type d'entités et en faire des listes cohérentes, avec des formes et typographies normalisées :
    • Personnes physiques
    • Groupes ou personnes morales ou organismes
    • Lieux (normalisation en lien avec descriptifs Insee, Ign et W3C)
    • Dates
    • Périodes historiques
    • Autres (le détail varie selon les institutions)
  • Ensuite on utilise ces index pour décrire des archives, des fonds de bibliothèques ou des objets physiques (par exemple des bâtiments, du mobilier, etc.). Cette démarche permet de mettre en lien des catalogues et inventaires hétérogènes.
  • Elle permet aussi de retrouver l'information plus facilement, en interne et sur le web.

Cette question recoupe celle de la mise en ligne des informations sur le Rize+, et d'une démarche plus globale qui permettrait d'y retrouver plus facilement une information, via un moteur de recherche transversal.

Par conséquent, les étapes de travail sont les suivantes :

  1. Organiser les index et les documenter (Nolwenn, en collaboration avec Emanuela et Marjolaine).
  2. Indexer les informations de tous types existantes en fonction de ces index :
    1. Mise à jour des index sous Avenio (Nolwenn, en collaboration avec Emanuela et Marjolaine)
    2. Adaptation éventuelle de quelques types de tag sous Zotero selon arbitrages sur index (Marjolaine)
    3. Commander et suivre la migration du Rize +, avec intégration d'un moteur de recherche transversal (qui ?)
    4. Réindexer les données du Rize + (qui ?)
  3. En parallèle, réfléchir à un process pour intégrer et indexer les nouvelles informations que le Rize récolte au fil du temps auprès de ses partenaires (qui?)


Aucun commentaire