La qualité des données dans la base de connaissance commune

Les SGB de nouvelle génération ne sont plus construits autour d’un catalogue, mais d’une base de connaissance. Héritées des systèmes de gestion de la documentation numérique (résolveurs de liens, ERMS) que les établissements acquièrent en plus des SIGB, les bases de connaissance contiennent des millions de données de natures différentes : notices bibliographiques et d’autorités, localisations, mais aussi abonnements et contrats, données sur les fournisseurs, listes de contenu des bouquets de périodiques et des bases en ligne, données sur les usagers, données de calcul des accès. Ces données proviennent de centaines de sources différentes et sont fournies dans des formats variés. L’intégration des catalogues de bibliothèques aux bases de connaissance est sans doute le meilleur moyen de contruire une base de gestion unique des ressources imprimées et numériques, mais ne peut-on craindre d’y perdre la qualité habituelle des catalogues ?

Les bases de connaissance ont aussi un modèle de qualité des données, mais il est très différent de celui des catalogues, parce qu’il s’est construit sur le traitement de données numériques alors que l’autre s’est construit sur le traitement des données imprimées et notamment sur le catalogage document en main. La base de connaissance des SGB n’est plus mise à jour pour l’essentiel par le catalogage partagé d’un réseau de bibliothèques, mais par le chargement de sources diverses, grandes bibliothèques et organismes documentaires, mais aussi nombreux éditeurs. Son efficacité dépend beaucoup de la qualité des multiples données ainsi chargées. Les producteurs de bases de connaissance savent que leur valeur dépend largement de leur qualité et utilisent plusieurs moyens pour l’améliorer :

  • Les traitements préalables ou postérieurs aux chargements sont de plus en plus nombreux et complexes. Un fournisseur de base de connaissance annonce avoir 100 000 règles de traitement qu’il applique aux différentes sources et en ajouter environ 200 par mois.
  • Les producteurs de bases de connaissance collaborent aux groupes internationaux de normalisation des données numériques (KBART) et travaillent activement auprès des nombreux éditeurs qui alimentent leur base de données pour qu’ils intègrent en amont ces standards.
  • Les principaux producteurs font état d’un équipe de 15 à 30 ETP entièrement dédiée à la mise à jour de la base de connaissance. L’un d’entre eux indique que son équipe comporte trois bibliothécaires catalogueurs entièrement dédiés à la vérification de métadonnées dans ISSN et CONSER.
  • Ils organisent enfin la collecte et le traitement systématiques des anomalies détectées par les bibliothèques clientes.

Quelle est la place du catalogage et de la normalisation dans ce nouvel environnement ? Les phénomènes que nous connaissons déjà vont s’accentuer. Le catalogage original va encore diminuer mais ils restera indispensable pour au moins une partie des collections imprimées. Le travail de mise à jour, de correction et de dédoublonnage augmentera mais se fera davantage en complément des traitements automatiques et s’appuiera davantage sur une collecte organisée des difficultés rencontrées par les usagers. Le sentiment quelquefois exprimé par les catalogueurs que les chargements cassent leur travail provient en partie d’un manque de contact entre équipes de catalogage et équipes chargées de la documentation numérique et de l’informatique documentaire. Les deux sont indispensables pour produire un catalogue ou une base de connaissance de qualité. En unifiant documentation numérique et imprimée, les SGB de nouvelle génération obligeront probablement à se réorganiser autour de la qualité des accès et l’expérience des catalogueurs peut  certainement y jouer un nouveau rôle. N’est-ce pas l’objectif initial des FRBR ? Construire un schéma de données cohérentes pour les besoins des usagers, quelle que soit la méthode d’encodage utilisée.

Un outil d’encodage et des règles sont bien sûr indispensables pour travailler au quotidien et leur apprentissage peut être lourd. Est-ce que le module de gestion des métadonnées qui remplacera le module de catalogage actuel utilisera Unimarc et RDA ? Il intégrera probalement le meilleur des modules de catalogage que possédent déjà les fournisseurs de SGB, mais les règles d’encodage actuelles ne seront plus exclusives dans une base commune unique qui regroupera à la fois des types de données plus variées et une communauté de bibliothèques plus large.

Cette situation entraînera nécessairement une réflexion globale et un changement du régime de définition et de production de la qualité. Les conceptions locale, nationale et internationale de la qualité seront plus directement confrontées entre elles. Que la nouvelle dynamique contribue à améliorer ou à diminuer la qualité dépend autant des règles que la communauté saura se donner que de questions techniques.

En conclusion il n’est pas étonnant que le module de gestion des métadonnées se révèle comme l’un des plus difficiles à mettre au point.

Pour en savoir plus sur les bases de connaissance, si l’anglais ne vous rebute pas, vous consulterez avec profit ce rapport dont le billet est en partie inspiré.

Publicités

Les personnes disposent d’un droit d’accès aux informations contenues dans cette zone de texte. Les informations que vous y inscrivez doivent être pertinentes au regard du contexte. Elles ne doivent pas comporter d’appréciation subjective, ni faire apparaître, directement ou indirectement les origines raciales, les opinions politiques, philosophiques ou religieuses, les appartenances syndicales ou les mœurs de la personne concernée.

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s