L’articulation du projet de SGB mutualisé et du projet de base de connaissance nationale

Comment s’articulent les deux projets de l’ABES, SGB mutualisé et signalement partagé des ressources électroniques ? L’étude d’impact du SGB mutualisé (paragraphes 3.1.1 et 5.1.5, schéma page 34) et l’étude Pleiade sur la découverte (paragraphe 4.2) donnent le cadre général de réponse à cette question récurrente.

La base de connaissance nationale a pour premier objectif de signaler l’ensemble des ressources électroniques (« packages ») des établissements d’enseignement supérieur et de recherche. Elle décrit les ressources et les titres qu’elles contiennent (« TIPP » = titre+identifiants+package+plate-forme). Elle les localise (quelles bibliothèques, couverture pour chaque bibliothèque, licence).

Un résolveur de liens est associé à la base de connaissance. Lorsqu’un usager utilisant un outil de découverte trouve la référence d’un document (article le plus souvent) et clique sur le lien d’accès au document, ce lien est en fait de plus en plus souvent un lien Open Url qui doit être transmis à un résolveur de liens pour trouver le(s) véritable(s) lien(s) d’accès correspondant(s). Le résolveur de liens cherche dans la base de connaissance quelles ressources de la bibliothèque de l’usager contiennent le document et comment on accède à chaque ressource, par un lien direct au niveau de l’article ou seulement au niveau du titre de la revue à partir duquel l’usager devra retrouver son article. Selon les paramètres retenus par la bibliothèque, le résolveur de liens affiche directement l’article (ou la revue) appropriée à l’usager ou propose un menu de choix entre différentes copies ou modes de fourniture.

L’efficacité de l’accès dépend de l’exactitude des informations à tous les niveaux : qualité de la source Open Url, données générales des TIPP, données de localisation et de couverture des TIPP, paramétrage du résolveur de liens. Le premier niveau dépend surtout des fournisseurs d’outils de découverte et des métadonnées qu’ils reçoivent des éditeurs. Le troisième niveau dépend surtout des établissements. Les deuxième et quatrième niveaux peuvent aussi être maintenus par les établissements dans des bases locales et s’appuyer en partie sur les données fournies au départ par le vendeur de la base de connaissance locale et du résolveur de liens.

Mais les données générales de la base de connaissance peuvent également être maintenues et enrichies par une collaboration nationale et internationale entre bibliothèques et avec les éditeurs. Le JISC (Royaume Uni) et la fondation Kuali (Etats-Unis), qui étaient invités aux journées ABES, maintiennent une base de connaissance internationale GOKb (le site, #JABES2013) et une base de connaissance nationale KB+ (le site, #JABES2013). Ils proposent aux autres pays de construire des bases de connaissance nationales sur le modèle de KB+ et fédérées autour de GOKb. L’objectif principal des bases nationales est le signalement national et celui de la coopération internationale de tendre vers l’exhaustivité du signalement. La base de connaissance nationale peut par ailleurs contribuer à la gestion et à la découverte locales, mais elle ne les remplace pas. L’associer notamment à un résolveur de liens national sur le modèle allemand d’EZB pourra contribuer à la découverte locale. Mais la base nationale ne sera ni un ERMS ni un outil de découverte, seulement un outil de signalement partagé et d’amélioration des données. En particulier les bases de connaissance nationales se limitent actuellement au niveau des titres et ne contiennent pas le texte intégral des articles contenu dans les index centraux des outils de découverte.

En revanche le SGB mutualisé vise à fournir aux établissements des outils de gestion des ressources électroniques et de découverte. Les bibliothèques qui rejoindront le projet de SGB mutualisé géreront leurs abonnements électroniques dans un système local commun. Que ce système local commun s’appuie sur une base de connaissance commerciale internationale n’empêche pas que les données locales définissent dans cette base un périmètre propre à la bibliothèque et que ce périmètre puisse être alimenté par une vue locale correspondante dans la base nationale.

C’est l’architecture, détaillée dans le schéma suivant, qui sera demandée au fournisseur dans le cahier des charges du projet de SGB mutualisé et qui constituera un laboratoire essentiel de la mise en oeuvre de workflows entre bases locales et base nationale. Le schéma peut se lire comme un empilement de trois couches.

La couche du haut montre la base de connaissance nationale maintenue par l’ABES (KB ABES) qui échange des données avec GOKb et dont les données sont également enrichies par le hub de métadonnées. Celui-ci ne vise pas l’exhaustivité mais travaille sur des niches intéressant plus particulièrement la communauté académique française (par exemple les données des licences nationales). Ce travail constitue un apport précieux pour GOKb, qui cherche à élargir ses données au delà des périodiques électroniques les plus courants. Les métadonnées produites par le hub s’élargiront au-delà des périodiques électroniques (collections imprimées et e-books) et descendront au-delà des TIPP pour inclure les articles, mais elles ne concerneront qu’un périmètre restreint des ressources de la base de connaissance.

La couche intermédiaire est constituée des vues locales de chaque établissement dans la base de connaissance nationale. Cette vue locale peut être exclusivement alimentée par la base nationale, si l’établissement ne dispose pas d’une base de connaissance locale (« KB univ1 » à l’intérieur du périmètre orange des données entièrement gérées au niveau national), ou alimentée conjointement par la base de connaissance locale de l’établissement (« KB univ2 », « KB univ3 », « KB univ4 »).

La couche du bas est celle des bases de connaissance locales indépendantes de la base nationale mais qui communiquent avec elle. La base locale des universités 3 et 4 est un périmètre au sein de la base internationale du SGB.

NB – Sur les bases de connaissance et leur usage, vous pouvez aussi lire l’article de Cécile Clarac dans le numéro 70 d' »Arabesques ».

KB_ABES

L’étude d’impact du SGB mutualisé et l’étude sur un dispositif de découverte

L’ABES a publié hier soir l’étude d’impact du projet de SGB mutualisé et l’étude sur la découverte et le signalement des ressources électroniques. Ces études vous avaient été annoncées ici et .

L’ étude sur le SGB mutualisé est une version de travail qui explore les enjeux du projet, ses implications, les risques, réels, des solutions hébergées sur le web tout autant que les avancées qu’ils annoncent. Il est indispensable que la communauté des bibliothèques de l’enseignement supérieur et de la recherche s’empare de cette étude, la dissèque, pèse le pour et le contre et donne son avis en toute connaissance de cause. L’étude suivra le circuit institutionnel : débat en conseil scientifique, au comité technique, au comité de pilotage puis au conseil d’administration du 31 mai. Mais ce circuit classique ne suffit pas : nous la publions aussi sur le web en l’ouvrant à vos commentaires. Vos réactions seront communiquées au conseil d’administration à qui il appartiendra de décider de la suite à donner : approfondir les études, se lancer ou tout arrêter. Le document définitif issu des débats du CA intégrera les commentaires retenus par le Conseil.

L’étude sur la découverte a été réalisée par la société Pleiade. Comment améliorer la découverte des ressources nationales, notamment revues et livres électroniques ? Pour pouvoir analyser les possibilités d’étoffer ces services nationaux à l’aide d’un outil de découverte à l’échelle du web, l’ABES a mandaté une étude d’exploration des trois scénarios suivants :
– Un scénario de réalisation interne, élaborant un service de découverte objet d’un développement spécifique
– Un scénario utilisant des outils de découverte présents sur le marché : Summon (Serial Solutions), Primo (Ex Libris), EBSCO Discovery (EBSCO), OCLC WorldCat local.
– Un scénario qui établirait une collaboration avec Google Scholar : pour ce scénario, Google Scholar est l’élément central, proposant une interface publique ainsi que le moteur de recherche. L’accès au texte intégral s’effectuerait via un résolveur de liens.

Pour consulter les études

Pour commenter les études – Ne commentez pas les études directement sur ce blog. Deux sites dédiés aux commentaires ont été mis en place pour faciliter leur regroupement et leur exploitation. Nous attendons vos commentaires, de préférence avant le 15 mai.

NB – Les sites dédiés aux commentaires seront accessibles mardi 2 avril dans la journée. Pour ajouter des commentaires,  il faut s’inscrire sur le site. L’inscription est libre et immédiate.

La qualité des données dans la base de connaissance commune

Les SGB de nouvelle génération ne sont plus construits autour d’un catalogue, mais d’une base de connaissance. Héritées des systèmes de gestion de la documentation numérique (résolveurs de liens, ERMS) que les établissements acquièrent en plus des SIGB, les bases de connaissance contiennent des millions de données de natures différentes : notices bibliographiques et d’autorités, localisations, mais aussi abonnements et contrats, données sur les fournisseurs, listes de contenu des bouquets de périodiques et des bases en ligne, données sur les usagers, données de calcul des accès. Ces données proviennent de centaines de sources différentes et sont fournies dans des formats variés. L’intégration des catalogues de bibliothèques aux bases de connaissance est sans doute le meilleur moyen de contruire une base de gestion unique des ressources imprimées et numériques, mais ne peut-on craindre d’y perdre la qualité habituelle des catalogues ?

Les bases de connaissance ont aussi un modèle de qualité des données, mais il est très différent de celui des catalogues, parce qu’il s’est construit sur le traitement de données numériques alors que l’autre s’est construit sur le traitement des données imprimées et notamment sur le catalogage document en main. La base de connaissance des SGB n’est plus mise à jour pour l’essentiel par le catalogage partagé d’un réseau de bibliothèques, mais par le chargement de sources diverses, grandes bibliothèques et organismes documentaires, mais aussi nombreux éditeurs. Son efficacité dépend beaucoup de la qualité des multiples données ainsi chargées. Les producteurs de bases de connaissance savent que leur valeur dépend largement de leur qualité et utilisent plusieurs moyens pour l’améliorer :

  • Les traitements préalables ou postérieurs aux chargements sont de plus en plus nombreux et complexes. Un fournisseur de base de connaissance annonce avoir 100 000 règles de traitement qu’il applique aux différentes sources et en ajouter environ 200 par mois.
  • Les producteurs de bases de connaissance collaborent aux groupes internationaux de normalisation des données numériques (KBART) et travaillent activement auprès des nombreux éditeurs qui alimentent leur base de données pour qu’ils intègrent en amont ces standards.
  • Les principaux producteurs font état d’un équipe de 15 à 30 ETP entièrement dédiée à la mise à jour de la base de connaissance. L’un d’entre eux indique que son équipe comporte trois bibliothécaires catalogueurs entièrement dédiés à la vérification de métadonnées dans ISSN et CONSER.
  • Ils organisent enfin la collecte et le traitement systématiques des anomalies détectées par les bibliothèques clientes.

Quelle est la place du catalogage et de la normalisation dans ce nouvel environnement ? Les phénomènes que nous connaissons déjà vont s’accentuer. Le catalogage original va encore diminuer mais ils restera indispensable pour au moins une partie des collections imprimées. Le travail de mise à jour, de correction et de dédoublonnage augmentera mais se fera davantage en complément des traitements automatiques et s’appuiera davantage sur une collecte organisée des difficultés rencontrées par les usagers. Le sentiment quelquefois exprimé par les catalogueurs que les chargements cassent leur travail provient en partie d’un manque de contact entre équipes de catalogage et équipes chargées de la documentation numérique et de l’informatique documentaire. Les deux sont indispensables pour produire un catalogue ou une base de connaissance de qualité. En unifiant documentation numérique et imprimée, les SGB de nouvelle génération obligeront probablement à se réorganiser autour de la qualité des accès et l’expérience des catalogueurs peut  certainement y jouer un nouveau rôle. N’est-ce pas l’objectif initial des FRBR ? Construire un schéma de données cohérentes pour les besoins des usagers, quelle que soit la méthode d’encodage utilisée.

Un outil d’encodage et des règles sont bien sûr indispensables pour travailler au quotidien et leur apprentissage peut être lourd. Est-ce que le module de gestion des métadonnées qui remplacera le module de catalogage actuel utilisera Unimarc et RDA ? Il intégrera probalement le meilleur des modules de catalogage que possédent déjà les fournisseurs de SGB, mais les règles d’encodage actuelles ne seront plus exclusives dans une base commune unique qui regroupera à la fois des types de données plus variées et une communauté de bibliothèques plus large.

Cette situation entraînera nécessairement une réflexion globale et un changement du régime de définition et de production de la qualité. Les conceptions locale, nationale et internationale de la qualité seront plus directement confrontées entre elles. Que la nouvelle dynamique contribue à améliorer ou à diminuer la qualité dépend autant des règles que la communauté saura se donner que de questions techniques.

En conclusion il n’est pas étonnant que le module de gestion des métadonnées se révèle comme l’un des plus difficiles à mettre au point.

Pour en savoir plus sur les bases de connaissance, si l’anglais ne vous rebute pas, vous consulterez avec profit ce rapport dont le billet est en partie inspiré.