Nouvelles du comité technique – Juin 2012

Les seize établissements membres du comité technique (CT) sont :

  • la BIU Montpellier
  • la BULAC
  • le Campus Condorcet
  • l’ENS Lyon
  • le PRES de Bordeaux
  • le PRES de Toulouse
  • l’Université de Clermont-Ferrand
  • l’Université de Franche-Comté
  • l’Université Grenoble 2-3
  • l’Université de Lorraine
  • l’Université de Savoie
  • l’Université Lille 3
  • l’Université Lyon 1
  • l’Université Paris-Est Marne La Vallée
  • l’Université Pierre et Marie Curie
  • l’Université Sorbonne nouvelle (Paris 3).

Huit autres établissements, qui ont souhaité participer au CT, sont associés à l’un des seize membres, généralement dans le cadre d’un PRES :

  • l’INSA Lyon
  • Sciences Po Paris
  • l’Université de Bourgogne
  • l’Université Grenoble 1
  • l’Université Lille 2
  • l’Université Panthéon-Assas
  • l’Université Paris Descartes
  • l’Université Paris-Sorbonne (Paris 4).

L’ABES regrette de devoir faire un choix difficile et d’écarter plusieurs établissements motivés par le projet. Elle espère que la représentativité du comité ainsi constitué est l’une des plus larges possible. Il s’agit de toute façon d’un première étape.

Le chargé de mission envisage de réunir le CT cinq fois avant fin 2012 sur les thèmes suivants : les acquisitions, le catalogue, la circulation, l’ouverture des données et des services, le modèle économique.

La première réunion du CT se tiendra le 10 juillet à la BULAC.

La première partie de la réunion arrêtera le calendrier et la méthode de travail du CT. La deuxième partie de la réunion sera consacrée à l’étude des circuits d’acquisition des établissements et de leur évolution dans le cadre d’un SGB nouvelle génération.

Toutes les observations en vue de cette première réunion sont les bienvenues.

Local, national et international dans un SGB commun

Les SIGB actuels, logiciel et données, sont installés sur une base locale administrée en général par le SCD. Mais déjà les données sur les usagers proviennent en grande partie des systèmes locaux de scolarité et les données du catalogue proviennent en grande partie du SUDOC qui s’alimente lui-même en partie à d’autres sources bibliographiques nationales ou internationales via les chargements ou les accès Z3950. Les SGB de nouvelle génération sont au contraire installés sur une base internationale qui met en commun les données de toutes les bibliothèques et de leurs fournisseurs. Le local et même le national deviennent des périmètres particuliers au sein de la base internationale. En quoi cette situation modifie-t-elle l’activité aux niveaux local et national et prend-elle correctement en compte ces niveaux ?

La circulation et les acquisitions sont les fonctions locales par excellence des SIGB. La circulation restera la principale fonction locale des SGB. Utilisée essentiellement en banque de prêt, elle exige classiquement une grande disponibilité du système, de bons temps de réponse et une connexion sans faille entre le logiciel et divers appareils (postes de prêt, automates, contrôle antivol, voire contrôle d’entrée). A priori l’informatique dans les nuages s’engage fortement sur la disponibilité et les temps de réponse. En revanche on peut se demander ce qui se passera en cas de ralentissement du réseau ou de difficulté de connexion d’un matériel de prêt. Enfin les données personnelles des usagers gérées par le module circulation constituent la partie sensible des SIGB. Elles sont souvent stockées sur des serveurs internes et seul le dossier lecteur personnel est accessible de son propriétaire depuis l’extérieur. Il conviendra de trouver une solution conforme à la réglementation française sur ce point. Si le système commun ne stocke que les identifiants des lecteurs, la connexion indispensable aux données complètes stockées localement peut créer un ralentissement.

Les acquisitions évolueront beaucoup avec les nouveaux systèmes. L’intégration du niveau local de la fonction à un environnement commun qui associe bibliothèques et fournisseurs, en particulier fournisseurs de ressources électroniques, constitue une grande amélioration. Elle devrait à la fois simplifier la gestion actuelle des commandes et de leur suivi et donner une nouvelle ouverture à la politique documentaire locale. Toutefois le bon niveau commun pour les acquisitions est autant national qu’international et les fournisseurs nationaux ou locaux ne participent guère pour l’instant aux systèmes partagés. Par ailleurs le volet financier des acquisitions restera local et doit s’intégrer correctement au circuit financier de chaque établissement.

Le catalogue est aujourd’hui constitué en parallèle aux niveaux national et local. Les normes documentaires sont élaborées au niveau international, mais leur régime d’application est du ressort national avec des variantes de règles et de formats. L’existence de bases séparées laisse une grande autonomie locale et nationale dans le choix des données chargées et le traitement des données. Le partage d’une base internationale commune doit préserver la marge d’autonomie locale et nationale, mais il obligera au minimum à définir un niveau international d’échange sur le choix des données chargées et l’application des règles et des formats. Le SGB commun traitera la grande masse de la documentation courante qui peut être mise en commun. Certaines bases locales (plates-formes pédagogiques) ou nationales (portail des thèses, bases patrimoniales, licences nationales) resteront séparées. Le périmètre exact des bases séparées pourra évoluer, mais elles devront au minimum pouvoir échanger des données avec la base commune ; le PEB est un exemple de fonction dont l’intégration ou la séparation reste à étudier.

Rappelons pour finir que la France n’est pas seule en Europe à s’interroger au niveau national sur les SGB nouvelle génération et qu’une concertation au moins informelle est indispensable au niveau européen.

L’ouverture des données et des services

Les logiciels de bibliothèques ont longtemps été des systèmes propriétaires fermés. La normalisation des données, au moins celles du catalogue, et la possibilté de les exporter en toute autonomie et de migrer vers un autre système se sont construites peu à peu. Cet acquis peut encore se révéler fragile pour certaines données. L’ouverture des logiciels eux-mêmes, la possibilité de leur ajouter des fonctionnalités, de modifier leur comportement, de les rendre interopérables avec les autres systèmes de l’établissement ou avec des systèmes partagés ont été les plus difficiles à conquérir et restent partiels. Les systèmes open source permettent de mieux y parvenir, sous réserve d’acquérir les compétences nécessaires. Les systèmes de nouvelle génération constituent-ils vraiment un progrès de ce point de vue ?

Les SGB de nouvelle génération sont des produits propriétaires créés par de grands acteurs du marché des services pour bibliothèque. Ceux-ci opèrent à la fois sur le secteur des logiciels de bibliothèque et sur celui de l’agrégation de données documentaires. Spécialisés au départ dans l’un des deux secteurs, ils complètent aujourd’hui leur offre et investissent dans l’autre secteur pour proposer un service global aux bibliothèques. Leurs équipes travaillent à l’échelle du Web dans un environnement très ouvert avec de nombreux partenaires (éditeurs, bibliothèques, sociétés de service) et sur des contenus documentaires destinés à être largement partagés. Elles revendiquent le respect des standards les plus exigeants en matière d’ouverture des données et d’architecture de service informatique (voir « SGB et informatique dans les nuages »). Elles proposent des métadonnées communes complètement libres ou au moins sous des licences très ouvertes. Elles présentent leurs logiciels comme le noyau central de plates-formes de services ouvertes grâce à de nombreuses API documentées. Chaque bibliothèque peut être à son gré un partenaire plus ou moins actif de la plate-forme commune, développer ses workflows spécifiques, les partager, connecter ses services locaux.

Sans qu’il y ait lieu de mettre en doute la sincérité de ces annonces, il est nécessaire d’analyser précisément quelles sont les relations entre partenaires dans ce type de système et quelles garanties sont nécessaires aux bibliothèques.

Notons d’abord que ces systèmes supposent un engagement d’ouverture de tous les partenaires, non seulement du fournisseur de logiciel, mais aussi des fournisseurs de métadonnées : éditeurs, bibliothèques, grandes sources bibliographiques. Editeurs et bibliothèques doivent accepter de mettre leurs métadonnées à la libre disposition de tous dans un système commun et faire l’effort de s’adapter à la normalisation commune. Ils ont intérêt à le faire pour mettre en valeur leurs propres données et pour pouvoir bénéficier de l’ensemble des données et des services communs. Toutefois, s’ils ont intérêt à ce que se créent de grandes agrégations de données pour être visibles sur Internet, ils n’ont pas intérêt à créer pour finir un monopole de la diffusion documentaire dont ils deviendraient complètement dépendants.

De même le partenariat autour de la plate-forme de services pour faire évoluer le logiciel peut recouvrir des réalités très diverses. Il pourrait masquer un désengagement du fournisseur qui travaillerait en véritable partenariat avec quelques établissements utiles au développement du système et laisserait les autres clients se débrouiller. Les bibliothèques sans ressources informatiques se retrouveraient alors isolées. Sans tomber dans ce scénario pessimiste, le fait que le noyau central du système reste propriétaire peut également faire craindre que le partenariat n’atteigne rapidement ses limites et ne maintienne une forte dépendance.

Face à ces risques, il est important que le partenariat soit organisé par les bibliothèques elles-mêmes et non par le seul fournisseur de logiciel. Le réseau de l’ABES peut jouer un rôle important pour obtenir une contractualisation commune avec des garanties fortes et pour partager la formation et l’expertise autour des nouveaux outils. Il faut également rester attentif à l’émergence de solutions alternatives, comme Kuali OLE, fondées sur un partenariat à l’initiative des bibliothèques autour d’un logiciel open source, même si elles ne sont pas pour l’instant au niveau des solutions propriétaires. Il faut enfin souhaiter qu’il reste plusieurs solutions concurrentes et que la base de connaissance commune ne soit pas complètement liée à un logiciel particulier, mais qu’elle soit exportable et interopérable avec les solutions concurrentes.

La qualité des données dans la base de connaissance commune

Les SGB de nouvelle génération ne sont plus construits autour d’un catalogue, mais d’une base de connaissance. Héritées des systèmes de gestion de la documentation numérique (résolveurs de liens, ERMS) que les établissements acquièrent en plus des SIGB, les bases de connaissance contiennent des millions de données de natures différentes : notices bibliographiques et d’autorités, localisations, mais aussi abonnements et contrats, données sur les fournisseurs, listes de contenu des bouquets de périodiques et des bases en ligne, données sur les usagers, données de calcul des accès. Ces données proviennent de centaines de sources différentes et sont fournies dans des formats variés. L’intégration des catalogues de bibliothèques aux bases de connaissance est sans doute le meilleur moyen de contruire une base de gestion unique des ressources imprimées et numériques, mais ne peut-on craindre d’y perdre la qualité habituelle des catalogues ?

Les bases de connaissance ont aussi un modèle de qualité des données, mais il est très différent de celui des catalogues, parce qu’il s’est construit sur le traitement de données numériques alors que l’autre s’est construit sur le traitement des données imprimées et notamment sur le catalogage document en main. La base de connaissance des SGB n’est plus mise à jour pour l’essentiel par le catalogage partagé d’un réseau de bibliothèques, mais par le chargement de sources diverses, grandes bibliothèques et organismes documentaires, mais aussi nombreux éditeurs. Son efficacité dépend beaucoup de la qualité des multiples données ainsi chargées. Les producteurs de bases de connaissance savent que leur valeur dépend largement de leur qualité et utilisent plusieurs moyens pour l’améliorer :

  • Les traitements préalables ou postérieurs aux chargements sont de plus en plus nombreux et complexes. Un fournisseur de base de connaissance annonce avoir 100 000 règles de traitement qu’il applique aux différentes sources et en ajouter environ 200 par mois.
  • Les producteurs de bases de connaissance collaborent aux groupes internationaux de normalisation des données numériques (KBART) et travaillent activement auprès des nombreux éditeurs qui alimentent leur base de données pour qu’ils intègrent en amont ces standards.
  • Les principaux producteurs font état d’un équipe de 15 à 30 ETP entièrement dédiée à la mise à jour de la base de connaissance. L’un d’entre eux indique que son équipe comporte trois bibliothécaires catalogueurs entièrement dédiés à la vérification de métadonnées dans ISSN et CONSER.
  • Ils organisent enfin la collecte et le traitement systématiques des anomalies détectées par les bibliothèques clientes.

Quelle est la place du catalogage et de la normalisation dans ce nouvel environnement ? Les phénomènes que nous connaissons déjà vont s’accentuer. Le catalogage original va encore diminuer mais ils restera indispensable pour au moins une partie des collections imprimées. Le travail de mise à jour, de correction et de dédoublonnage augmentera mais se fera davantage en complément des traitements automatiques et s’appuiera davantage sur une collecte organisée des difficultés rencontrées par les usagers. Le sentiment quelquefois exprimé par les catalogueurs que les chargements cassent leur travail provient en partie d’un manque de contact entre équipes de catalogage et équipes chargées de la documentation numérique et de l’informatique documentaire. Les deux sont indispensables pour produire un catalogue ou une base de connaissance de qualité. En unifiant documentation numérique et imprimée, les SGB de nouvelle génération obligeront probablement à se réorganiser autour de la qualité des accès et l’expérience des catalogueurs peut  certainement y jouer un nouveau rôle. N’est-ce pas l’objectif initial des FRBR ? Construire un schéma de données cohérentes pour les besoins des usagers, quelle que soit la méthode d’encodage utilisée.

Un outil d’encodage et des règles sont bien sûr indispensables pour travailler au quotidien et leur apprentissage peut être lourd. Est-ce que le module de gestion des métadonnées qui remplacera le module de catalogage actuel utilisera Unimarc et RDA ? Il intégrera probalement le meilleur des modules de catalogage que possédent déjà les fournisseurs de SGB, mais les règles d’encodage actuelles ne seront plus exclusives dans une base commune unique qui regroupera à la fois des types de données plus variées et une communauté de bibliothèques plus large.

Cette situation entraînera nécessairement une réflexion globale et un changement du régime de définition et de production de la qualité. Les conceptions locale, nationale et internationale de la qualité seront plus directement confrontées entre elles. Que la nouvelle dynamique contribue à améliorer ou à diminuer la qualité dépend autant des règles que la communauté saura se donner que de questions techniques.

En conclusion il n’est pas étonnant que le module de gestion des métadonnées se révèle comme l’un des plus difficiles à mettre au point.

Pour en savoir plus sur les bases de connaissance, si l’anglais ne vous rebute pas, vous consulterez avec profit ce rapport dont le billet est en partie inspiré.

SGB et informatique dans les nuages

L’informatique dans les nuages désigne en général le transfert des applications informatiques d’une entreprise à un fournisseur de services sur Internet. Ce transfert concerne d’abord les serveurs et les systèmes mais aussi les applications. Les entreprises dont l’informatique n’est pas le principal métier estiment souvent préférable de sous-traiter à un hébergeur spécialisé l’acquisition et l’entretien de matériel informatique et de ne plus maintenir une équipe dédiée à leur installation et à leur support. Les contrats d’hébergement garantissent habituellement un niveau de continuité du service et de sécurité des données (sauvegardes) supérieures à celui qu’atteigne la plupart des entreprises. Le transfert des applications soulève plus de difficultés car elles sont intimement liées au métier spécifique de chaque entreprise. Pourtant des sociétés de service informatique se spécialisent de plus en plus souvent dans des applications métier et se révèlent en mesure de fournir un service métier de bonne qualité (SaaS, « software as a service »). Pour développer ces services elles travaillent avec leurs clients et leurs partenaires sur Internet et leur succès dépend de plus en plus de leur capacité à les associer et à constituer une communauté utilisant les outils les plus ouverts d’Internet (SOA « Service oriented architecture »).

Nous utilisons tous de plus en plus l’informatique dans les nuages pour des services courants : messagerie, stockage et partages de documents, agendas en ligne, blogs, réseaux sociaux, recherche sur le Web. Ce dernier service rendu par les grands moteurs de recherche concurrence fortement la recherche dans les catalogues, les systèmes documentaires et les bases de données en général. Que les recherches avec des outils spécialisés rendent un service différent, plus fin et plus pertinent ne suffit pas à empêcher la concurrence. Les outils spécialisés, quelle que soit leur qualité, doivent aujourd’hui être décloisonnés et rendus visibles sur Internet. Cette nécessité largement admise par les bibliothèques les a d’abord conduites à disséminer leurs données documentaires locales vers des ensembles de plus en plus larges (SUDOC, WorldCat) et les pousse aujourd’hui naturellement à transférer leurs systèmes documentaires dans les nuages. C’est ce qui se passe déjà avec les outils de découverte. La collecte et l’indexation de toutes les données nécessaires au système de découverte d’une seule université est presque impossible à mettre en oeuvre localement, car l’on passe de catalogues qui contenaient au plus quelques millions de références à des bases de connaissance qui manipulent des centaines de millions de données avec de très forts taux de mise à jour.

Les SGB de nouvelle génération dans les nuages ne sont donc que la suite logique d’un mouvement déjà largement amorcé. Pourtant ils suscitent des interrogations là où les outils de découverte ont été accueillis sans problème. En effet il ne s’agit plus seulement de la recherche des usagers, mais du back-office de la bibliothèque. La perspective du prêt dans les nuages, et donc de données sur les lecteurs, nous fait particulièrement réagir. Pourtant le problème de confidentialité est au moins aussi important pour les recherches que pour les prêts. L’afflux de questions sur l’informatique dans les nuages à propos des SGB s’explique par le sentiment qu’un SGB touche notre métier de plus près qu’un outil de découverte et le SGB remet en effet en cause nos habitudes de travail.

Du seul point de vue documentaire, l’informatique dans les nuages présente a priori l’avantage d’être le lieu naturel de la documentation numérique et d’en simplifier le partage. Mais les secteurs d’activité qui l’ont déjà pratiquée nous mettent tout de même en garde contre différents risques et nous aurions tort de ne pas être attentifs à leur expérience. Les risques évoqués touchent surtout au statut des données et à la dépendance d’un hébergeur. Divers risques sont mentionnés concernant les données : en perdre la propriété, ne plus contrôler leur diffusion, avoir un garantie insuffisante de leur sécurité, les retrouver stockées dans un pays dont la législation en la matière ne correspond pas à nos normes. En ce qui concerne la dépendance d’un fournisseur, nous avons déjà l’expérience des abonnements à la documentation numérique : nous achetons majoritairement du flux de service et peinons à acquérir des archives, le coût de ces services monopolistiques augmente sans que nous puissions vraiment freiner le mouvement. La réussite d’un projet documentaire basé sur l’informatique dans les nuages nécessite d’évaluer correctement les risques en évitant tout autant de les surestimer que de les sous-estimer. Les agences publiques comme la CNIL ou l’ANSSI peuvent nous y aider.

Candidatures pour le comité technique

Le directeur de l’ABES a adressé début mai un courrier à tous les présidents et directeurs d’établissements de l’enseignement supérieur qui participent au réseau SUDOC ainsi qu’à tous les présidents de PRES pour leur présenter les enjeux du projet de SGB mutualisé. Il leur demandait aussi de soutenir le projet en donnant des informations sur leur calendrier local de réinformatisation et en proposant éventuellement un candidat au comité technique. Plus de soixante dix établissements ont répondu et plus de quarante ont souhaité participer au comité technique. Ce résultat témoigne, s’il en était besoin, de l’intérêt du projet pour les bibliothèques de l’enseignement supérieur, mais il pose aussi problème car le comité technique ne peut pas être aussi large pour bien fonctionner. L’ABES retiendra les quinze à vingt candidatures les plus représentatives, de nombreux regroupements d’établissements ayant été spontanément proposés. La composition définitive du comité sera bientôt annoncée lors des journées ABES.

Il paraît également souhaitable d’associer tous ceux qui ont manifesté leur intérêt et qui ne participeront pas directement au comité technique. Nous proposons immédiatement une série de quelques billets sur les principales questions soulevées par le projet pour mieux préparer ensemble la session thématique des journées ABES.

Nous aborderons quatre questions parmi les plus souvent évoquées : 1) le cloud computing, 2) la qualité des données de la base de connaissance commune, 3) l’ouverture des services, 4) les différents niveaux (local, national, international) du système commun.

Ces billets seront publiés au fur et à mesure d’ici le début de la semaine prochaine.