Analyse des traces d'usage de Gallica - Archive ouverte HAL Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2017

Analysis of Gallica Usage Traces

Analyse des traces d'usage de Gallica

Résumé

Gallica is one of the major digital libraries available for free via the Internet. In the context of the Bibli-Lab, research partnership between the Bibliothèque nationale de France and Télécom ParisTech, and with the support of TeraLab, a new analysis of Gallica servers’ connection logs was carried out, applying machine-learning methods to them. The aim was not to collect information on users or their profiles but rather to use logs, which act as records of usage, as a basis for identifying typical clickstreams. For 15 months (April 2016-July 2017), a researcher on postdoctoral contract and under the supervision of four of Télécom ParisTech’s research professors, developed a data clusterisation algorithm enabling grouping of Gallica sessions with similarities in sequencing and duration of actions . Logs analysed covered a range of durations, from a week to a month, with systematic checking of the stability of models obtained. The preferred methodological choice was to have statistical models dialogue with results obtained from other approaches (ethnographic observations, interviews, etc. ). Such dialogue enabled the researchers involved to: a) set departure parameters (definition of a session and the elementary actions composing it); b) check models obtained, which were highly sensitive to technical artefacts; and c) propose initial keys to interpretation.
Gallica est l'une des plus grandes bibliothèques numériques librement accessible sur le web. Dans le cadre du Bibli-Lab, partenariat de recherche entre la Bibliothèque nationale de France et Télécom ParisTech, et avec le soutien du TeraLab, a été conduite une analyse inédite des logs de connexion aux serveurs de Gallica, en leur appliquant des méthodes d’apprentissage automatique (machine learning). L’objectif n’était pas de connaître les usagers ni leurs profils mais, en partant de traces d’usages que sont les logs, d’identifier des parcours-types. Durant 15 mois (avril 2016-juillet 2017), un chercheur en contrat postdoctoral encadré par quatre enseignants-chercheurs de Télécom ParisTech , a mis au point un algorithme de classification (ou clusterisation) permettant de regrouper des sessions de Gallica présentant des similitudes dans l’enchaînement des actions. Les logs analysés couvraient des durées variables, allant d’une semaine à un mois, avec vérification systématique de la stabilité des modèles obtenus. Le choix méthodologique fort a été ici de faire dialoguer les modèles statistiques avec les résultats issus d’autres approches (observations ethnographiques, entretiens, etc. ). Ce dialogue a permis à la fois de : a) fixer les paramètres de départ (durée d’une session, définition des actions élémentaires sur Gallica) ; b) contrôler les modèles obtenus, extrêmement sensibles aux artefacts techniques ; c) proposer des premières clés d’interprétation.
Fichier principal
Vignette du fichier
rapport analyse des traces d'usage de Gallica.pdf (4.3 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01709264 , version 1 (14-02-2018)

Licence

Paternité - Pas d'utilisation commerciale - Pas de modification

Identifiants

  • HAL Id : hal-01709264 , version 1

Citer

Adrien Nouvellet, Valérie Beaudouin, Florence d'Alché-Buc, Christophe Prieur, François Roueff. Analyse des traces d'usage de Gallica : Une étude à partir des logs de connexions au site Gallica. [Rapport de recherche] Télécom ParisTech; Bibliothèque nationale de France. 2017. ⟨hal-01709264⟩
1216 Consultations
360 Téléchargements

Partager

Gmail Facebook X LinkedIn More