XML content warehousing: Improving sociological studies of mailing lists and web data

Benjamin Nguyen 1, 2 Antoine Vion 3 François-Xavier Dudouet 4 Dario Colazzo 5, 6 Ioana Manolescu 5, 6 Pierre Senellart 7
2 SMIS - Secured and Mobile Information Systems
PRISM - Parallélisme, Réseaux, Systèmes, Modélisation, UVSQ - Université de Versailles Saint-Quentin-en-Yvelines, Inria Paris-Rocquencourt, CNRS - Centre National de la Recherche Scientifique : UMR8144
6 LEO - Distributed and heterogeneous data and knowledge
UP11 - Université Paris-Sud - Paris 11, Inria Saclay - Ile de France, CNRS - Centre National de la Recherche Scientifique : UMR8623
Résumé : Dans cet article, nous présentons les lignes directrices d'une approche basée sur XML pour l'étude sociologique des données Web tels que l'analyse des listes de diffusion ou bases de données disponibles en ligne. L'utilisation d'un entrepôt XML est une solution flexible pour le stockage et le traitement de ce type de données. Nous proposons une solution déjà mise en place et montrons des applications possibles avec notre étude de profils d'experts impliqués dans des actions normatives W3C. Nous illustrons l'utilisation de bases de données sociologiques semi-structurées en présentant notre schéma XML pour le stockage de listes de diffusion. Un schéma XML permet de nombreuses adjonctions ou croisements de sources de données, sans modifier les données déjà stockées, tout en permettant de possibles évolutions structurelles. Nous montrons également que l'existence de données cachées implique une complexité accrue pour les utilisateurs SQL traditionnels. Le stockage par XML permet l'entreposage totalement exhaustif et de requêtes récursives dans le contenu, avec beaucoup moins de dépendance au stockage initial. Nous présentons enfin la possibilité d'exporter les données stockées vers des logiciels avancés couramment utilisés et consacrés à l'analyse sociologique.
Type de document :
Article dans une revue
Bulletin de Méthodologie Sociologique / Bulletin of Sociological Methodology, SAGE Publications, 2011, 112 (1), pp.5-31. 〈10.1177/0759106311417540〉
Liste complète des métadonnées

Littérature citée [30 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-00616613
Contributeur : Benjamin Nguyen <>
Soumis le : mardi 23 août 2011 - 14:40:09
Dernière modification le : mercredi 25 juillet 2018 - 01:24:37
Document(s) archivé(s) le : vendredi 25 novembre 2011 - 12:01:13

Fichier

bms2011.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

Collections

Citation

Benjamin Nguyen, Antoine Vion, François-Xavier Dudouet, Dario Colazzo, Ioana Manolescu, et al.. XML content warehousing: Improving sociological studies of mailing lists and web data. Bulletin de Méthodologie Sociologique / Bulletin of Sociological Methodology, SAGE Publications, 2011, 112 (1), pp.5-31. 〈10.1177/0759106311417540〉. 〈hal-00616613〉

Partager

Métriques

Consultations de la notice

980

Téléchargements de fichiers

270