Passage à l’échelle dans la taille des corpus.

Résumé : L’explosion de l’utilisation de la Toile est à l’origine d’une croissance très significative des applications destinées à aider les utilisateurs à accéder aisément à de l’information. En intégrant de surcroît les effets de la mise en œuvre d’intranets et d’extranets d’entreprises ainsi que les bibliothèques numériques, on prend conscience du volume grandissant d’information et du nombre exponentiel d’utilisateurs auxquels est confronté tout service d’information. Ainsi le volume d’information ne se mesure plus en gigaoctets mais en téraoctets, voire en pétaoctets et exaoctets. Une étude de l’université de Berkeley [Lym 03] estime la quantité d’information produite en 2002 à cinq exaoctets, dont 92% stockés de manière numérique, principalement sur des disques durs. La loi de Moore [Moo 65] est toujours valide pour prévoir l’évolution de la complexité des circuits intégrés dans un rapport exponentiel au temps et il semble qu’une régularité se dessine également dans l’accroissement global de l’information produite. Une augmentation régulière de 30% par an a été constatée entre 1999 et 2002. Les systèmes de recherche d’information ont pour objectif l’assistance à cette masse d’information [New 00]. Malheureusement, tous les algorithmes de recherche d’information ne sont pas de complexité linéaire en fonction du volume des informations. La conjugaison de ces facteurs amène à traiter le vaste problème du « passage à l’échelle » et à réexaminer la faisabilité d’un processus classique de recherche d’information (RI). Les points à étudier concernent les modèles théoriques en RI (vectoriel, probabiliste, LSI), les nouveaux types de données à indexer, les algorithmes mis en œuvre (indexation, évaluation, mesure de la pertinence), les structures de données sous-jacentes, l’environnement matériel (puissance de stockage, capacité de stockage, débit des réseaux, points d’accès et présentation de l’information). Le passage à l’échelle se heurte immédiatement à la « malédiction de la dimensionnalité » [Bell 61], [Ber 02] qui met en amont de nombreux problèmes liés à l’inadéquation des configurations matérielles aux besoins actuels en traitement et stockage d’information, d’une part, et à la complexité des algorithmes en RI, d’autre part. Les travaux de recherche entrepris pour résoudre le problème du passage à l’échelle portent sur les principales phases du processus de recherche d’information, à savoir : •La préparation des collections, •L’exécution des requêtes, •La visualisation des résultats.
Document type :
Journal articles
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01563109
Contributor : Équipe Gestionnaire Des Publications Si Liris <>
Submitted on : Monday, July 17, 2017 - 11:59:21 AM
Last modification on : Thursday, February 7, 2019 - 3:48:55 PM

Identifiers

  • HAL Id : hal-01563109, version 1

Citation

Mohand Boughanem, Sylvie Calabretto, Jean-Pierre Chevalet, José Martinez, Linda Tamine. Passage à l’échelle dans la taille des corpus.. Ingéniérie des Systèmes d'Information, Lavoisier, 2006. ⟨hal-01563109⟩

Share

Metrics

Record views

85