Passage à l’échelle dans la taille des corpus - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information Année : 2006

Passage à l’échelle dans la taille des corpus

Résumé

L’explosion de l’utilisation de la Toile est à l’origine d’une croissance très significative des applications destinées à aider les utilisateurs à accéder aisément à de l’information. En intégrant de surcroît les effets de la mise en œuvre d’intranets et d’extranets d’entreprises ainsi que les bibliothèques numériques, on prend conscience du volume grandissant d’information et du nombre exponentiel d’utilisateurs auxquels est confronté tout service d’information. Ainsi le volume d’information ne se mesure plus en gigaoctets mais en téraoctets, voire en pétaoctets et exaoctets. Une étude de l’université de Berkeley [Lym 03] estime la quantité d’information produite en 2002 à cinq exaoctets, dont 92% stockés de manière numérique, principalement sur des disques durs. La loi de Moore [Moo 65] est toujours valide pour prévoir l’évolution de la complexité des circuits intégrés dans un rapport exponentiel au temps et il semble qu’une régularité se dessine également dans l’accroissement global de l’information produite. Une augmentation régulière de 30% par an a été constatée entre 1999 et 2002. Les systèmes de recherche d’information ont pour objectif l’assistance à cette masse d’information [New 00]. Malheureusement, tous les algorithmes de recherche d’information ne sont pas de complexité linéaire en fonction du volume des informations. La conjugaison de ces facteurs amène à traiter le vaste problème du « passage à l’échelle » et à réexaminer la faisabilité d’un processus classique de recherche d’information (RI). Les points à étudier concernent les modèles théoriques en RI (vectoriel, probabiliste, LSI), les nouveaux types de données à indexer, les algorithmes mis en œuvre (indexation, évaluation, mesure de la pertinence), les structures de données sous-jacentes, l’environnement matériel (puissance de stockage, capacité de stockage, débit des réseaux, points d’accès et présentation de l’information). Le passage à l’échelle se heurte immédiatement à la « malédiction de la dimensionnalité » [Bell 61], [Ber 02] qui met en amont de nombreux problèmes liés à l’inadéquation des configurations matérielles aux besoins actuels en traitement et stockage d’information, d’une part, et à la complexité des algorithmes en RI, d’autre part. Les travaux de recherche entrepris pour résoudre le problème du passage à l’échelle portent sur les principales phases du processus de recherche d’information, à savoir : •La préparation des collections, •L’exécution des requêtes, •La visualisation des résultats.
Fichier non déposé

Dates et versions

hal-01563109 , version 1 (17-07-2017)

Identifiants

  • HAL Id : hal-01563109 , version 1

Citer

Mohand Boughanem, Sylvie Calabretto, Jean-Pierre Chevalet, José Luis Aguirre Martinez, Lynda Tamine. Passage à l’échelle dans la taille des corpus. Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, 2006. ⟨hal-01563109⟩
69 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More