Web et la statistique L'exemple du mot Rome
Résumé
On peut considérer que les pages du Web constituent un immense texte discontinu, qu’on pourrait soumettre à une étude de type sociologique, en isolant les variables géographiques ou culturelles qui caractérisent le serveur et l’émetteur, et les variables internes qui définissent le contenu ou la forme des pages d’information. Internet est en soi un fait de société nouveau qui, deux ans après sa naissance, suscite l’interrogation des observateurs et envahit la presse à grand tirage. Sujet à la mode, il fait l’objet de multiples articles de vulgarisation et plusieurs revues spécialisées lui sont consacrées exclusivement, sans parler des ouvrages qui se multiplient sur le même sujet. Que ce succès soit éphémère ou durable, cela mériterait dans tous les cas l’analyse statistique, laquelle aurait au moins l’avantage initial d’évoluer dans les grands nombres. Car c’est une immense forêt vierge qui s’offre à l’exploration. Lycos, qui est le plus puissant moteur de recherche branché sur Internet, avoue explorer présentement (en 1995) près de 14 millions de documents. Il suffit que chacun d’entre eux compte une centaine de mots pour que le milliard de mots soit dépassé pour l’ensemble, ce qui constitue un record dans le domaine du texte intégral. Certes les textes qu’on y trouve constituent une masse informe, mouvante, éparpillée aux quatre coins du monde et difficile à appréhender, même si l’usage dominant de l’anglais lui donne une certaine homogénéité. Les échanges incessants qui s’y perpétuent font penser à la mécanique des fluides. Mais avec les méthodes convenables, raisonnées ou aléatoires, avec des automates installés à la surface du Net, ne pourrait-on pas découvrir, dans ce flux, des remous, des courants, des marées ?
Origine : Fichiers produits par l'(les) auteur(s)
Loading...