Analyse lexicale d’une page web - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue (Data Paper) Revue française des sciences de l'information et de la communication Année : 2022

Lexical analysis of a web page

Analyse lexicale d’une page web

Résumé

In this data paper we describe the data produced by a set of adaptable tools built to reconstruct words found on a webpage. To go beyond current SEO techniques, the objective is to use an instrument capable of reducing the textual contents of a web page, stripped of HTML and computer tags, into a lexicon. The lexicon is lemmatized and separated according to parts of speech (verbs : actions, nouns : nominal field, adjectives, and adverbs : intensity, temporality, etc.) to provide semantic sophistication. All the acquired data are then combined and used by a configurable word cloud representation tool to allow for distant reading. Data collected in the territorial context of Port-Cros National Park, aggregated according to a classification of websites, demonstrate the interest and functionality of these representations in comparing their respective resulting lexicons. Saving these data representations as well as the entire process for obtaining them is of interest both for continuing this work and for reproduction purposes in an educational context. The strengths and limitations of the process are discussed to set up a framework for its expansion into other domains and web communication applications in general.
Dans ce data paper, nous décrivons les données produites par une série d’outils adaptables construits pour retrouver les mots employés dans une page d’un site web. Pour dépasser à terme les techniques de référencement actuelles, l’objectif est de disposer d’un instrument capable de réduire les contenus textuels d’une page web, expurgée des balises HTML et codes informatiques, en un lexique afin de pouvoir saisir le sens global porté par la page. Pour apporter une finesse sémantique, le lexique est lemmatisé et séparé selon les catégories grammaticales (verbe : actions, nom : champ nominal, adjectifs et adverbes : intensité, temporalité, etc.). Les ensembles de données obtenues sont alors combinés pour être représentés en nuages de mots paramétrables afin d’accompagner une lecture distante. Les données collectées dans l’environnement web du Parc National de Port-Cros, sont agrégées selon une typologie de sites. Les traitements et représentations montrent l’intérêt et la pertinence de cette instrumentation pour comparer les lexiques véhiculés par des pages. La sauvegarde de ces extractions ainsi que toute la chaîne de production est d’intérêt autant pour des travaux en continuité que pour les reproduire dans un cadre pédagogique. Les forces et limites sont discutées pour cadrer l’extension de ce procédé à d’autres domaines et applications à la communication web en général.

Dates et versions

hal-03626382 , version 1 (31-03-2022)

Identifiants

Citer

David Reymond, Kouamvi Couao-Zotti, Alaric Tabariès, Amandine Lebourgeois, Lauren Campos. Analyse lexicale d’une page web : Extractions du message hypertextuel pour comparaisons. Revue française des sciences de l'information et de la communication, 2022, 24, ⟨10.4000/rfsic.12365⟩. ⟨hal-03626382⟩
105 Consultations
0 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More