Déconstruction et reconstruction de corpus... À la recherche de la pertinence et du contexte - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

Déconstruction et reconstruction de corpus... À la recherche de la pertinence et du contexte

Résumé

Faced with corpora of large sets of texts, we propose a method of selection, based on the identification of segments of texts relevant to a topic by successive classification, then recomposition of the corpus with all the texts having at least one relevant segment. This approach makes it possible to preserve the contextualizations and narrative discourses surrounding a theme while excluding off-topic texts. Résumé Face aux corpus constitués de grands ensembles de textes, nous proposons une méthode de sélection, basée sur l'identification de segments de textes pertinents à une thématique par classification successive, puis recomposition du corpus avec l'intégralité des textes ayant au moins un segment pertinent. Cette démarche permet ainsi de conserver les contextualisations et discours narratifs entourant une thématique tout en excluant les textes hors-sujet.
Face aux corpus constitués de grands ensembles de textes, nous proposons une méthode de sélection, basée sur l’identification de segments de textes pertinents à une thématique par classification successive, puis recomposition du corpus avec l’intégralité des textes ayant au moins un segment pertinent. Cette démarche permet ainsi de conserver les contextualisations et discours narratifs entourant une thématique tout en excluant les textes hors-sujet.
Fichier principal
Vignette du fichier
lucie_loubere_75_JADT_2018.pdf (418.5 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02482604 , version 1 (18-02-2020)

Identifiants

  • HAL Id : hal-02482604 , version 1

Citer

Lucie Loubère. Déconstruction et reconstruction de corpus... À la recherche de la pertinence et du contexte. Journées internationales d’Analyse statistique des Données Textuelles, 2018, Rome, Italie. ⟨hal-02482604⟩
57 Consultations
88 Téléchargements

Partager

Gmail Facebook X LinkedIn More