PICARTEXT : Une ressource informatisée pour la langue picarde - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2015

PICARTEXT : a computerized resource for picard

PICARTEXT : Une ressource informatisée pour la langue picarde

Résumé

Picartext is a textual database, built up since about 10 years in Picardy University in Amiens. Some of its characteristics make it very interesting for research on natural languages processing. Picard language, of a not insignificant vitality, has a rather plentiful literature, and very numerous dictionaries and glossaries. But it does not possess standard, either linguistics, or graphic. The language is thus very variant. The database, of literary nature, counts about 5 million token, is reachable on-line, with a customizable tool of interrogation : not only it allows the limitation of the working corpus (places, dates, genres), but he allows a search taking into account phonetic equivalences and dialectal equivalences. It is opened to evolutions in terms of tagging, in particular within the framework of an ANR project concerning three regional languages simultaneously (picard, alsatian, occitan).
Picartext est une base de données textuelles, construite depuis près de 10 ans à l'Université de Picardie à Amiens. Elle présente des caractéristiques de premier intérêt pour la recherche sur les traitements automatiques. La langue picarde, d'une vitalité non négligeable, dispose d'une littérature assez abondante et de très nombreux dictionnaires et glossaires. Mais elle ne possède pas de standard, ni linguistique, ni graphique. La langue est donc très variante. La base de données, de nature littéraire, d'environ 5 millions d'occurrences, est accessible en ligne au moyen d'un outil d'interrogation paramétrable : non seulement il permet la restriction du corpus de travail (lieux, dates, genres), mais il permet une recherche tenant compte d'équivalences phonétiques et d'équivalences dialectales. Il est ouvert à des évolutions en termes de balisage, en particulier dans le cadre d'un projet ANR portant sur trois langues régionales simultanément (picard, alsacien, occitan). Abstract.
Fichier principal
Vignette du fichier
talare-2015-long-003.pdf (368.05 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01292724 , version 1 (23-03-2016)

Identifiants

  • HAL Id : hal-01292724 , version 1

Citer

Jean-Michel Eloy, Fanny Martin, Christophe Rey. PICARTEXT : Une ressource informatisée pour la langue picarde. 22ème Traitement Automatique des Langues Naturelles, Jun 2015, Caen, France. ⟨hal-01292724⟩
341 Consultations
289 Téléchargements

Partager

Gmail Facebook X LinkedIn More