Le traitement automatique des langues face aux données textuelles volumineuses et potentiellement dégradées : qu'est-ce que cela change ?

Pascale Sébillot

Chapitre D'ouvrage Année : 2015

Natural language processing faced with big and potentially impaired textual data: What difference does it make?

Le traitement automatique des langues face aux données textuelles volumineuses et potentiellement dégradées : qu'est-ce que cela change ?

(1)

Pascale Sébillot

Fonction : Auteur
PersonId : 21840
IdHAL : pascale-sebillot
ORCID : 0000-0002-5429-4302
IdRef : 075988453

Creating and exploiting explicit links between multimedia fragments

Résumé

Prétendre que le phénomène récent du Big Data a bouleversé théoriquement et méthodologiquement le traitement automatique des langues (TAL) serait inexact : le TAL a connu sa dernière véritable révolution à la fin des années 80 - début des années 90. C'est en effet à cette période que s'est opéré un changement de paradigme, un passage du rationalisme vers l'empirisme, avec le " remplacement " des approches symboliques, à base de règles, fondées sur l'expertise humaine par des approches empiriques fondées sur les données, où la connaissance est extraite par des techniques d'apprentissage automatique, en particulier statistique. Permis par des capacités de stockage et de traitement accrues des ordinateurs et la disponibilité de volumes conséquents de textes au format numérique, ce bouleversement, même s'il s'est étendu sur plusieurs années, a été en fait assez profond : passage d'un TAL très linguistique où l'on cherchait à comprendre - expliquer les jugements de grammaticalité dont sont capables les locuteurs natifs d'une langue, construire et manipuler des représentations assez élaborées du sens... - à un TAL " très statistique " où l'on fait émerger des connaissances grâce à l'observation à grande échelle, au comptage..., et où l'on extrait des représentations de " sens utile " pour des traitements applicatifs. Affirmer que les volumes actuels de données à l'échelle du Big Data n'ont eu et n'ont aucun impact sur le TAL serait cependant également faux. Les données textuelles à traiter se déclinent à l'aune des 3 V (variété, volume, vélocité). Elles consistent bien sûr en des documents écrits, pages Web, emails et autres textes " traditionnels ", mais également en contenus de blogs, de réseaux sociaux, en sms, en documents audio transcrits automatiquement, ce qui correspond donc à des types et des qualités de langue très divers. Pour ne citer que quelques chiffres donnant tant une idée des volumes que de la vitesse d'évolution de ceux-ci, nous pouvons par exemple nous référer à ceux de Go-globe.com de juin 2011, cités à davidfayon.fr/2011/croissance-du-web-une-minute, qui, quoique un peu anciens, sont déjà extrêmement parlants : création par minute de 60 blogs, de 98000 messages sur Twitter, de 510000 commentaires sur Facebook, de 168 millions d'emails ou de 600 vidéos sur YouTube. À l'heure actuelle, ces nombres sont encore plus impressionnants. Ces volumes énormes de données textuelles ont accru le phénomène décrit précédemment de passage du TAL à l'empirisme, accompagné du renforcement de certains champs du domaine - parfois avec un regard nouveau - et de l'émergence d'applications nouvelles. Dans ce chapitre, nous revenons en détail sur l'impact de ce déluge de données sur le TAL en débutant par un rappel des spécificités des données textuelles au sein de ce monde du Big Data dans lequel les données volumineuses auxquelles il est fait référence sont fréquemment (semi-)structurées ; ceci nous permet de mieux comprendre l'intérêt mais aussi la difficulté d'accéder au contenu sémantique de ces données particulières. Nous nous penchons ensuite sur la façon dont les chercheurs en TAL représentent et exploitent ces données massives pour en faire émerger la connaissance utile pour l'objectif visé. Nous présentons ensuite successivement d'une part des applications qui tentent de trouver des solutions pour faire face au déluge de données disponibles, d'autre part certaines qui, elles, cherchent à tirer profit de cette masse d'informations et à exploiter sa redondance. Nous concluons en rappelant les grandes lignes de l'évolution du TAL.

Mots clés

traitement automatique des langues big data

Domaines

Traitement du texte et du document

Fichier principal

ChapitreSebillotFINALenvoi14aout.pdf (122.83 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Pascale Sébillot : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01056396

Soumis le : vendredi 21 août 2015-17:01:22

Dernière modification le : vendredi 24 mars 2023-14:53:01

Archivage à long terme le : mercredi 26 avril 2017-10:21:39

Dates et versions

hal-01056396 , version 1 (21-08-2015)

Identifiants

HAL Id : hal-01056396 , version 1

Citer

Pascale Sébillot. Le traitement automatique des langues face aux données textuelles volumineuses et potentiellement dégradées : qu'est-ce que cela change ?. Lisette Calderan; Pascale Laurent; Hélène Lowinger; Jacques Millet. Big data : nouvelles partitions de l'information. Actes du séminaire IST INRIA,, octobre 2014, De Boeck, pp.43-60, 2015, Information et stratégie, 978-2804189150. ⟨hal-01056396⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA INRIA-MECSCI IRISA-INSA-R CENTRALESUPELEC IRISA-D6 INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

514 Consultations

1630 Téléchargements

Natural language processing faced with big and potentially impaired textual data: What difference does it make?

Le traitement automatique des langues face aux données textuelles volumineuses et potentiellement dégradées : qu'est-ce que cela change ?

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager