Le traitement automatique des langues face aux données textuelles volumineuses et potentiellement dégradées : qu'est-ce que cela change ?

Pascale Sébillot 1
1 LinkMedia - Creating and exploiting explicit links between multimedia fragments
Inria Rennes – Bretagne Atlantique , IRISA-D6 - MEDIA ET INTERACTIONS
Résumé : Prétendre que le phénomène récent du Big Data a bouleversé théoriquement et méthodologiquement le traitement automatique des langues (TAL) serait inexact : le TAL a connu sa dernière véritable révolution à la fin des années 80 - début des années 90. C'est en effet à cette période que s'est opéré un changement de paradigme, un passage du rationalisme vers l'empirisme, avec le " remplacement " des approches symboliques, à base de règles, fondées sur l'expertise humaine par des approches empiriques fondées sur les données, où la connaissance est extraite par des techniques d'apprentissage automatique, en particulier statistique. Permis par des capacités de stockage et de traitement accrues des ordinateurs et la disponibilité de volumes conséquents de textes au format numérique, ce bouleversement, même s'il s'est étendu sur plusieurs années, a été en fait assez profond : passage d'un TAL très linguistique où l'on cherchait à comprendre - expliquer les jugements de grammaticalité dont sont capables les locuteurs natifs d'une langue, construire et manipuler des représentations assez élaborées du sens... - à un TAL " très statistique " où l'on fait émerger des connaissances grâce à l'observation à grande échelle, au comptage..., et où l'on extrait des représentations de " sens utile " pour des traitements applicatifs. Affirmer que les volumes actuels de données à l'échelle du Big Data n'ont eu et n'ont aucun impact sur le TAL serait cependant également faux. Les données textuelles à traiter se déclinent à l'aune des 3 V (variété, volume, vélocité). Elles consistent bien sûr en des documents écrits, pages Web, emails et autres textes " traditionnels ", mais également en contenus de blogs, de réseaux sociaux, en sms, en documents audio transcrits automatiquement, ce qui correspond donc à des types et des qualités de langue très divers. Pour ne citer que quelques chiffres donnant tant une idée des volumes que de la vitesse d'évolution de ceux-ci, nous pouvons par exemple nous référer à ceux de Go-globe.com de juin 2011, cités à davidfayon.fr/2011/croissance-du-web-une-minute, qui, quoique un peu anciens, sont déjà extrêmement parlants : création par minute de 60 blogs, de 98000 messages sur Twitter, de 510000 commentaires sur Facebook, de 168 millions d'emails ou de 600 vidéos sur YouTube. À l'heure actuelle, ces nombres sont encore plus impressionnants. Ces volumes énormes de données textuelles ont accru le phénomène décrit précédemment de passage du TAL à l'empirisme, accompagné du renforcement de certains champs du domaine - parfois avec un regard nouveau - et de l'émergence d'applications nouvelles. Dans ce chapitre, nous revenons en détail sur l'impact de ce déluge de données sur le TAL en débutant par un rappel des spécificités des données textuelles au sein de ce monde du Big Data dans lequel les données volumineuses auxquelles il est fait référence sont fréquemment (semi-)structurées ; ceci nous permet de mieux comprendre l'intérêt mais aussi la difficulté d'accéder au contenu sémantique de ces données particulières. Nous nous penchons ensuite sur la façon dont les chercheurs en TAL représentent et exploitent ces données massives pour en faire émerger la connaissance utile pour l'objectif visé. Nous présentons ensuite successivement d'une part des applications qui tentent de trouver des solutions pour faire face au déluge de données disponibles, d'autre part certaines qui, elles, cherchent à tirer profit de cette masse d'informations et à exploiter sa redondance. Nous concluons en rappelant les grandes lignes de l'évolution du TAL.
Type de document :
Chapitre d'ouvrage
Lisette Calderan; Pascale Laurent; Hélène Lowinger; Jacques Millet. Big data : nouvelles partitions de l'information. Actes du séminaire IST INRIA,, octobre 2014, De Boeck, pp.43-60, 2015, Information et stratégie, 978-2804189150
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01056396
Contributeur : Pascale Sébillot <>
Soumis le : vendredi 21 août 2015 - 17:01:22
Dernière modification le : vendredi 1 décembre 2017 - 01:22:38
Document(s) archivé(s) le : mercredi 26 avril 2017 - 10:21:39

Fichier

ChapitreSebillotFINALenvoi14ao...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01056396, version 1

Citation

Pascale Sébillot. Le traitement automatique des langues face aux données textuelles volumineuses et potentiellement dégradées : qu'est-ce que cela change ?. Lisette Calderan; Pascale Laurent; Hélène Lowinger; Jacques Millet. Big data : nouvelles partitions de l'information. Actes du séminaire IST INRIA,, octobre 2014, De Boeck, pp.43-60, 2015, Information et stratégie, 978-2804189150. 〈hal-01056396〉

Partager

Métriques

Consultations de la notice

862

Téléchargements de fichiers

236