L'analyse lexicale au service de la cliodynamique : traitement par intelligence artificielle de la base Google Ngram

Jérôme Baray; Albert da Silva; Jean-Marc Leblanc

Résumé

Cliodynamics is a fairly recent research field that considers history as an object of scientific study. Thanks to its transdisciplinary nature, cliodynamics tries to explain historical dynamical processes such as the rise or collapse of empires or civilizations, economic cycles, population booms, fashions through mathematical modeling, datamining, econometrics or cultural sociology. "Big data" aggregating historical, archaeological or economic informations is the material to feed these quantitative models. It can also incluse empirical analysis to validate assumptions and predictions of dynamic models using historical data. Cliodynamics is part of the cliometrics approach or "new economic history" which studies history through econometrics. Objectives On the one hand, we designed a robust lexical analysis method able to deal with a very large dated corpus series whose content evolves over time (big data) with the challenge of identifying societal evolutions and major historical periods in a cliodynamics perspective. Lexical analysis also examined the teachings to be learned from the Google books Ngram database, which details the number of annual words occurrences in scanned publications available in the Google Books search engine . It is assumed that this database has compiled about 20% of all books ever published in major languages. We focused our study on English-language books published in the United States and Great Britain. The objective was to identify the words frequencies evolving from year 1860 to 2008. Method Principles The method was to constitute, as a first step, a dictionary of the most commonly used English words, disregarding two-way terms, preposition, articles, pronouns. This dictionary has collected 1592 words covering many aspects of social and cultural life with terms related to politics, religion, arts and sciences, industry, objects, family and sentiments. In a second step, the percentage representation of each word in the dictionary was determined for each year after loading the huge Ngram Google Books (1-gram) database on Postgresql. Some words like "king" or "queen" are very well represented in the 19th century dictionary with the reign and power of royalties in Europe, but the use of these phrases declined in the 20th century. The words frequency in books is constantly evolving as time goes by. The third step was to perform a centered and standardized principal component analysis (PCA) on the table describing the representation of words in % by years from 1860 to 2008. A clustering of "years" is carried out using a neural network (artificial intelligence Kohonen map). The results show 8 different periods in history according to 3 different major tendancies in speeches : Humanist versus Scientific ; Chaos versus Organization ; Individualist versus Collectivist.

La cliodynamique est un domaine de recherche assez récent qui considère l’histoire comme un objet d’étude scientifique. De nature transdisciplinaire, la cliodynamique tente ainsi d’expliquer les processus dynamiques historiques comme la montée ou l’effondrement des empires ou civilisations, les cycles économiques, les booms de population, les modes grâce à la modélisation mathématique, le datamining, l’économétrie ou encore la sociologie culturelle. Les big data agrégeant des données historiques, archéologiques ou économiques sont la matière permettant d’alimenter ces modèles quantitatifs. La cliodynamique comporte également un volet empirique examinant l’adéquation des hypothèses et des prévisions de modèles dynamiques avec les données historiques. Elle s’inscrit dans la démarche de la cliométrie ou « new economic history » qui étudie l’histoire grâce à des méthodes tirées de l’économétrie. Objectifs Il s’agissait d’une part de concevoir une méthode robuste d’analyse lexicale capable de traiter une série de très gros corpus datés dont le contenu évolue à travers le temps (big data) avec l’enjeu de cerner les évolutions sociétales et les grandes périodes historiques clés dans le cadre de la cliodynamique. L'analyse lexicale s’est d’autre part penchée sur les enseignements à tirer de la base de données Google books Ngram qui détaille le nombre d'occurrences des mots utilisés année après année dans les publications scannées et intégrées au moteur de recherche Google Books. On considère que cette base a compilé environ 20% des livres publiés dans les langues majeures. Nous nous sommes focalisés sur les ouvrages en langue anglaise publiés aux Etats-Unis et en Grande Bretagne. L'objectif a été de cerner l'utilisation plus ou moins forte de certains mots selon les époques, la période d'étude ayant été fixée de 1860 à 2008. Principe de la méthode La méthode a été de constituer dans un premier temps un dictionnaire des mots anglais les plus usités en faisant abstraction des termes à double sens, préposition, articles, pronoms. Ce dictionnaire a dans cette version initiale rassemblé 1592 mots couvrant de nombreux aspects de la vie sociale et culturelle avec des termes liés à la politique, à la religion, aux arts et aux sciences, à l'industrie, aux objets, à la famille et aux sentiments. Dans un second temps, il a été déterminé la représentation en % de chacun de ses mots au sein du dictionnaire année après année après avoir mis l'imposante base Ngram Google Books (1-gram) sur Postgresql. Certains mots comme "king" ou "queen" sont très bien représentés dans le dictionnaire au 19ème siècle avec le règne et la puissance des pouvoirs royaux en Europe, mais l'usage de ces locutions décline au 20ème siècle. On constate donc une évolution constante de la fréquence des mots dans les ouvrages au fur et à mesure des époques. La troisième étape a été d'effectuer une analyse factorielle en composantes principales centrée et normée sur le tableau décrivant la représentation des mots en % selon les années de 1860 à 2008. Une classification des années en groupes est réalisée grâce à un réseau de neurones (carte auto-adaptative de Kohonen en IA). Les résultats montrent 8 périodes différentes dans l'histoire selon 3 tendances différentes dans les discours : humaniste versus scientifique; chaos versus organisation; individualiste versus collectiviste.

L'analyse lexicale au service de la cliodynamique : traitement par intelligence artificielle de la base Google Ngram

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager