Estimation de diversité par l’inférence de l’origine des noms de famille

Résumé : L'étude des noms de famille comme marqueurs linguistiques et géographiques du passé s'est avérée pertinente dans des contextes variés allant de la biologie et la génétique, à la démographie et la mobilité sociale. En nous appuyant en partie sur des éléments de la littérature existante, nous avons construit un classifieur des origines des noms de famille. Pour ce faire, nous avons extrait de l'ensemble des articles référencés sur PubMed environ 25 millions d'affiliations liant des auteurs à des pays. Nous nous sommes ensuite intéressés aux noms dont la concentration était particulièrement forte dans un pays donné afin de définir un ensemble de noms de références pour ce pays. Chaque nom est découpé en n-grammes, ​ c'est-à-dire en sous-ensembles de taille variable de lettres successives. Afin de définir un nombre de catégories d'origines plus restreint que les 176 pays considérés, nous avons opéré un regroupement hiérarchique sur l'ensemble de ces ​ n-grammes rassemblés par pays. Le résultat (cf. Figure 1) permet, en suivant simplement la structure de l'arbre, de reconstruire un découpage intelligible des régions du monde au prix d'un très petit nombre de classifications qualitativement surprenantes, qui sont corrigées individuellement. Cette typologie issue des données nous permet de nous écarter du concept d'​ ethnicité (subjectif) généralement à l'honneur dans la littérature, et de faire appel au fondement plus objectif de l'​ origine géographique des noms de famille. L'endogamie permet alors d'expliquer en quoi les noms sont encore aujourd'hui des variables intermédiaires pertinentes dans de nombreux domaines de recherche. Nous obtenons ainsi une base de données de noms d'auteurs associés à une région du monde, qui nous permet de construire un modèle ​ via une procédure d'apprentissage supervisé simple et, ainsi, de pouvoir inférer l'origine géographique de noms qui n'étaient pas présents dans les données initiales. Nous améliorons les performances de ce classifieur en prenant en compte ses taux d'erreur dans l'évaluation de la distribution des origines des noms d'une population donnée. Ce modèle nous permet d'explorer une méthodologie pour estimer à grande échelle la diversité relative des groupes sociaux. Plus précisément, en comparant la distribution des origines d'une base de données de noms de référence pour une population et en la comparant à une base de données cible, nous pouvons estimer les sur-/sous-représentations de chaque origine dans cette dernière. Cette méthode peut se montrer utile notamment lorsque les données sur les origines ne sont pas couramment prise en compte ou peu disponibles, comme c'est le cas en France. Enfin, nous appliquons cette méthode pour mesurer la représentativité des origines de noms de famille parmi 15 groupes socio-professionnels en France (cf. Tableau 1). Les résultats (cf. Figure 2) montrent des similarités fortes entre certains types de groupes. Par exemple, les fonctions électives montrent un profil comparable de diversité avec une sur-représentation de l'origine nord-européenne et une sous-représentation plus prononcée que dans les autres bases de données pour les autres origines. En conclusion, nous discutons plusieurs biais possible dans l'observation des sous-représentations permise par cette méthode, et des éléments nécessaires à ce qu'elle puisse contribuer à l'étude des discriminations liées à l'origine.
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01791185
Contributeur : Antoine Mazieres <>
Soumis le : lundi 14 mai 2018 - 14:17:21
Dernière modification le : jeudi 5 juillet 2018 - 14:45:32
Document(s) archivé(s) le : lundi 24 septembre 2018 - 11:45:58

Fichier

MASHS 2018.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01791185, version 1

Collections

Citation

Antoine Mazieres, Camille Roth. Estimation de diversité par l’inférence de l’origine des noms de famille. Modèles et Apprentissages en Sciences Humaines et Sociales (MASHS), May 2018, Paris, France. 〈hal-01791185〉

Partager

Métriques

Consultations de la notice

213

Téléchargements de fichiers

42