Predicting plant endemicity based on herbarium data : application to French data - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

Predicting plant endemicity based on herbarium data : application to French data

Résumé

Evaluating formal threat criteria for every organism on earth is a tremen dously resource-consuming task which will need many more years to accomplish at theactual rate. We propose here a method allowing for a faster and reproducible threat prediction for the 360,000+ known species of plants. Threat probabilities are estimated for each known plant species through the analysis of the data from the complete digitization of the largest herbarium in the world using machine learning algorithms, allowing for a major breakthrough in biodiversity conservation assessments worldwide. First, the full scientific names from Paris herbarium database were matched against all the names from the international plant list using a text mining open source search engine called Terrier. The 6+ millions of records represent 167,355 species level accepted names, i.e. 47% of a total of 356,106 known vascular plants. A series of statistics related to the accepted names of each plant were computed and served as predictors in a statistical learning model with a binary output: ‘Least Concern’ (LC) versus ‘not Least Concern’. The training data contained the 15,824 usable entries from the International Union for Conservation of Nature global Redlisting plants assessments. Random uniform forests were selected for their hability to deal with numerous missing values, the included estimation of the generalization error and tuning parameters default settings robustness. For each accepted name, the probability to be LC was estimated with a confidence interval and a global misclassification rate of 20%. Results are presented on the world map and according to different plant traits.
L’ évaluation formelle de l’ état de conservation global des espèces végétales et animales est un travail indispensable mais extrêmement long qui prendra au rythme actuel de nombreuses ann ées. Nous proposons une approche permettant de prédire rapidement et de manière reproductible le niveau de menace d’une espèce pour les 360,000+ espèces végétales recensées. La probabilité qu’une espèce soit menacée est estimée pour chaque plante par l’analyse des données émanant de la digitalisation complète de l’herbier du Muséum National d’Histoire Naturelle, plus grande collection au monde, à partir d’algorithmes d’apprentissage. Dans un premier temps, les noms scientifiques des plantes tels que recensés dans l’herbier de Paris, sont reliés aux noms scientifiques tels que décrits dans la liste internationale ”Plant List” grˆace `a un moteur de recherche open source appelé Terrier. Cette première étape permet d’estimer que les 6+ millions d’enregistrements de l’herbier représentent 167 355 noms acceptés de plantes, soit près de 47% des 356 106 plantes vasculaires connues. Une série de statistiques liées au nom accepté de la plante ont ensuite été calculées et intégrées comme prédicteurs dans un modèle de classification binaire : les deux modalités sont ”Préoccupation Mineure” (LC pour ‘Least Concern’) et ”Potentiellement menacée” (‘not LC’). Le jeu de données d’entrainement comprend les 15 824 espèces déjà ́evaluées et référencéees dans la liste rouge mondiale des espèces menacées de l’International Union for Conservation of Nature (IUCN). L’algorithme des forêts aléatoires uniformes a été retenu car il permet de traiter des données comprenant un grand nombre de valeurs manquantes , il est peu sensible au choix de paramètres de r èglage et fournit l’estimation de l’erreur de prédiction. Pour chaque nom accepté de plante, la probabilité de ”menace” est estimée avec un intervalle de confiance, avec un taux global de mauvaise classification proche de 20%. Les résultats sont présentés sur une carte du monde selon certaines caractéristiques des plantes.
Fichier principal
Vignette du fichier
JDS2018-Herbier_1.pdf (14.23 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01820565 , version 1 (05-06-2020)

Licence

Paternité - Partage selon les Conditions Initiales

Identifiants

  • HAL Id : hal-01820565 , version 1
  • PRODINRA : 432400

Citer

Jessica Tressou, Liliane Bel, Thomas Haevermans. Predicting plant endemicity based on herbarium data : application to French data. 50. Journées de Statistique, May 2018, Saclay, France. ⟨hal-01820565⟩
157 Consultations
10 Téléchargements

Partager

Gmail Facebook X LinkedIn More