Estimation of extrapolation limits based on extreme-value distributions. Application to environmental data.
Estimation des limites d'extrapolation par les lois de valeurs extrêmes. Application à des données environnementales.
Résumé
This thesis takes place in the extreme value statistics framework. It provides three main contributions to
this area. Extreme quantile estimation is a two step approach. First, it consists in proposing an extreme value
based quantile approximation. Then, estimators of the unknown quantities are plugged in the previous
approximation leading to an extreme quantile estimator.
The first contribution of this thesis is the study of the extrapolation error, which is the error due to the
extreme value based approximation of the true quantile. These investigations are carried out using two
different kind of estimators, both based on the well-known Generalized Pareto approximation : the Exponential
Tail estimator dedicated to the Gumbel maximum domain of attraction and theWeissman estimator
dedicated to the Fréchet one. It is shown that the extrapolation error can be interpreted as the remainder
of a first order Taylor expansion. Necessary and sufficient conditions are then provided such that this error
tends to zero as the sample size increases. Interestingly, in case of the so-called Exponential Tail estimator,
these conditions lead to a subdivision of Gumbel maximum domain of attraction into three subsets.
In constrast, the extrapolation error associated with Weissman estimator has a common behavior over the
whole Fréchet maximum domain of attraction. First order equivalents of the extrapolation error are then
derived and their accuracy is illustrated numerically.
The second contribution is the proposition of a new extreme quantile estimator. The problem is addressed
in the framework of the so-called "log-Generalized Weibull tail limit" model, where the logarithm of
the inverse cumulative hazard rate function is supposed to be of extended regular variation. Based on this
model, estimators of the parameters are proposed. Then, a new estimator of extreme quantiles is derived
from the latter. Its asymptotic normality is established and its behavior in practice is illustrated on both real
and simulated data.
The third contribution of this thesis is the proposition of new mathematical tools allowing the quantification
of extrapolation limits associated with a real dataset. These tools consist in some estimators of the
extrapolation error. To build them, we take advantages on one hand of the first study we did by proposing
first order approximations which are widely applicable in practice. On the other hand, we use the proposed
estimators of the "log-Generalized Weibull tail limit" model to estimate the previous approximations. Performances
of the obtained estimators are illustrated on simulated data. These estimators are finally used to
estimate the extrapolation limits associated with three real datasets consisting in daily measures of some
environmental variables. Depending on the climatic phenomena, we show that the extrapolation limits can
be more or less stringent.
Cette thèse se place dans le cadre de la Statistique des valeurs extrêmes. Elle y apporte trois contributions
principales.
L’estimation des quantiles extrêmes se fait dans la littérature en deux étapes. La première étape consiste
à utiliser une approximation des quantiles basée sur la théorie des valeurs extrêmes. La deuxième étape
consiste à estimer les paramètres inconnus de l’approximation en question, et ce en utilisant les plus grandes
valeurs du jeu de données. Cette décomposition mène à deux erreurs de natures différentes, la première
étant une erreur déterministe, dite d’approximation ou encore d’extrapolation, la seconde consituant une
erreur d’estimation aléatoire.
La première contribution de cette thèse est l’étude théorique de cette erreur d’extrapolation mal connue.
Cette étude est menée pour deux types d’estimateurs différents, tous deux cas particuliers de l’approximation
par la loi de Pareto généralisée : l’estimateur Exponential Tail dédié au domaine d’attraction de Gumbel
et l’estimateur de Weissman dédié à celui de Fréchet. Nous montrons alors que l’erreur en question peut
s’interpréter comme le reste d’un développement de Taylor d’ordre un. Des conditions nécessaires et suffisantes
sont alors établies de telle sorte que l’erreur tende vers zéro quand la taille de l’échantillon augmente.
De manière originale, ces conditionsmènent à une division du domaine d’attraction de Gumbel en
trois parties distinctes. En comparaison, l’erreur d’extrapolation associée à l’estimateur de Weissman présente
un comportement unifié sur tout le domaine d’attraction de Fréchet. Des équivalents de l’erreur sont
fournis et leur comportement est illustré numériquement.
La deuxième contribution est la proposition d’un nouvel estimateur des quantiles extrêmes. Le problème
est abordé dans le cadre du modèle dit des "lois à queue de type log-Weibull généralisé", où le logarithme
de l’inverse du taux de hasard cumulé est supposé à variation régulière étendue. Après une discussion sur
les conséquences de cette hypothèse, nous proposons des estimateurs des paramètres du modèle. Ces estimateurs sont alors utilisés afin de construire un nouvel estimateur des quantiles extrêmes. La normalité
asymptotique de ce dernier ainsi que celle des paramètres associés est alors établie et leur comportement
en pratique est évalué sur données réelles et simulées.
La troisième contribution de cette thèse est la proposition d’outils permettant en pratique de quantifier
les limites d’extrapolation d’un jeu de données. Ces outils consistent en des estimateurs des erreurs d’extrapolation associées aux approximations Exponential Tail et Weissman. Ils se basent sur les deux contributions précédentes. Dans un premier temps, nous utilisons l’étude théorique faite des différentes erreurs
d’extrapolation pour proposer des équivalents de ces dernières. Ces nouveaux équivalents se veulent généraux
et utilisables en pratique. Dans un second temps, nous utilisons les estimateurs proposés du modèle
dit des "lois à queue de type log-Weibull généralisé" pour pouvoir estimer lesdits équivalents. Après avoir
évalué les performances sur données simulées des nouveaux estimateurs ainsi construits, nous estimons
les limites d’extrapolation associées à trois jeux de données réelles constitués de mesures journalières de
variables environnementales. Dépendant de l’aléa climatique considéré, nous montrons que ces limites
sont plus ou moins contraignantes.
Loading...