Test d'indépendance basé sur les indices HSIC-ANOVA d'ordre total - Institut de Mathématiques de Toulouse Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

Independence test based on total-order HSIC-ANOVA indices

Test d'indépendance basé sur les indices HSIC-ANOVA d'ordre total

Résumé

Building a surrogate model for an industrial computationally-expensive simulation code is made difficult by the combined effect of the curse of dimensionality and the lack of input-output data. A preliminary sensitivity analysis may help discard non-influential inputs and rank the remaining inputs according to their impact on the output distribution. In order to perform sensitivity analysis, the historical approach proposed by Sobol' provides a convenient conceptual framework where the output variance is apportioned between input variables. However, the accurate estimation of the corresponding indices requires thousands of model evaluations, which is often unaffordable in an industrial context. To circumvent this pitfall, it has become quite common to resort to a sensitivity measure based on Hilbert-Schmidt independence criterion (denoted by HSIC). This measure is applied to all input-output pairs of variables and allows to define the so-called "HSIC indices". Their interpretation is much less intuitive than the one related to Sobol' indices since their foundations come from the theory of reproducing kernel Hilbert spaces. To ease interpretation, the HSIC-ANOVA indices have been recently introduced to allow for a strict separation of main effects and interactions, akin to what is proposed in Sobol' formalism with Hoeffding decomposition. This breakthrough was obtained after assuming mutual independence between inputs and provided that specific kernels, like Sobolev kernels, are used to compute HSIC-ANOVA indices. In this work, a first contribution consists in demonstrating that Sobolev kernels are characteristic. Because of this property, independence within input-output pairs of variables can be detected from the observed values of HSIC-ANOVA indices. Then, it is shown that a test of independence can be constructed for the total-order HSIC-ANOVA index after adapting existing methodologies in the HSIC-related literature. Finally, an extensive simulation study proves empirically that the newly-developed test of independence is, at least, as powerful as the older one based on the traditional HSIC index, which offers interesting prospects in order to improve the screening step performed before metamodeling.
L'apprentissage statistique dans le cas de données simulées par un code de calcul industriel, aussi appelé "métamodélisation", est une tâche dont la difficulté de mise en œuvre croît avec la dimension du problème et le manque de données d'apprentissage. Une analyse de sensibilité préliminaire peut venir en soutien de la construction du métamodèle pour éliminer les variables les moins pertinentes et trier les variables restantes par ordre d'influence sur la sortie. Pour mener une analyse de sensibilité, l'approche historique de Sobol' offre un cadre conceptuel confortable qui est articulé autour de la décomposition de la variance de la sortie. Toutefois, l'estimation précise des indices associés n'est plus possible si l'échantillon d'apprentissage est de petite taille. Pour contourner cette difficulté, il est désormais fréquent d'utiliser une mesure de sensibilité basée sur le critère d'indépendance de Hilbert-Schmidt (notée HSIC). Elle est appliquée à chaque couple entrée-sortie, et permet ainsi de définir la collection des indices HSIC. Leur interprétation est généralement moins intuitive que celle des indices de Sobol car leur construction repose sur la théorie des espaces de Hilbert à noyaux reproduisants. Face à ce constat, les indices HSIC-ANOVA ont été récemment introduits et permettent une séparation des effets principaux et des interactions, à l'instar de la décomposition de Hoeffding dans le formalisme des indices de Sobol'. Cette avancée a été obtenue au prix d'une hypothèse d'indépendance mutuelle des entrées et sous réserve de l'utilisation de noyaux spécifiques, comme les noyaux de Sobolev. Dans ce travail, on commence par montrer que tout noyau de Sobolev est caractéristique, c'est-à-dire que la nullité d'un indice HSIC-ANOVA est équivalente à une situation d'indépendance au sein du couple formé par l'entrée considérée et la sortie. Dans un second temps, il est montré qu'un test d'indépendance peut être construit pour l'indice HSIC-ANOVA d'ordre total en s'inspirant de ce qui est fait pour l'indice HSIC traditionnel. Enfin, une étude numérique révèle empiriquement que le nouveau test d'indépendance est au moins aussi puissant que celui basé sur l'indice HSIC traditionnel, ce qui offre des perspectives intéressantes pour améliorer le processus de sélection des variables à impliquer dans la construction d'un métamodèle.
Fichier principal
Vignette du fichier
JdS2022-depotHAL-CEA.pdf (7.67 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

cea-03701170 , version 1 (21-06-2022)

Identifiants

  • HAL Id : cea-03701170 , version 1

Citer

Gabriel Sarazin, Amandine Marrel, Sébastien da Veiga, Vincent Chabridon. Test d'indépendance basé sur les indices HSIC-ANOVA d'ordre total. 53èmes Journées de Statistique de la SFdS, Société Française de Statistique (SFdS); Université Claude Bernard Lyon 1, Jun 2022, Lyon, France. ⟨cea-03701170⟩
256 Consultations
287 Téléchargements

Partager

Gmail Facebook X LinkedIn More