Optimisation pour l'apprentissage et apprentissage pour l'optimisation - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2004

From data assimilation to optimization and from optimization to data assimilation

Optimisation pour l'apprentissage et apprentissage pour l'optimisation

Résumé

In many industrials problems, a single evaluation of objective function is expensive in time calculation and his gradient can be unavailable. For these reason, it is useful to build a model, fast to estimate and easily derivable, which approach the studied problem. Providing many improvements to the learning process, we have shown that the neural networks can answer these requirements. Particularly, when classic methods introduce oscillations to approach a smooth function, our method gives a satisfactory result. Even better, our method allow to approximate oscillating functions or applications by a regular model. We obtain these results thanks to different regularization techniques: Tikhonov method, the early stopped strategy, the size of the model and finally Gauss-Newton method (GN). This regularization approach even allows avoiding the local minima (which lays serious problems to the classic methods), by increasing the size of the model to ensure the learning process and then decreasing it for the regularization process. For the large size problems, the use of the Gauss-Newton method is very demanding in memory space. However combining the Automatic differentiation adjoin and direct modes, we have propose a "zero-memory" implementation which allows us to apply this method. This process presented in the frame of neural networks can be adapted to every inverse problem. In the recent but rich literature on the subject, the defined functions by a classic neural network are optimized by very expensive global techniques. In our case we profit of the resulting model (regularity, evaluation speed and gradient availability for a negligible supplementary cost) to use efficient optimization processes. We illustrate the pertinence of the proposed process with different academic examples, renowned by their difficulty, and by examples coming from the motor vehicle industry and oil engineering.
Dans de nombreux problèmes industriels, une simple évaluation de la fonction objectif est coûteuse en temps de calcul et son gradient peut ne pas être disponible. Il est alors utile de construire un modèle, rapide à évaluer et facilement dérivable, qui approche le problème étudié. En apportant de nombreuses améliorations à l'apprentissage, nous avons montré que les réseaux de neurones peuvent répondre à ces exigences. En particulier, là où des méthodes neuronales classiques introduisent des oscillations pour approcher une fonction lisse,notre méthode donne un résultat satisfaisant. Mieux encore, notre méthode permet d'approcher des fonctions oscillantes (par exemple le résultat d'un programme entaché d'erreurs numériques), par un modèle lisse. Nous parvenons à ces résultats par le concours de nombreuses méthodes de régularisation : la méthode de Tikhonov, la stratégie d'arrêt de l'apprentissage, la taille du modèle et pour terminer l'utilisation de la méthode de Gauss-Newton (GN). Cette approche de régularisation permet en plus d'éviter les minima locaux (qui posent un serieux problème pour les méthodes classiques), en augmentant la taille du modèle pour assurer l'apprentissage et en la réduisant ensuite pour la régularisation. Pour les problèmes de grande taille, l'application de la méthode de Gauss-Newton est très " gourmande " en place mémoire. Cependant, en combinant les modes adjoint et direct de la différentiation automatique, nous avons proposé une implémentation " zéro-mémoire " qui nous permet d'appliquer cette méthode. Ce procéde, présenté dans le cadre des réseaux neuronaux peuvent, a priori, être adaptés à tout problème inverse. Dans le littérature récente, mais riche sur le sujet, les fonctions définies par un réseau neuronal classique sont optimisées par des techniques globales très coûuteuses. Dans notre cas, nous profitons des qualités du modèle obtenu (régularité, rapidité d'évaluation et disponibilité du gradient pour un coût supplémentaire négligeable) pour utiliser des méthodes d'optimisation efficaces. Nous illustrerons la pertinence de la méthode proposée par différents exemples académiques, reconnus par leur difficulté, et par des exemples issus de l'industrie automobile et l'ingénierie pétrolière.
Fichier principal
Vignette du fichier
tel-00010106.pdf (5.72 Mo) Télécharger le fichier

Dates et versions

tel-00010106 , version 1 (12-09-2005)

Identifiants

  • HAL Id : tel-00010106 , version 1

Citer

Milagros van Grieken. Optimisation pour l'apprentissage et apprentissage pour l'optimisation. Mathématiques [math]. Université Paul Sabatier - Toulouse III, 2004. Français. ⟨NNT : ⟩. ⟨tel-00010106⟩
533 Consultations
261 Téléchargements

Partager

Gmail Facebook X LinkedIn More