Contributions to data confidentiality in machine learning by means of homomorphic encryption - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2020

Contributions to data confidentiality in machine learning by means of homomorphic encryption

Contributions à la confidentialité des données en apprentissage machine par chiffrement homomorphe

Résumé

We aim to provide a set tools allowing for machine learning algorithms to yield their intended results while ensuring confidentiality properties are achieved for the underlying data. This can be achieved through regulatory measures such as prohibiting the use of a sensitive database in certain cases and restricting its access to certain law enforcement agencies. The fundamental reason for the existence of our work - and every other work like it - is the following: why trust that an outside entity will not misuse personal data when you can have assurances of that fact ? This applies both in the case of a private company that may use/sell your data for profit, legally or illegally. It also applies to use by a government which may or may not have the proper safeguards against abuse, as well as the proper security for data storage and access. In our case, we provide such confidentiality properties though the use of Fully Homomorphic Encryption (FHE). Precisely, most of our work focuses on finding new algorithms for secure outsourced machine learning evaluation using FHE. While other privacy and confidentiality preserving methods are touched upon briefly, we focused our research on homomorphic encryption and strive to explain our choice and its general context. We present three main novel secure machine learning applications: a confidentiality-preserving recursive discrete neural network; a model-confidential embedding-based neural network; a confidentiality-preserving k-NN classifier. Notably, our secure k-NN classifier is the only such algorithm in the literature obtaining a result noninteractively. We evaluate the accuracy and efficiency of these three applications on real-world machine learning problems. We show that our secure schemes compare very favorably to their non-secure counterparts in terms of accuracy, while still running in realistic time. Beyond these schemes themselves, this thesis promotes a specific research direction for secure machine learning. We argue for less (though still some) focus on deep convolutional neural networks and show that looking at somewhat lesser known machine learning algorithms can yield promising results.
L’objectif de mes travaux tout au long de cette thèse a été de permettre à des algorithmes complexes d’apprentissage machine de pouvoir être appliqués (lors de leur phase d’inférence) sur des données dont la confidentialité est préservée. Un contexte d’application est l’envoi de données sur un serveur distant sur lequel un algorithme est évalué. Selon les cas, pour des raisons éthiques, légales ou commerciales, la confidentialité des données qui sont envoyées doit pouvoir être respectée. Il est possible pour cela de désigner des autorités en lesquels tous les acteurs du protocole peuvent avoir confiance. Pourquoi accorder à des entités un tel niveau de confiance dans des cas où la confidentialité des données d’un utilisateur est essentielle ? La cryptographie offre en effet des alternatives, dont le chiffrement totalement homomorphe.Le chiffrement homomorphe permet, en théorie, l’évaluation de n’importe quelle fonction dans le domaine chiffré. Son utilisation peut donc être imaginée dans le cas ou un utilisateur envoie des données chiffrées sur un serveur distant qui détient un algorithme puissant d’apprentissage machine. La phase d’inférence de cet algorithme est alors effectuée sur donnes chiffrées et le résultat est renvoyé à l’utilisateur pour déchiffrement. La cryptographie propose d’autre méthodes de calcul sur données chiffrées qui sont présentées succinctement dans le manuscrit. Pour faire court, la particularité du chiffrement homomorphe est qu’il ne nécessite aucune interaction entre l’utilisateur et le serveur. Dans ma thèse, je présente trois principaux algorithmes d’apprentissage machine sécurisés : une évaluation sur données et modèle chiffrés d’un réseau de neurone récursif et discret, le réseau de Hopfield ; une reconnaissance de locuteur sur modèle chiffré pour un réseau autoencodeur, le système VGGVox; une évaluation sur données chiffrées d’un classifieur des k plus proches voisins (ou classifieur k-NN). Notamment, notre classifieur k-NN sécurisé est le premier tel algorithme évalué de manière totalement homomorphe. Nos travaux ouvrent de nombreuses perspectives, notamment dans le domaine de l’apprentissage collaboratif sécurisé.
Fichier principal
Vignette du fichier
97634_ZUBER_2020_archivage.pdf (1.63 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03105524 , version 1 (11-01-2021)
tel-03105524 , version 2 (14-01-2021)
tel-03105524 , version 3 (26-02-2021)

Identifiants

  • HAL Id : tel-03105524 , version 3

Citer

Martin Zuber. Contributions to data confidentiality in machine learning by means of homomorphic encryption. Neural and Evolutionary Computing [cs.NE]. Université Paris-Saclay, 2020. English. ⟨NNT : 2020UPASG048⟩. ⟨tel-03105524v3⟩
577 Consultations
234 Téléchargements

Partager

Gmail Facebook X LinkedIn More