Apprentissage sur Données Massives; trois cas d'usage avec R, Python et Spark.

Résumé : La gestion et l'analyse de données massives sont systématiquement associées à une architecture de données distribuées dans des environnements Hadoop et maintenant Spark. Cet article propose aux statisticiens une introduction à ces technologies en comparant les performances obtenues par l'utilisation élémentaire de trois environnements de référence : R, Python Scikit-learn, Spark MLlib sur trois cas d'usage publics : reconnaissance de caractères, recommandation de films, catégorisation de produits. Comme principal résultat, il en ressort que si Spark est très performant pour la préparation des données et la recommandation par filtrage collaboratif (factorisation non négative), les implémentations actuelles des méthodes classiques d'apprentissage (régression logistique, forêts aléatoires) dans MLlib ou SparkML ne concurrencent pas ou mal une utilisation habituelle de ces méthodes (R, Python Scikit-learn) dans une architecture intégrée au sens de non distribuée.
Type de document :
Chapitre d'ouvrage
Myriam MAUMY-BERTRAND, Gilbert SAPORTA,Christine THOMAS-AGNAN. Apprentissage Statistique et Données Massives, Technip, 2017, Journées d'Etudes en Statistisque
Liste complète des métadonnées

Littérature citée [25 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01350099
Contributeur : Philippe Besse <>
Soumis le : jeudi 29 septembre 2016 - 17:16:24
Dernière modification le : samedi 1 octobre 2016 - 01:09:57
Document(s) archivé(s) le : vendredi 30 décembre 2016 - 15:14:01

Fichiers

Hal-Apprent_Massif-BGL-06-16.p...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01350099, version 3
  • ARXIV : 1609.09619

Collections

Citation

Philippe Besse, Brendan Guillouet, Jean-Michel Loubes. Apprentissage sur Données Massives; trois cas d'usage avec R, Python et Spark.. Myriam MAUMY-BERTRAND, Gilbert SAPORTA,Christine THOMAS-AGNAN. Apprentissage Statistique et Données Massives, Technip, 2017, Journées d'Etudes en Statistisque. 〈hal-01350099v3〉

Partager

Métriques

Consultations de
la notice

1174

Téléchargements du document

756