Procesamiento de big data en Hadoop usando el repartition join

Néstor Iván Escalante Fol; Alberto Flores Portilla; Genoveva Vargas-Solar; Carolina Rocío Sánchez Pérez; Marva Angélica Mora Lumbreras

Article Dans Une Revue Programación Matemática y Software Année : 2015

Procesamiento de big data en Hadoop usando el repartition join

(1) , (1) , (2, 3, 4) , (1) , (1)

1
2
3
4

Néstor Iván Escalante Fol

Fonction : Auteur

Universidad Autónoma de Tlaxcala

Alberto Flores Portilla

Fonction : Auteur

Universidad Autónoma de Tlaxcala

Genoveva Vargas-Solar

Fonction : Auteur
PersonId : 7250
IdHAL : genoveva-vargas-solar
ORCID : 0000-0001-9545-1821
IdRef : 113038569

Centre National de la Recherche Scientifique

Laboratoire d'Informatique de Grenoble

Laboratoire Franco-Mexicain d'Informatique et d'Automatique

Carolina Rocío Sánchez Pérez

Fonction : Auteur

Universidad Autónoma de Tlaxcala

Marva Angélica Mora Lumbreras

Fonction : Auteur

Universidad Autónoma de Tlaxcala

Résumé

The main objective of this work concerns the processing of big data. Therefore repar-tition implementation algorithm is proposed to perform the join operation in a large data set, applying under the Map Reduce programming model. Implementing a join in the context of big data is complex and costly, therefore we use Hadoop platform, which provides the necessary tool for managing large volumes of information utilities to analyze the behavior of the algorithm and to evaluate its performance. The algorithm was tested in a cluster consisting of 3 nodes, analyzing the execution results for later use with real data.

El objetivo principal de este trabajo es el procesamiento de grandes volúmenes de información, conocidos como big data. Presentamos la implementación del algoritmo repartition join para realizar la operación join en un conjunto grande de datos. El algoritmo fue programado bajo el modelo de programación Map Reduce. Implementar un join en el contexto de big data resulta ser complejo y costoso; por ello, apoyados en la plataforma Hadoop, herramienta que ofrece las utilidades necesarias para el manejo de grandes volúmenes de información, analizamos el comportamiento del algoritmo para evaluar su rendimiento. El algoritmo planteado se evaluó en un clúster conformado por tres nodos. Los resultados de ejecución se analizaron para su posterior uso en aplicaciones con datos reales.

Mots clés

join Map Reduce Hadoop big data

Domaines

Base de données [cs.DB]

Fichier principal

vol7num2art8.pdf (985.32 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Genoveva Vargas-Solar : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01584806

Soumis le : mardi 12 septembre 2017-10:14:59

Dernière modification le : jeudi 4 avril 2024-20:58:25

Archivage à long terme le : mercredi 13 décembre 2017-15:22:16

Dates et versions

hal-01584806 , version 1 (12-09-2017)

Identifiants

HAL Id : hal-01584806 , version 1

Citer

Néstor Iván Escalante Fol, Alberto Flores Portilla, Genoveva Vargas-Solar, Carolina Rocío Sánchez Pérez, Marva Angélica Mora Lumbreras. Procesamiento de big data en Hadoop usando el repartition join. Programación Matemática y Software, 2015, 7, pp.52 - 58. ⟨hal-01584806⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS UNIV-COMPIEGNE LIG LIG_SIDCH

93 Consultations

253 Téléchargements

Procesamiento de big data en Hadoop usando el repartition join

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager