Análise do Impacto da Replicação de Dados Implementada pelo Apache Hadoop no Balanceamento de Carga

Big Data processing tools, such as Apache Hadoop, should ensure data integrity and availability through fault tolerance mechanisms. The HDFS, Hadoop Distributed File System, implements several fault tolerance techniques, among them the traditional data replication. To deal with highly scalable clusters, there is a concern in validate if the replicated data is spread homogeneously among the computational nodes. In this paper, we analyze experimentally the behavior of HDFS in scenarios with and without the occurrence of failures in order to collect metrics of load balancing regarding the process of data replication adopted by Apache Hadoop. Additional experiments measure the performance achieved by balancing a cluster.

Ferramentas especializadas em Big Data, como o Apache Hadoop, devem portar meios que garantam a integridade e a disponibilidade dos dados. Para tal, o HDFS, sistema de arquivos distribuído do Hadoop, faz uso de diversas técnicas de tolerância a falhas, dentre elas a replicação de dados. Tratando-se de clusters altamente escaláveis, há a preocupação em verificar se a distribuição dos dados replicados ocorre de forma homogênea. Este trabalho analisa experimentalmente o comportamento do HDFS em cenários com e sem a ocorrência de falhas, avaliando o desbalanceamento de carga resultante do processo de replicação de dados implementado pelo Apache Hadoop. Experimentos adicionais medem o desempenho alcançado ao balancear um cluster.

Domaines

Performance et fiabilité [cs.PF] Base de données [cs.DB] Calcul parallèle, distribué et partagé [cs.DC] Informatique [cs]

Fichier principal

14355-38970-1-SM.pdf (264.16 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Rhauani Fazul : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02414363

Soumis le : lundi 16 décembre 2019-15:52:05

Dernière modification le : vendredi 7 janvier 2022-11:08:14

Archivage à long terme le : mardi 17 mars 2020-19:52:55

Dates et versions

hal-02414363 , version 1 (16-12-2019)

Identifiants

HAL Id : hal-02414363 , version 1

Citer

Rhauani Weber Aita Fazul, Paulo Vinicius Cardoso, Patricia Pitthan Barcelos. Análise do Impacto da Replicação de Dados Implementada pelo Apache Hadoop no Balanceamento de Carga. Anais do X Computer on the Beach (CotB 2019), Universidade do Vale do Itajaí (UNIVALI), Apr 2019, Florianópolis, SC, Brazil. ⟨hal-02414363⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

GRID5000 SILECS

86 Consultations

436 Téléchargements