Análise do Impacto da Replicação de Dados Implementada pelo Apache Hadoop no Balanceamento de Carga
Résumé
Big Data processing tools, such as Apache Hadoop, should ensure data integrity and availability through fault tolerance mechanisms. The HDFS, Hadoop Distributed File System, implements several fault tolerance techniques, among them the traditional data replication. To deal with highly scalable clusters, there is a concern in validate if the replicated data is spread homogeneously among the computational nodes. In this paper, we analyze experimentally the behavior of HDFS in scenarios with and without the occurrence of failures in order to collect metrics of load balancing regarding the process of data replication adopted by Apache Hadoop. Additional experiments measure the performance achieved by balancing a cluster.
Ferramentas especializadas em Big Data, como o Apache Hadoop, devem portar meios que garantam a integridade e a disponibilidade dos dados. Para tal, o HDFS, sistema de arquivos distribuído do Hadoop, faz uso de diversas técnicas de tolerância a falhas, dentre elas a replicação de dados. Tratando-se de clusters altamente escaláveis, há a preocupação em verificar se a distribuição dos dados replicados ocorre de forma homogênea. Este trabalho analisa experimentalmente o comportamento do HDFS em cenários com e sem a ocorrência de falhas, avaliando o desbalanceamento de carga resultante do processo de replicação de dados implementado pelo Apache Hadoop. Experimentos adicionais medem o desempenho alcançado ao balancear um cluster.
Origine : Fichiers produits par l'(les) auteur(s)
Loading...