Implementasi Hadoop Cluster Multi Node untuk Membangun Infrastruktur Big Data

Authors

  • Randy Faisal PCR

Abstract

Perkembangan era digitalisasi berdampak pada meningkatnya volum, variasi, kecepatan, nilai dan kompleksitas data sehingga muncul fenomena baru yang disebut big data. Big data adalah data yang melebihi proses kapasitas dari konvensi sistem database yang ada. Big data dapat ditangani menggunakan database yang tidak memiliki keterbatasan dari segi kinerja dan skalabilitas, oleh karena itu dibangunlah sebuah model infrastruktur big data menggunakan Apache Hadoop pada multinode cluster dengan lima node. Dari infrastruktur tersebut dilakukan uji performa berdasakan runtime,  dan throughput menggunakan tools benchmarking TestDFSIO. Pembanding yang digunakan adalah besar data yang bervariasi yang akan diproses dengan write dan read. Pengujian dilakukan berdasarkan variasi ukuran data (1GB,  2GB, 4GB, 8GB, 16GB record ) dan jumlah node yang digunakan (1,2,3,4 dan 5 node). Hasil pengujian menunjukkan bahwa pada proses write, semakin sedikit jumlah node, maka   semakin kecil. Sedangkan pada proses read, semakin sedikit jumlah node yang digunakan, maka nilai  semakin besar. Nilai   diperoleh dari throughput yang dihasilkan. Dari hasil pengujian operasi yang paling lama dieksekusi adalah write. Cluster 1 node memiliki performa yang lebih baik saat write data dan cluster 5 node memiliki performa yang lebih baik saat read data karena dari hasil runtime tercepat dan throughput tertinggi.

Published

2020-08-28

Issue

Section

Artikel