• cair@poliupg.ac.id

Total Produk Riset: 0

Implementasi Spark Streaming Untuk Transformasi Data Streaming Pada Apache Spark

Bidang Sains & Teknologi
  • Tim Peneliti Muh. Athariq Fajri
  • Jurnal Link Jurnal
  • Share on

Data stream menjadi tantangan dalam mengolah data, data yang dihasilkan dapat dari berbagai sumber yang beragam bentuk atau formatnya, kelengkapan data yang masuk, perubahan distribusi data, jumlah data yang besar, ukuran data besar dan pengalokasian sumber daya untuk memproses setiap tugas. Mengolah data stream dengan jumlah data yang besar dibutuhkan sebuah platform atau framework yang dapat mengelola dan memproses data tersebut. Salah satu platform untuk mengolah data yang berukuran besar (big data) secara paralel dan dapat berjalan diatas beberapa cluster adalah Apache Spark. Apache Spark dalam mengolah data memiliki komponen bernama Spark Streaming dan RDD (Resilient Distributed Dataset). Spark Streaming bekerja dengan cara mengumpulkan data stream dari suatu sumber dan mengubahnya menjadi rangkaian RDD yang disebut dengan Discretized Stream (Dstream). Karena Dstream merupakan rangkaian RDD, operasi transformasi dapat diterapkan pada tiap-tiap RDD. Pada penelitian ini, akan dilakukan proses transformasi data dari beberapa sumber data Alat IoT menggunakan Spark Streaming dan dirancang beberapa model infrastruktur Apache Spark dalam menguji proses transformasi data Spark Streaming. Hasil penelitian ini berhasil mengimplementasikan Spark Streaming dalam mentransformasi data dari sumber alat IoT ke bentuk RDD menggunakan createStream dan createPairedStream, serta pengujian kinerja model infrastruktur terdapat pada model penambahan jumlah core yang mengalami pemrosesan data paling cepat terhadap satu sumber data dialamai pada 1 master 1 worker dengan 4 core nilai waktu proses sebesar 206 ms.

Kontak Peneliti Email Peneliti Print