60 Top Open Source Tools Untuk Big Data : 18 Tool untuk Hadoop-Related
Big data sangat membantu kita untuk menyelesaikan process data yang cukup besar. Ketika kita akan bekerja dengan tool-tool
18 Tool untuk Hadoop – Related – Bigdata DBA. Big data sangat membantu kita untuk menyelesaikan process data yang cukup besar. Ketika kita akan bekerja dengan tool-tool untuk Big Data, solusi open source yang secara umum dan Apache Hadoop khususnya akan kita lihat mendominasi hampir semua pembahasan big data di internet. Forrester Analis Mike Gualtieri meramalkan bahwa "100 persen perusahaan besar" akan mengadopsi Hadoop selama beberapa tahun. Sebuah laporan dari Riset Pasar memperkirakan bahwa pasar Hadoop akan tumbuh pada tingkat pertumbuhan tahunan gabungan (CAGR) lebih dari 58 persen pada 2022 dan bahwa hal itu akan bernilai lebih dari $ 1 miliar pada tahun 2020. Dan IBM percaya begitu kuat tool Big Data adalah di open source, maka perusahaan tersebut menugaskan 3.500 peneliti untuk bekerja pada Apache Spark, tool yang merupakan bagian dari ekosistem Hadoop.
Kali ini, kita telah memperbarui daftar open source tool Big Data di atas dengan peluncuran banyak proyek baru. Banyak proyek yang paling penting dikelola oleh Apache Foundation dan berhubungan erat dengan Hadoop.
Harap dicatat bahwa ini bukan peringkat; sebaliknya, proyek yang diselenggarakan berdasarkan kategori. Dan seperti biasa, jika Anda tahu tambahan dari open source big data dan / atau tool Hadoop yang harus di tambahkan pada daftar artikel ini, jangan ragu untuk dicatat dalam bagian Komentar di bawah ini.
Kumpulan Tool Big Data yang Terkait dengan Hadoop
1 Hadoop
2 Ambari
3 Avro
4 Cascading
5 Chukwa
6 Flume
7 HBase
8 Hadoop Distributed File System
9 Hive
10 Hivemall
11 Mahout
12 MapReduce
13 Oozie
14 Pig
15 Sqoop
16 Spark
17 Tez
18 Zookeeper
Kumpulan Tool yang Terkait dengan Hadoop
#1. Hadoop
Hadoop |
Pada bahasan pertama mengenai tool big data adalah proyek Apache Hadoop yang saat ini sudah menjadi identik dengan Big Data. Hal ini telah berkembang menjadi sebuah ekosistem seluruh tool open source untuk menyelesaikan masalah komputasi terdistribusi dengan sangat scalable. Sistem operasi yang mendukung Apache Hadoop: Windows, Linux, OS X.
#2. Ambari
Ambari |
Bagian dari ekosistem Hadoop, proyek Apache ini menawarkan antarmuka berbasis Web intuitif untuk provisioning, pengelolaan, dan pemantauan cluster Hadoop. Tool Ambari ini juga menyediakan API RESTful untuk pengembang yang ingin mengintegrasikan kemampuan Ambari ke dalam aplikasi mereka sendiri. Sistem operasi yang mendukung Ambari: Windows, Linux, OS X.
#3. Avro
Avro |
Proyek Apache ini menyediakan sistem data serialisasi dengan struktur data yang kaya dan memiliki format yang kompak. Skema didefinisikan dengan JSON dan terintegrasi dengan mudah dengan bahasa yang dinamis. Sistem operasi yang mendukung Avro: OS Independen alias bebas menggunakan OS apa saja.
#4. Cascading
Cascading |
Cascading adalah sebuah platform pengembangan aplikasi berdasarkan Hadoop. Cascading memiliki dukungan komersial dan pelatihan yang telah tersedia. Sistem operasi yang mendukung Cascading : OS Independen.
#5. Chukwa
Chukwa |
Bekerja berdasarkan Hadoop, Chukwa mengumpulkan data dari sistem terdistribusi dengan skala besar untuk tujuan monitoring. Penggunaan chukwa ini juga mencakup alat untuk menganalisis dan menampilkan data. Sistem operasi yang mendukung tool Chukwa: Linux, OS X.
#6. Flume
Flume |
Flume mengumpulkan data log dari aplikasi lain dan mengirimkannya ke Hadoop. Di dalam website resminya menawarkan, " It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms." Sistem operasi yang mendukung Flume : Linux, OS X.
#7. HBase
HBase |
Dirancang untuk tabel yang sangat besar dengan miliaran baris dan jutaan kolom, HBase adalah database terdistribusi yang menyediakan random akses real-time baca / tulis data besar. Hal ini agak mirip dengan Google Bigtable, tapi dibangun di atas Hadoop dan HDFS. Sistem operasi yang mendukung HBase : OS Independen.
#8. Hadoop Distributed File System
HDFS adalah sistem file untuk Hadoop, tetapi juga dapat digunakan sebagai standalone distributed file system. HDFS berbasis Java, fault-toleran, sangat scalable dan sangat dapat dikonfigurasi. Sistem operasi yang mendukung HDFS: Windows, Linux, OS X.
#9. Hive
HiveLogo |
Apache Hive adalah data warehouse untuk ekosistem Hadoop. Hal ini memungkinkan pengguna untuk query dan mengelola big data menggunakan HiveQL, bahasa yang mirip dengan SQL. Sistem operasi yang mendukung Hive : OS Independen.
#10. Hivemall
Hivemall adalah kumpulan algoritma machine learning untuk Hive. Ini mencakup algoritma yang sangat terukur untuk klasifikasi, regresi, rekomendasi, k-nearest neighbor, deteksi anomali dan fitur hashing. Sistem operasi yang mendukung tool Hivemall : OS Independen.
#11. Mahout
Mahout Logo |
Menurut website-nya, tujuan proyek Mahout adalah "untuk membangun lingkungan untuk secara cepat mampu membuat scalable performance pada aplikasi machine learning." Ini mencakup berbagai algoritma untuk melakukan data mining pada Hadoop MapReduce, serta beberapa algoritma baru untuk lingkungan Scala dan Spark. Sistem operasi yang mendukung : OS Independen.
#12. MapReduce
Merupakan bagian integral dari Hadoop, MapReduce merupakan model pemrograman yang menyediakan cara untuk memproses dataset terdistribusi dengan ukuran yang besar. Ini pada awalnya dikembangkan oleh Google, dan juga digunakan oleh beberapa tool big data lainnya di daftar ini, termasuk CouchDB, MongoDB dan Riak. Sistem operasi yang mendukung : OS Independen.
#13. Oozie
Oozie Logo |
Scheduler alur kerja ini dirancang khusus untuk mengelola pekerjaan Hadoop. Hal ini dapat memicu job oleh waktu atau oleh ketersediaan data, dan terintegrasi dengan MapReduce, Pig, Hive, Sqoop dan banyak tool lainnya yang terkait. Sistem operasi yang mendukung Oozie : Linux, OS X.
#14. Pig
Pig Logo |
Apache Pig adalah platform untuk analisis big data yang terdistribusi. Hal ini bergantung pada bahasa pemrograman yang disebut Pig Latin, yang menawarkan pemrograman parallel yang disederhanakan, optimasi dan diperpanjang. Sistem operasi yang mendukung Pig: OS Independen.
#15. Sqoop
Sqoop Architecture |
Pada skala enterprise sering kali perlu untuk mentransfer data antara database relasional dan Hadoop, dan Sqoop adalah merupakan salah satu tool yang dapat melakukan pekerjaan tersebut. Dalam hal ini dapat mengimpor data ke Hive atau HBase dan ekspor dari Hadoop ke RDBMS. Sistem operasi yang mendukung sqoop: OS Independen.
#16. Spark
Spark Logo |
Sebuah alternatif untuk MapReduce, Spark adalah mesin pengolahan data. Spark mengklaim sampai 100 kali lebih cepat dari MapReduce bila digunakan dalam memori atau 10 kali lebih cepat bila digunakan pada disk. Tool ini dapat digunakan bersama Hadoop, dengan Apache Mesos, atau digunakan secara sendiri. Sistem operasi yang mendukung spark: Windows, Linux, OS X.
#17. Tez
Dibangun di atas Apache Hadoop YARN, Tez adalah "sebuah kerangka aplikasi yang memungkinkan untuk tugas yang kompleks directed-acyclic-graph untuk pengolahan data." Hal ini memungkinkan Hive dan Pig untuk menyederhanakan pekerjaan rumit lainnya yang akan mengambil beberapa langkah. Sistem operasi yang mendukung Tez: Windows, Linux, OS X.
#18. Zookeeper
Zookeeper Logo |
Tool big data ini secara adminstratif menggambarkan dirinya sebagai "layanan terpusat untuk mempertahankan informasi konfigurasi, penamaan, menyediakan sinkronisasi terdistribusi, dan menyediakan layanan kelompok." Hal ini memungkinkan node dalam cluster Hadoop untuk saling berkoordinasi. Sistem operasi yang mendukung zookeper: Linux, Windows (pengembangan saja), OS X (pembangunan saja).
Demikianlah tadi daftar 18 tool big data yang terkait dengan hadoop. Apabila anda mengetahui masih ada tool lain yang terkait dengan big data, anda dapat menambahkan dengan menuliskannya di dalam komentar di bawah.