Infrastruktur Big Data itu Seperti Apa Sebenarnya ?

Saat mengulas Big Data tentu kita bakal tersadar pada keperluan infrastruktur untuk menyokong teknologi Big Data itu

Infrastruktur Big Data itu Seperti Apa - Big Data DBA. Saat mengulas Big Data tentu kita bakal tersadar pada keperluan infrastruktur untuk menyokong teknologi Big Data itu. Dalam infrastruktur teknologi Big Data sendiri mempunyai karakteristik yang tidak sama dengan traditional data, yakni : 

Infrastruktur Big Data itu Seperti Apa










Infrastruktur Big Data itu Seperti Apa

#1.  Sekilas Sejarah Tentang Big Data

Awal mulanya th. 1970-2000 data yang di bangun merupakan data dengan jenis terstruktur serta adalah relational database seperti MySQL, oracle, dan sebagainya. Lantas pada th. 1995 selanjutnya mulai di bangun satu business intelligence yang memakai structured serta relational database dengan sistem seperti cognos, pentaho dan sebagainya. Pada 2010 sampai saat ini di bangun satu sistem yang mempunyai maksud 3V (volume, velocity, varity) atau 4V (ditambah value), serta dengan berbagai teknologinya seperti map reduce, high performance computers cluster dan sebagainya. 

Berarti kegunaan Big Data adalah sisi dari intelijen usaha, Big Data bisa dipakai untuk membuat satu usaha yang mempunyai intelijen manfaat mensupport pengambilan keputusan. Tetapi dalam hal semacam ini ada banyak hal yang tidak sama dari sisi volume yang tidak cuma jumlah data yang banyak, tetapi perkembangan data yang sangatlah cepat hingga dalam rentang waktu yang pendek data bisa bertumbuh dengan amat cepat serta besar (velocity), serta data yang ada mempunyai variasi yang sangatlah banyak (variety) tentu dalam big data sendiri terlebih dalam pembentukan data warehouse telah banyak dikerjakan ekstraksi transform load (ETL) untuk menanggulanggi varietas dari data itu hingga data bisa jadi standard baik dibikin bersih dari beragam noise juga dikerjakan transformasi hingga data tambah lebih sesuai dengan sistem usaha yang ada atau yang tengah jalan untuk organisasi spesifik. 

Business Intelligence yang didalamnya ada pemakaian big data juga memerlukan satu teknologi yang bisa mensupport sistem usaha yang ada di dalam intelijen usaha tersebut, hingga bisa jalan sesuai sama yang diinginkan. Hingga butuh di bangun satu infrastruktur yang pas serta bisa menangani keperluan big data yakni satu diantaranya yaitu sistem pemrosesan data yang amat cepat meskipun diwaktu yang sama data memiliki ukuran besar serta tumbuh dengan cepat. 

Sebagai permasalahan serta tantangan yaitu akusisi data, recording data, ekstraksi, cleaning, anotasi, integrasi, agregasi, representasi, analisa, jenising, interpretasi, serta visualisasi. Big data sendiri mempunyai aplikasi serta fungsi untuk beragam bagian seperti yang telah dijelaskan di atas pada awal mula artikel ini. 

#2. Macam Teknologi Big Data

Ada dua teknologi dalam infrastruktur dalam Big data yakni : 

  1. High Performance Computing Cluster (HPCC) atau bisa dikatakan sebagai Data Analytics Supercomputer (DAS) 
  2. Hadoop Basis (Map Reduced-Based Basis) 

Dari ke-2 pendekatan teknologi itu ada ketidaksamaan yang cukup penting (dari sisi manfaat) serta ada kemiripan dalam sistem yang jalan didalamnya. Kemiripan dari dua teknologi itu yaitu keduanya sama memakai kurang lebih satu computer dalam melakukan sistem penarikan info maupun pemrosesan beragam info atau bahkan juga bisa tampak keduanya memakai rancangan cluster pada arsitektur teknologi yang dipakai. Pada intinya keduanya juga bisa diintegrasikan dengan baik manfaatnya sama-sama mensupport keduanya. 

High Performance Computing Clusters (HPCC) itu sendiri pada intinya dibangun sebagai satu super computer yang terbagi dalam kurang lebih satu computer dengan spesifikasi spesifik (umumnya sama) untuk sama-sama menolong, menyokong, atau membagi pekerjaan keduanya hingga berbarengan bisa lakukan processing pada satu data, terlebih dalam soal pencarian data. Sistem besar yang umumnya jalan sendiri yaitu seperti, Ekstrak, Transform, serta Load, lantas kemudian dikerjakan analisa untuk memperoleh info yang lebih sesuai sama kebuthan usaha organisasi itu. 

Infrastruktur Big Data itu Seperti Apa

Sedang Hadoop Berbasis sendiri adalah satu project teknologi yang di kembangkan oleh apache dalam mengelola data besar hingga tambah lebih efisien serta efektif. Dalam hadoop sendiri terbagi dalam beragam komponen, bahkan juga sampai hadoop sendiri mempunyai distributed file sistem sendiri yang disebut dengan (HDFS). Keunggulan dari dari HDFS itu sendiri yaitu : 


  • Fault tolerance, serta di-deploy untuk low biaya hardware 
  • Write Once, Read many, adalah koherensi simpel, serta ditambah lagi frame-work yang di bangun dalam hadoop saat kita bakal memakai hadoop, memakai teknologi java. 
  • Memindahkan komputasi/sistem lebih cepat dari memindahkan data. 
  • Serupa Google File Sistem, namun HDFS membagi file jadi block dalam cluster node yang terdistribusi. 
  • Core component : master vs slave, name node vs data node, job tracker vs task tracker. 

#3.  Arsitektur Hadoop dan Integrasi antara HPCC dan Hadoop

Berikut ini adalah gambaran dari hadoop Basis : 

Infrastruktur Big Data itu Seperti Apa


Dibawah ini merupakan satu diantara arsitektur integrasi pada HPCC serta Hadoop basis : 

Infrastruktur Big Data itu Seperti Apa


Pada saat itu ada ketidaksamaan System manajemen Basis Data, yang pada intinya basis data mempunyai korelasi antar data yag umumnya kita sebut dengan data yang telah terstruktur atau terorganisasi, serta piranti sistem manajemen basis datanya yang disebut piranti lunak yang bisa dipakai untuk mengelola basis data seperti MySQL, Oracle, PostgreSQL dan sebagainya. Ketika ini ada keperluan lain dari manajemen basis data karenanya ada big data atau jadi System Manajemen Big Data. Berikut yaitu pemicu mengapa ada keperluan Manajemen Big Data itu : 

#4.  DBMS Konvensional Tidak Cukup Untuk Big Data

Tak seluruhnya masalah pemrosesan data bisa dikerjakan lewat cara paling baik memakai traditional relational DBMS. 

DBMS konvensional kurang untuk big data lantaran :
  • Kecepatan akses (gosip volume) 
  • Kesederhanaan set up 
  • Keperluan representasi struktu/skema yang lebih longgar (gosip variety) 
  • Keperluan pengelolaan data yang tidak sama (ACID tak seutuhnya dibutuhkan), missal connectedness. 
  • Keperluan arsitektur terdistribusi (scale out). 


Hingga di bangun beragam piranti lunak yang bisa menangani keperluan itu tetapi masingmasing teknologi mempunyai karakteristik dalam sistem pemrosesan yang tidak sama, tersebut misalnya : 

Column Oriented

  • Big table (google), Hbase, Cassandra (Facebook)

Document Oriented

  • CouchDB, MongoDB

Graph-Oriented

  • Neo4j, Virtuoso

Key-value Oriented

  • DynamoDB (Amazon), Riak



#5.  Perbedaan DBMS Untuk Big Data

Dari sebagian contoh DBMS di atas itu tampak bahwa ada ketidaksamaan mendasar pada masing DBMS untuk big data itu yaitu pada tujuan dari masing-masing database management sistem. Umumnya sistem untuk manajemen basis data untuk Big Data yang dipakai yaitu NoSQL yang pada awalanya ditujukan oleh beberapa komune yg tidak suka pada pemakaikan SQL juga sebagai “tidak memakai SQL” tetapi saat ini lantaran kesadaran ternyta kita tak bias seutuhnya terlepas pada SQL itu, dirubah jadi “Not Only SQL” (NoSQL). NoSql itu adalah DBMS yang dijelaskan pada awal mulanya (4 point diatas). NoSQL mempunyai ketidaksamaan yaitu database yg tidak berelasi, lantaran tak ada keperluan connectedness yang telah dijelaskan pada awal mulanya, serta umumnya berbentuk terdistribusi serta scale out (dengan cara horizontal). Tidak ada skema spesial hingga lebih longgar pada skema, serta pemakaikan Application Programming Interface yang lebih simpel dalam pemakaian manipulasi atau processing data. Juga mengaplikasikan perinsip BASE, buka ACID. 

Yang paling populer sendiri untuk teknologi NoSQL itu yaitu Hadoop dengan map reducenya yang pada versus 1.0 serta 2.0 nya mempunyai ketidaksamaan yang cukup penting terlebih dalam jenis frameworknya, yang ke-2 yaitu Document Oriented yang mempunyai rencana hirarki dalam dokumen satu data, serta umumnya dokumen di enkapsulasi serta encoding dalam format standard XML, JSON, YAML, dan sebagainya. Sedang Graph oriented adalah DBMS yang memrepresentasikan jenis data graph, yang menunjukkan keterhubungan antar tiap-tiap data. 

Dalam sistem mining (datamining) karenanya ada big data itu sendiri cukup menguntungkan lantaran datamining memerlukan data yang banyak hingga membuahkan jenis yang tambah lebih general tetapi mempunyai akurasi yang tinggi. Tetapi karenanya ada big data itu sendiri datamining diwajibkan terima tantangan bagaimanakah lakukan datamining dengan taraf yang sangatlah besar serta terdistribusi dengan juga variety data yang sangatlah variatif. 

Hingga diinginkan dengan pemakaian infrastruktur teknologi dari Big Data yang pas manfaatnya dan bisa mensupport sistem usaha yang ada jadi tambah lebih baik terlebih dalam sistem pengambilan info, knowledge serta wisdom manfaat mensupport dalam pengambil keputusan disuatu organisasi spesifik baik ini keuntungan / profit ataupun non-profit, baik ini swasta ataupun pemerintah.