DATA WAREHOUSE : Data Lake / Big Data

(E-Learning Series)

TOPIK-2:

  • Skenario bisnis dalam praktik industri
  • Model area berbasis subjek (area industri/subject area model, model development process)
  • Model data berbasis area subjek: business model model development process

Pengertian data warehouse menurut para ahli :

  • Eckerson, Wayne W menyatakan bahwa data warehouse merupakan penempatan data yang sudah diuraikan yang berasal dari database operasional, eksternal serta database lain dari organisasi.
  • Malik, Shadan (2005), menyatakan bahwa data warehouse merupakan tempat penyimpanan data historikal yang diorganisasikan berdasarkan pada subyek untuk pengambilan keputusan pada organisasi. Data warehouse mem-fasilitasi pada kegiatan, antara lain Data Mining dan mendukung pengambilan keputusan.
  • Wikipedia: suatu sistem komputer untuk mengarsipkan dan menganalisis data historis suatu organisasi seperti data penjualan, gaji, dan informasi lain dari operasi harian. Pada umumnya suatu organisasi menyalin informasi dari sistem operasionalnya (seperti penjualan dan SDM) ke gudang data menurut jadwal teratur, misalnya setiap malam atau setiap akhir minggu. Setelah itu, manajemen dapat melakukan kueri kompleks dan analisis (contohnya data mining) terhadap informasi tersebut tanpa membebani sistem yang operasional.



Beberapa tahun terakhir, perkembangan teknologi Data Management sangat banyak berubah, terminologi Big Data diperkenalkan sebagai teknologi baru yang menjadi alternatif dari penggunaan teknologi Enterprise Data Warehouse tradisional yang saat ini sudah lebih baik dari segi kemampuannya untuk memenuhi kebutuhan bisnis.

  • Data Warehouse adalah pusat data yang terintegrasi dari beberapa sumber data, dimana penyimpanan data baru dan data historikal dilakukan pada satu tempat yang digunakan untuk laporan hasil analisis untuk organisasi. Data yang disimpan pada umum-nya akan membutuhkan data-cleansing untuk menjamin kualitas data yang akan digunakan sebagai laporan untuk data analisis.

  • Big Data adalah terminologi dari data yang sangat besar dan kompleks yang mempunyai kemampuan untuk melakukan proses data dari data yang sangat bervariasi dan dari berbagai sumber. Pada umum-nya data yang disimpan adalah data dalam bentuk data raw dan dilakukan process cleaning seperti yang dilakukan pada proses data warehouse.

Data warehousing (DWH) berkembang sebagai hasil perkembangan lebih lanjut dari system informasi sepanjang beberapa decade terakhir ini.

Beberapa kunci perkembangannya adalah sbb:

  • Perkembangan pada tekhnologi basis data, terutama perkembangan pada data relasional dan RDBMS (Relational Database Management System).
  • Perkembangan pada perangkat keras computer, terutama pada tempat penyimpanan yang berukuran besar serta arsitektur computer parallel.
  • Perkembangan pada cara pengguna menggunakan system, yang difasilitasi oleh antarmuka (interface) serta kakas-kakas (‘tool’) yang berdaya-guna dan intuitif.
  • Perkembangan lebih lanjut pada middeware yang memungkinkan basis data perusahaan saling terhubung melintasi berbagai platform yang berbeda-beda.
  • Beberapa tahun terakhir, perkembangan teknologi Data Management sangat banyak berubah, terminologi Big Data diperkenalkan sebagai teknologi baru yang menjadi alternatif dari penggunaan teknologi Enterprise Data Warehouse tradisional yang saat ini sudah lebih baik dari segi kemampuannya untuk memenuhi kebutuhan bisnis.

Trend

Data Warehouse telah memicu perubahan besar dalam perkembangan perangkat lunak seperti optimisasi queri, pengindekan tabel yang sangat besar, peningkatan kompresi data dan dimensional modeling.Pertanyaan utama yang harus dipersiapkan jawabannya adalah : Apakah yang harus anda lakukan untuk memperoleh keuntungan dari trend dalam Data Warehouse anda?

  1. Multiple Data Types
  • Ketika membangun iterasi pertama dari Data Warehouse, mungkin anda memasukkan data numerik. Namun segera anda akan menyadari bahwa pemasukan data numerik terstruktur tidaklah cukup. Persiapkan untuk mempertimbangkan tipe data yang lain.
  • Secara tradisional, struktur data perusahaan kebanyakan numerik di dalam Data Warehouse mereka. Dari sudut pandang ini maka DSS dapat dibagi menjadi 2 kelompok :
    • Data Warehousing yang berurusan dengan data terstruktur;
    • knowledge management yang melibatkan data tidak terstruktur.

Contoh : kebanyakan Data marketing terdiri data terstruktur yang bernilai numerik. Data marketing juga berisikan data tidak terstruktur dalam bentuk gambar.

Diumpamakan seorang pengambil keputusan sedang melakukan analisis untuk mencari tipe produk yang paling banyak terjual, setelah menemukan produk tersebut, pengambil keputusan ingin meihat gambar untuk membuat keputusan lebih jauh, bagaimana hal ini dapat diwujudkan? Perusahaan disini menyadari kebutuhan untuk mengintegrasikan baik data terstruktur dan tidak terstruktur di dalam Data Warehouse mereka.

a. Penambahan Data yang tidak terstruktur

  • Beberapa vendor memasukkan Data yang tidak terstruktur terutama sekali teks dan gambar dengan memeriksa data multimedia sebagaimana tipe data lainnya, yang didefinisikan sebagai bagian relasional data dan disimpan sebagai objek biner (BLOB) hingga ukuran 2GB.

b. Pencarian Data yang tidak terstruktur

  • Anda telah menambahkan Data Warehouse dengan menambahkan Data tidak terstruktur. Lalu apalagi yang harus dilakukan? Tentu saja tanpa kemampuan untuk mencari data yang tidak terstruktur, integrasi data akan tidak berarti. Vendor harus memberikan search engine untuk mencari informasi yang dibutuhkan user dari data yang tidak terstruktur. queri terhadap data gambar adalah contoh mekanisme pencarian gambar.

c. Data Spasial

Data Spasial akan meningkatkan nilai Data Warehouse anda. Alamat, blok jalan, kota, kabupaten, kelurahan dan kode pos adalah contoh Data Spasial.

  1. Visualisasi Data

Ketika seorang pengguna melakukan kueri dan berharap untuk melihat hasil hanya dalam bentuk daftar hasil atau spreadsheet, maka Data Warehouse anda sudah kadaluarsa. Anda harus bisa menampilkan hasil dalam bentuk chart dan grafik. Visualisasi data hasil memudahkan proses analisis bagi pengguna ketika pengguna mencari trend dari waktu ke waktu. Visualisasi data membantu pengguna untuk memahami kueri data dengan cepat dan mudah.

Tiga trend utama visualisasi data yang telah mengarahkan pembentukan perangkat lunak visualisasi data adalah :

  1. Type Grafik

2. Visualisasi interaktif, Grafik bersifat interaktif dimana pengguna dapat grafik yang dihasilkan, mengelolanya dan melihat tampilan terbarunya secara online.

3. Visualisasi Result set yang besar dan komplek. Perangkat lunak dengan visualisasi terbaru dapat memvisualisasikan ribuan poin hasil data terstruktur yang kompleks.

Tipe Visualisasi

Kebutuhan user saat ini beraneka ragam, user bisnis membutuhkan chart pie dan bar, user teknis dan saintis membutuhkan scatter plot dan constellation graph. Analis yang memperhatikan data spasial membutuhkan peta dan representasi tiga-dimensi lainnya. Eksekutif dan manajer yang harus memonitor matrik kinerja, seperti pedoman digital yang memungkinkan untuk visualisasi matrik seperti speedometer, termometer atau lampu lalu lintas.

Advance Visualization Techniques.

Kemajuan teknik visualisasi adalah transisi dari chart statis menjadi penyajian yang interaktif dan dinamis.

  1. Chart Manipulation, user dapat memutar chart atau secara dinamis dapat mengganti tipe chart untuk memperoleh hasil yang lebih diharapkan. Dengan tipe visualisasi yang komplek user dapat memilih sebuah titik data dengan mouse dan menggerakkan titik tersebut di sekitar view.

  2. Drill Down, pengguna dapat melihat visualisasi data dengan tingkat ketelitian dan lebih detil.

3. Advance Interaction. Teknik ini meminimumkan user interface yang kurang berguna. Pengguna dibuat langsung dapat men-double-click salah satubagian dari visualisasi dan men-drag dan drop representasi entitas data. Atau dibuat lebih sederhana lagi dimana user melakukan klik kanan dan menentukan pilihan dari sebuah menu.

c. Parallel Processing

i. Parallel Processing Hardware Options

ii. Parallel Processing Software Implementation

  1. ToolKueri

Pada Data Warehouse, seperangkat tool fungsional yang sangat utama adalah seperangkat tool kueri. Kesuksesan Data Warehouse anda bergantung pada tool kueri. Banyak vendor Data Warehouse telah meningkatkan kemampuan tool kueri. Fungsi-fungsi yang telah dikembangkan oleh vendor-vendor terkait tool kueri antara lain :

i. Flexible Presentation

ii. Aggregate Awareness

iii. Crossing Subject Areas

iv. Multiple Heterogeneous sources

v. Integrasi

vi. Mengatasi Keterbatasan SQL(Overcoming SQL Limitation), menggunakan SQL Extension

e. Tool Browser

  1. Data Fusion

Sebuah Data Warehouse adalah tempat dimana data dari banyak sumber data diintegrasikan untuk menyediakan tampilan yang menyatu pada skala enterprise. Data boleh jadi berasal dari berbagai macam sistem operasi yang berbeda platform atau mungkin di simpan dalam file flat ataupun DBMS. Dalam penyimpanan Data Warehouse dapat ditemukan juga banyak data yang tidak terstruktur seperti data berbentuk dokumen, gambar, audio dan video.

Berbagai macam data dari banyak sumber yang terpisah ini harus diintegrasikan atau difusikan dan disimpan dalam sebuah Data Warehouse.

  • Data Fusion
    adalah teknologi yang berhubungan dengan merger data dari sumber data yang berbeda, yang memiliki ruang lingkup luas dan memasukkan merjer data real-time dari suatu instrumen maupun sistem monitoring. Banyak penelitian spesifik yang dilakukan terkait teknologi Data Fusion. Prinsip dan teknik teknologi Data Fusion memiliki sebuah aplikasi langsung ke Data Warehouse.

  1. Multidimensional Analysis

Saat ini, seluruh lingkungan Data Warehouse menyediakan analisis multidimensional. Ini menjadi bagian integral dari sistem pengiriman informasi data Warehouse. Ketentuan analisis multidimensional bagi user secara sederhana berarti bahwa mereka akan dapat menganalisis ukuran bisnis dengan berbagai macam cara. Analisis Multidimensional juga bersinonim dengan Online Analytical Processing (OLAP).

  1. Agent Technology

Software Agent adalah sebuah program yang mampu menjalankan kegiatan pemrograman atas nama pengguna.

Contoh : internet, Software Agent dapat digunakan untuk melakukan sort atau filter email berdasarkan aturan-aturan yang didefinisikan pengguna.

Dalam Data Warehouse Software agent dapat digunakan untuk memberikan alert kepada pengguna mengenai kondisi bisnis yang telah terlebih dahulu didefinisikan. Beberapa vendor bahkan mengkhusukan pada tool sistem alert. Anda harus mempertimbangkan program software agent untuk Data Warehouse anda.

Trend Big Data dan Data Lake

Untuk merespon kebutuhan yang sulit dipenuhi oleh Data Warehouse, ada sebuah teknologi yang memiliki tools untuk menyimpan dan memproses data secara besar. Teknologi inovasi ini muncul dari beberapa perusahaan technologi seperti Twitter dan Facebook yang secara periodik meningkatkan kesadaran organisasi lain terkait hambatan akan data mereka.

Teknologi Big Data saat ini bukannya sesuatu sistem yang menyimpan banyak data, hal yang menarik adalah dengan semua data yang terkumpul dalam suatu sistem, pendekatan baru untuk menyelesaikan suatu masalah dapat diterapkan dengan berbagai cara dan aspek. Saat ini setiap organisasi mulai mendesain dan membangun suatu sistem yang secara objektif dibutuhkan oleh bisnis terhadap data-data yang sedang berjalan, bukan pada suatu sistem yang sudah terbentuk sejak awal.

Terminologi Big Data tidak lepas dari suatu konsep data repositori “Data Lake”

Konsep Data lake pertama kali dikemukan oleh James Dixon (CTO Pentaho), sebuah konsep yang sangat kontras dengan terminologi “Data Mart” yang ada pada Data Warehouse.

James Dixon berpendapat bawah Data Mart mempunyai beberapa masalah yang dapat terjadi, dan Data Lake menjadi suatu solusi yang dia kembangkan. Secara umum Data Lake adalah kumpulan dari berbagai macam data yang disimpan sama persis dengan data asli.


Batasan Pada Traditional Enterprise Data Warehouse

Masalah fundamental pada tradisional EDW adalah tidak dapat memenuhi atau memecahkan masalah yang dibutuhkan oleh pengguna IT maupun Bisnis. Pada EDW, data konsumen harus disesuaikan sehingga dapat digunakan untuk analisis.

Analisis tersebut dapat memecahkan suatu masalah dengan cara hanya mengintegrasi data dan proses bisnis kedalam program EDW. Pada sisi yang lain desain dan teknologi EDC tidak dapat memecahkan masalah seperti data analisis semi-structured, real-time streaming analytics, search dan discovery yang dimana data EDW hanya menggunakan teknologi relational database.

Pendekatan

Berikut adalah beberapa gambaran perbedaan pendekatan Traditional Data Warehouse dan Data Lake.


Gambar : Pendekatan Tradisional Data Warehouse

Perbedaan


Pilihan:

Data Warehouse (EDW) atau Big Data??
Ini merupakan pertanyaan yang sulit, jika suatu organisasi sudah mempunyai teknologi Data Warehouse, sangat tidak mungkin membuang EDW dan memulai dari awal untuk menerapkan teknologi Big Data atau Data Lake.

Walaupun dengan menerapkan teknologi EDW dalam jangka panjang akan menghadapi beberapa permasalahan yang telah disebutkan diatas, namun teknologi Big Data atau Data Lake dapat diterapkan bersamaan dan saling berintegrasi antara EDW dan Data Lake.

Dengan seiring berjalannya waktu, EDW dapat dipindahkan sepenuh-nya ke dalam teknologi Data Lake atau anda dapat menerapkan kedua teknologi ini secara hybrid untuk selamanya. EDW dan Data Lake tidak akan saling menggantikan karena dilihat dari kebutuhan masing masing organisasi akan sangat berbeda. Konsep EDW dan Data Lake tidak akan saling menggantikan dan tidak dapat disamakan karena mempunyai karakteristik masing masing sesuai dengan tujuan sistem yang dikembangkan.

Arsitektur

Bagi Organisasi yang sudah mempunyai EDW atau Big Data, Data Lake merupakan suatu solusi untuk memodernisasi Data Warehouse yang berfungsi khusus untuk melakukan search and discovery data yang tidak disimpan oleh Data Warehouse seperti Semi-structured data, un-structured data maupun raw data.

Bagi Oranisasi yang belum memiliki EDW, sangat disarankan untuk melakukan pertimbangan untuk menerapkan dengan Data Lake yang mempunyai kemampuan seperti EDW dimana data yang disimpan adalah data yang valid dan dapat di percaya.


Gambar Integrasi Big Data (Hadoop) Dan Data Warehouse