Ketika perusahaan menghasilkan lebih banyak data, pendekatan tradisional untuk pergudangan data menjadi semakin sulit dan mahal untuk dipertahankan. Data Vault, pendekatan yang relatif baru untuk pergudangan data, menawarkan solusi untuk masalah ini dengan menyediakan cara yang dapat diskalakan, gesit, dan hemat biaya untuk mengelola volume data yang besar.
Dalam posting ini, kita akan mengeksplorasi bagaimana Gudang Data adalah masa depan pergudangan data dan mengapa semakin banyak perusahaan mengadopsi pendekatan ini. Kami juga akan menyediakan sumber belajar bagi mereka yang ingin mendalami topik ini lebih dalam!
Apa itu Gudang Data?
Data Vault adalah teknik pemodelan gudang data yang sangat cocok untuk gudang data yang gesit. Ini menawarkan tingkat fleksibilitas yang tinggi untuk ekstensi, historisisasi data unit-temporal yang lengkap, dan memungkinkan paralelisasi yang kuat dari proses pemuatan data. Dan Linstedt mengembangkan pemodelan Data Vault pada 1990-an.
Setelah publikasi pertama pada tahun 2000, ia mendapatkan perhatian yang lebih besar pada tahun 2002 melalui serangkaian artikel. Pada tahun 2007, Linstedt memenangkan dukungan dari Bill Inmon, yang menggambarkannya sebagai “pilihan optimal” untuk arsitektur Data Vault 2.0 miliknya.
Siapa pun yang berurusan dengan istilah agile data warehouse akan segera berakhir dengan Data Vault. Keistimewaan teknologi ini adalah bahwa teknologi ini berfokus pada kebutuhan perusahaan karena memungkinkan penyesuaian gudang data yang fleksibel dan mudah dilakukan.
Data Vault 2.0 mempertimbangkan seluruh proses pengembangan dan arsitektur dan terdiri dari komponen metode (implementasi), arsitektur, dan model. Keuntungannya adalah pendekatan ini mempertimbangkan semua aspek intelijen bisnis dengan gudang data yang mendasarinya selama pengembangan.
Model Data Vault menawarkan solusi modern untuk mengatasi keterbatasan pendekatan pemodelan data tradisional. Dengan skalabilitas, fleksibilitas, dan kelincahannya, ini memberikan dasar yang kokoh untuk membangun platform data yang dapat mengakomodasi kompleksitas dan keragaman lingkungan data modern.
Arsitektur hub-and-spoke dan pemisahan entitas dan atribut Data Vault memungkinkan integrasi dan harmonisasi data di berbagai sistem dan domain, memfasilitasi pengembangan bertahap dan tangkas.
Peran penting Gudang Data dalam membangun platform data adalah menetapkan satu sumber kebenaran untuk semua data. Tampilan data yang terpadu dan dukungan untuk menangkap dan melacak perubahan data historis melalui tabel satelit memungkinkan kepatuhan, audit, persyaratan peraturan, serta analisis dan pelaporan yang komprehensif.
Kemampuan integrasi data hampir real-time Data Vault melalui pemuatan delta memfasilitasi penanganan volume data yang besar di lingkungan yang cepat berubah seperti Big Data dan aplikasi IoT.
Gudang Data vs. Model Gudang Data Tradisional
Third-Normal-Form (3NF) adalah salah satu model gudang data tradisional yang paling terkenal, sering disukai dalam banyak implementasi besar. Kebetulan, ini sesuai dengan ide Bill Inmon, salah satu “nenek moyang” dari konsep gudang data.
Arsitektur Inmon didasarkan pada model basis data relasional dan menghilangkan redundansi data dengan memecah sumber data menjadi tabel yang lebih kecil yang disimpan di data mart dan saling berhubungan menggunakan kunci primer dan kunci asing. Ini memastikan bahwa data konsisten dan akurat dengan menerapkan aturan integritas referensial.
Tujuan dari bentuk normal adalah untuk membangun model data perusahaan yang komprehensif untuk gudang data inti; namun, ia memiliki masalah skalabilitas dan fleksibilitas karena data mart yang sangat berpasangan, kesulitan memuat dalam mode hampir waktu nyata, permintaan yang melelahkan, dan desain top-down, serta implementasi.
Model Kimbal, digunakan untuk OLAP (pemrosesan analitik online) dan data mart, adalah model gudang data terkenal lainnya di mana tabel fakta berisi data agregat dan tabel dimensi menggambarkan data yang disimpan dalam skema skema bintang atau desain skema kepingan salju. Dalam arsitektur ini, data disusun menjadi tabel fakta dan dimensi yang didenormalisasi untuk menyederhanakan kueri dan analisis.
Kimbal didasarkan pada model dimensi yang dioptimalkan untuk kueri dan pelaporan, menjadikannya ideal untuk aplikasi intelijen bisnis. Namun, ia memiliki masalah dengan isolasi informasi berorientasi subjek, redundansi data, struktur kueri yang tidak kompatibel, kesulitan skalabilitas, granularitas tabel fakta yang tidak konsisten, masalah sinkronisasi, dan kebutuhan desain top-down dengan implementasi bottom-up.
Sebaliknya, arsitektur Gudang data adalah pendekatan hibrid yang menggabungkan aspek arsitektur 3NF dan Kimball. Ini adalah model berdasarkan prinsip relasional, normalisasi data, dan matematika redundansi yang merepresentasikan hubungan antar entitas secara berbeda dan menyusun bidang tabel dan stempel waktu secara berbeda.
Dalam arsitektur ini, semua data disimpan dalam gudang data mentah atau danau data, sedangkan data yang biasa digunakan disimpan dalam format yang dinormalisasi dalam brankas bisnis yang berisi data historis dan konteks khusus yang dapat digunakan untuk pelaporan.
Gudang Data mengatasi masalah dalam model tradisional dengan menjadi lebih efisien, dapat diskalakan, dan fleksibel. Ini memungkinkan pemuatan hampir real-time, integritas data yang lebih baik, dan perluasan yang mudah tanpa memengaruhi struktur yang ada. Model juga dapat diperluas tanpa memigrasikan tabel yang ada.
Pendekatan PemodelanStruktur DataPendekatan DesainPemodelan 3NFTabel dalam 3NFBottom-upKimbal ModelingStar Schema atau Snowflake SchemaTop-downData VaultHub-and-SpokeBottom-up
Arsitektur Gudang Data
Data Vault memiliki arsitektur hub-and-spoke dan pada dasarnya terdiri dari tiga lapisan:
Staging Layer: Mengumpulkan data mentah dari sistem sumber, seperti CRM atau ERP
Lapisan Gudang Data: Saat dimodelkan sebagai model Gudang Data, lapisan ini mencakup:
- Vault Data Mentah: menyimpan data mentah.
- Gudang Data Bisnis: mencakup data yang diselaraskan dan diubah berdasarkan aturan bisnis (opsional).
- Gudang Metrik: menyimpan informasi waktu proses (opsional).
- Gudang Operasional: menyimpan data yang mengalir langsung dari sistem operasional ke gudang data (opsional.)
Lapisan Data Mart: Lapisan ini memodelkan data sebagai skema bintang dan/atau teknik pemodelan lainnya. Ini memberikan informasi untuk analisis dan pelaporan.
Sumber Gambar: Lamia Yessad
Gudang Data tidak memerlukan arsitektur ulang. Fungsi baru dapat dibangun secara paralel langsung menggunakan konsep dan metode Data Vault, dan komponen yang ada tidak hilang. Kerangka kerja dapat membuat pekerjaan jauh lebih mudah: kerangka kerja membuat lapisan antara gudang data dan pengembang sehingga mengurangi kerumitan implementasi.
Komponen Gudang Data
Selama pemodelan, Gudang Data membagi semua informasi milik objek menjadi tiga kategori – berbeda dengan pemodelan bentuk normal ketiga klasik. Informasi ini kemudian disimpan secara ketat terpisah satu sama lain. Area fungsional dapat dipetakan di Gudang Data di apa yang disebut hub, tautan, dan satelit:
#1. Hub
Hub adalah jantung dari konsep bisnis inti, seperti pelanggan, penjual, penjualan, atau produk. Tabel hub dibentuk di sekitar kunci bisnis (nama toko atau lokasi) saat contoh baru dari kunci bisnis tersebut pertama kali diperkenalkan ke gudang data.
Hub tidak berisi informasi deskriptif dan tidak ada FK. Ini hanya terdiri dari kunci bisnis, dengan urutan ID atau kunci hash yang dihasilkan gudang, stempel tanggal/waktu muat, dan sumber rekaman.
#2. Tautan
Tautan membangun hubungan antara kunci bisnis. Setiap entri dalam tautan memodelkan hubungan nm dari sejumlah hub. Ini memungkinkan gudang data untuk bereaksi secara fleksibel terhadap perubahan dalam logika bisnis sistem sumber, seperti perubahan dalam keramahan hubungan. Sama seperti hub, tautan tidak berisi informasi deskriptif apa pun. Ini terdiri dari ID urutan hub yang direferensikan, ID urutan yang dihasilkan gudang, stempel tanggal/waktu muat, dan sumber rekaman.
#3. Satelit
Satelit berisi informasi deskriptif (konteks) untuk kunci bisnis yang disimpan di hub atau hubungan yang disimpan di tautan. Satelit bekerja “hanya memasukkan”, artinya riwayat data lengkap disimpan di satelit. Beberapa satelit dapat mendeskripsikan satu kunci bisnis (atau hubungan). Namun, satelit hanya dapat menggambarkan satu kunci (hub atau tautan).
Sumber Gambar: Carbidfischer
Cara membuat Model Gudang Data
Membangun model Data Vault melibatkan beberapa langkah, yang masing-masing sangat penting untuk memastikan model dapat diskalakan, fleksibel, dan mampu memenuhi kebutuhan bisnis:
#1. Mengidentifikasi Entitas dan Atribut
Mengidentifikasi entitas bisnis dan atribut yang sesuai. Ini melibatkan kerja sama yang erat dengan pemangku kepentingan bisnis untuk memahami persyaratan mereka dan data yang perlu mereka tangkap. Setelah entitas dan atribut ini diidentifikasi, pisahkan menjadi hub, tautan, dan satelit.
#2. Tentukan Hubungan Entitas dan Buat Tautan
Setelah Anda mengidentifikasi entitas dan atribut, hubungan antar entitas ditentukan, dan tautan dibuat untuk mewakili hubungan ini. Setiap tautan diberi kunci bisnis yang mengidentifikasi hubungan antara entitas. Satelit kemudian ditambahkan untuk menangkap atribut dan hubungan entitas.
#3. Tetapkan Aturan dan Standar
Setelah membuat tautan, seperangkat aturan dan standar pemodelan gudang data harus ditetapkan untuk memastikan model tersebut fleksibel dan dapat menangani perubahan dari waktu ke waktu. Aturan dan standar ini harus ditinjau dan diperbarui secara berkala untuk memastikannya tetap relevan dan selaras dengan kebutuhan bisnis.
#4. Mengisi Model
Setelah model dibuat, model tersebut harus diisi dengan data menggunakan pendekatan pemuatan tambahan. Ini melibatkan pemuatan data ke hub, tautan, dan satelit menggunakan beban delta. Delta memuat untuk memastikan bahwa hanya perubahan yang dilakukan pada data yang dimuat, mengurangi waktu dan sumber daya yang diperlukan untuk integrasi data.
#5. Uji dan Validasi Model
Terakhir, model harus diuji dan divalidasi untuk memastikannya memenuhi persyaratan bisnis dan dapat diskalakan serta cukup fleksibel untuk menangani perubahan di masa mendatang. Pemeliharaan dan pembaruan rutin harus dilakukan untuk memastikan model tetap selaras dengan kebutuhan bisnis dan terus memberikan tampilan data yang terpadu.
Sumber Belajar Vault Data
Menguasai Data Vault dapat memberikan keterampilan dan pengetahuan berharga yang sangat dicari di industri berbasis data saat ini. Berikut adalah daftar lengkap sumber daya, termasuk kursus dan buku, yang dapat membantu mempelajari seluk-beluk Data Vault:
#1. Pemodelan Data Warehouse dengan Data Vault 2.0
Kursus Udemy ini adalah pengantar komprehensif untuk pendekatan pemodelan Data Vault 2.0, manajemen proyek Agile, dan integrasi Big Data. Kursus ini mencakup dasar-dasar dan dasar Data Vault 2.0, termasuk arsitektur dan lapisannya, brankas bisnis dan informasi, serta teknik pemodelan tingkat lanjut.
Ini mengajarkan Anda cara mendesain model Gudang Data dari awal, mengonversi model tradisional seperti 3NF dan model dimensi ke Gudang Data, dan memahami prinsip pemodelan dimensi di Gudang Data. Kursus ini membutuhkan pengetahuan dasar tentang database dan dasar-dasar SQL.
Dengan peringkat tinggi 4,4 dari 5 dan lebih dari 1.700 ulasan, kursus terlaris ini cocok untuk siapa saja yang ingin membangun fondasi yang kuat dalam integrasi Data Vault 2.0 dan Big Data.
#2. Pemodelan Data Vault Dijelaskan Dengan Kasus Penggunaan
Kursus Udemy ini ditujukan untuk memandu Anda membuat Model Data Vault menggunakan contoh bisnis praktis. Ini berfungsi sebagai panduan pemula untuk Pemodelan Gudang Data, yang mencakup konsep utama seperti skenario yang sesuai untuk menggunakan model Gudang Data, keterbatasan Pemodelan OLAP konvensional, dan pendekatan sistematis untuk membuat Model Gudang Data. Kursus ini dapat diakses oleh individu dengan pengetahuan database minimal.
#3. Data Vault Guru: panduan pragmatis
Data Vault Guru oleh Tn. Patrick Cuba adalah panduan komprehensif untuk metodologi gudang data, yang menawarkan peluang unik untuk memodelkan gudang data perusahaan menggunakan prinsip otomasi yang serupa dengan yang digunakan dalam pengiriman perangkat lunak.
Buku ini memberikan ikhtisar arsitektur modern dan kemudian menawarkan panduan menyeluruh tentang cara memberikan model data fleksibel yang beradaptasi dengan perubahan dalam perusahaan, gudang data.
Selain itu, buku ini memperluas metodologi gudang data dengan menyediakan koreksi garis waktu otomatis, jejak audit, kontrol metadata, dan integrasi dengan alat pengiriman yang gesit.
#4. Membangun Gudang Data Skalabel dengan Data Vault 2.0
Buku ini memberi pembaca panduan komprehensif untuk membuat gudang data yang dapat diskalakan dari awal hingga akhir menggunakan metodologi Data Vault 2.0.
Buku ini mencakup semua aspek penting dalam membangun gudang data yang dapat diskalakan, termasuk teknik pemodelan Data Vault, yang dirancang untuk mencegah kegagalan gudang data biasa.
Buku ini menampilkan banyak contoh untuk membantu pembaca memahami konsep dengan jelas. Dengan wawasan praktis dan contoh dunia nyata, buku ini merupakan sumber penting bagi siapa pun yang tertarik dengan pergudangan data.
#5. Gajah di Kulkas: Langkah Terpandu untuk Sukses Data Vault
The Elephant in the Fridge oleh John Giles adalah buku panduan praktis yang bertujuan untuk membantu pembaca mencapai kesuksesan Data Vault dengan memulai bisnis dan mengakhiri bisnis.
Buku ini berfokus pada pentingnya ontologi perusahaan dan pemodelan konsep bisnis serta memberikan panduan langkah demi langkah tentang cara menerapkan konsep ini untuk membuat model data yang solid.
Melalui saran praktis dan contoh pola, penulis menawarkan penjelasan yang jelas dan tidak rumit tentang topik yang rumit, menjadikan buku ini panduan yang sangat baik bagi mereka yang baru mengenal Data Vault.
Kata Akhir
Data Vault mewakili masa depan pergudangan data, menawarkan keuntungan signifikan bagi perusahaan dalam hal kelincahan, skalabilitas, dan efisiensi. Ini sangat cocok untuk bisnis yang perlu memuat data dalam jumlah besar dengan cepat dan mereka yang ingin mengembangkan aplikasi intelijen bisnis dengan cara yang gesit.
Selain itu, perusahaan yang memiliki arsitektur silo bisa mendapatkan keuntungan besar dari implementasi gudang data inti hulu menggunakan Data Vault.
Anda mungkin juga tertarik mempelajari tentang silsilah data.