Pembelajaran ensemble dapat membantu Anda membuat keputusan yang lebih baik dan menyelesaikan banyak tantangan kehidupan nyata dengan menggabungkan keputusan dari beberapa model.
Machine learning (ML) terus melebarkan sayapnya di berbagai sektor dan industri, baik itu keuangan, kedokteran, pengembangan aplikasi, atau keamanan.
Melatih model ML dengan benar akan membantu Anda mencapai kesuksesan yang lebih besar dalam bisnis atau peran pekerjaan Anda, dan ada berbagai metode untuk mencapainya.
Pada artikel ini, saya akan membahas pembelajaran ansambel, kepentingannya, kasus penggunaan, dan tekniknya.
Pantau terus!
Apa itu Pembelajaran Ensemble?
Dalam pembelajaran mesin dan statistik, “ensemble” mengacu pada metode yang menghasilkan berbagai hipotesis saat menggunakan pelajar basis umum.
Dan pembelajaran ansambel adalah pendekatan pembelajaran mesin di mana banyak model (seperti pakar atau pengklasifikasi) dibuat dan digabungkan secara strategis dengan tujuan memecahkan masalah komputasi atau membuat prediksi yang lebih baik.
Pendekatan ini berupaya meningkatkan prediksi, perkiraan fungsi, klasifikasi, dll., kinerja model yang diberikan. Ini juga digunakan untuk menghilangkan kemungkinan Anda memilih model yang buruk atau kurang berharga dari banyak model. Untuk mencapai kinerja prediktif yang lebih baik, beberapa algoritma pembelajaran digunakan.
Pentingnya Pembelajaran Ensemble di ML
Dalam model pembelajaran mesin, ada beberapa sumber seperti bias, varians, dan noise yang dapat menyebabkan kesalahan. Pembelajaran ensemble dapat membantu mengurangi sumber penyebab kesalahan ini dan memastikan stabilitas dan keakuratan algoritme ML Anda.
Inilah mengapa pembelajaran ansambel digunakan dalam berbagai skenario:
Memilih Pengklasifikasi yang Tepat
Pembelajaran ansambel membantu Anda memilih model atau pengklasifikasi yang lebih baik sekaligus mengurangi risiko yang mungkin timbul karena pemilihan model yang buruk.
Ada berbagai jenis pengklasifikasi yang digunakan untuk masalah yang berbeda, seperti mesin vektor dukungan (SVM), multilayer perceptron (MLP), pengklasifikasi naif Bayes, pohon keputusan, dll. Selain itu, ada berbagai realisasi algoritma klasifikasi yang perlu Anda pilih . Kinerja data pelatihan yang berbeda juga bisa berbeda.
Namun daripada memilih hanya satu model, jika Anda menggunakan ansambel dari semua model ini dan menggabungkan output masing-masing, Anda dapat menghindari pemilihan model yang lebih buruk.
Volume data
Banyak metode dan model ML yang hasilnya tidak begitu efektif jika Anda memberi mereka data yang tidak memadai atau volume data yang besar.
Di sisi lain, pembelajaran ansambel dapat berfungsi dalam kedua skenario, meskipun volume datanya terlalu sedikit atau terlalu banyak.
- Jika ada data yang tidak memadai, Anda dapat menggunakan bootstrap untuk melatih berbagai pengklasifikasi dengan bantuan sampel data bootstrap yang berbeda.
- Jika ada volume data yang besar yang dapat membuat pelatihan dari pengklasifikasi tunggal menantang, maka data dapat dipartisi secara strategis menjadi subset yang lebih kecil.
Kompleksitas
Pengklasifikasi tunggal mungkin tidak dapat memecahkan beberapa masalah yang sangat kompleks. Batas keputusan mereka memisahkan data dari berbagai kelas mungkin sangat kompleks. Jadi, jika Anda menerapkan pengklasifikasi linier ke batas kompleks non-linier, ia tidak akan dapat mempelajarinya.
Namun, setelah menggabungkan ansambel pengklasifikasi linier yang sesuai dengan benar, Anda dapat membuatnya mempelajari batas nonlinier tertentu. Pengklasifikasi akan membagi data menjadi banyak partisi yang mudah dipelajari dan lebih kecil, dan setiap pengklasifikasi hanya akan mempelajari satu partisi yang lebih sederhana. Selanjutnya, pengklasifikasi yang berbeda akan digabungkan untuk menghasilkan kira-kira. batas keputusan.
Estimasi Keyakinan
Dalam pembelajaran ansambel, mosi percaya diberikan pada keputusan yang telah dibuat oleh sistem. Misalkan Anda memiliki ansambel dari berbagai pengklasifikasi yang dilatih untuk masalah tertentu. Jika mayoritas pengklasifikasi setuju dengan keputusan yang dibuat, hasilnya dapat dianggap sebagai ansambel dengan keputusan berkeyakinan tinggi.
Di sisi lain, jika setengah dari pengklasifikasi tidak setuju dengan keputusan yang dibuat, itu dikatakan sebagai ansambel dengan keputusan dengan tingkat kepercayaan rendah.
Namun, kepercayaan rendah atau tinggi tidak selalu merupakan keputusan yang tepat. Tetapi ada kemungkinan besar keputusan dengan keyakinan tinggi akan benar jika ansambel dilatih dengan benar.
Akurasi dengan Data Fusion
Data yang dikumpulkan dari berbagai sumber, bila digabungkan secara strategis, dapat meningkatkan akurasi keputusan klasifikasi. Akurasi ini lebih tinggi daripada yang dibuat dengan bantuan satu sumber data.
Bagaimana Cara Kerja Pembelajaran Ensemble?
Pembelajaran ensemble mengambil beberapa fungsi pemetaan yang telah dipelajari oleh pengklasifikasi berbeda dan kemudian menggabungkannya untuk membuat fungsi pemetaan tunggal.
Berikut adalah contoh cara kerja pembelajaran ansambel.
Contoh: Anda membuat aplikasi berbasis makanan untuk pengguna akhir. Untuk menawarkan pengalaman pengguna berkualitas tinggi, Anda ingin mengumpulkan umpan balik mereka terkait masalah yang mereka hadapi, celah yang menonjol, kesalahan, bug, dll.
Untuk itu, Anda bisa menanyakan pendapat keluarga, teman, rekan kerja, dan orang lain yang sering Anda ajak berkomunikasi terkait pilihan makanan dan pengalaman mereka memesan makanan secara online. Anda juga dapat merilis aplikasi dalam versi beta untuk mengumpulkan umpan balik waktu nyata tanpa bias atau noise.
Jadi, yang sebenarnya Anda lakukan di sini adalah mempertimbangkan banyak ide dan pendapat dari orang yang berbeda untuk membantu meningkatkan pengalaman pengguna.
Ensemble learning dan modelnya bekerja dengan cara yang sama. Ini menggunakan seperangkat model dan menggabungkannya untuk menghasilkan hasil akhir untuk meningkatkan akurasi dan kinerja prediksi.
Teknik Dasar Pembelajaran Ensemble
#1. Mode
“Mode” adalah nilai yang muncul dalam kumpulan data. Dalam pembelajaran ansambel, profesional ML menggunakan beberapa model untuk membuat prediksi tentang setiap titik data. Prediksi ini dianggap sebagai suara individu dan prediksi yang dibuat sebagian besar model dianggap sebagai prediksi akhir. Ini sebagian besar digunakan dalam masalah klasifikasi.
Contoh: Empat orang memberi nilai aplikasi Anda 4 sementara salah satu dari mereka memberi nilai 3, maka modenya adalah 4 karena mayoritas memilih 4.
#2. Rata-rata/Rata-Rata
Dengan menggunakan teknik ini, para profesional memperhitungkan semua prediksi model dan menghitung rata-ratanya untuk menghasilkan prediksi akhir. Ini sebagian besar digunakan dalam membuat prediksi untuk masalah regresi, menghitung probabilitas dalam masalah klasifikasi, dan banyak lagi.
Contoh: Dalam contoh di atas, ketika empat orang memberi nilai aplikasi Anda 4 sementara satu orang memberi nilai 3, rata-ratanya adalah (4+4+4+4+3)/5=3,8
#3. Rata-rata Tertimbang
Dalam metode pembelajaran ansambel ini, para profesional mengalokasikan bobot yang berbeda ke model yang berbeda untuk membuat prediksi. Di sini, bobot yang dialokasikan menggambarkan relevansi masing-masing model.
Contoh: Misalkan 5 orang memberikan umpan balik pada aplikasi Anda. Dari mereka, 3 adalah pengembang aplikasi, sedangkan 2 tidak memiliki pengalaman pengembangan aplikasi. Jadi, umpan balik dari 3 orang itu akan diberi bobot lebih dari 2 orang lainnya.
Teknik Pembelajaran Ensemble Tingkat Lanjut
#1. Mengantongi
Bagging (Bootstrap AGGregatING) adalah teknik pembelajaran ansambel yang sangat intuitif dan sederhana dengan kinerja yang baik. Seperti namanya, itu dibuat dengan menggabungkan dua istilah “Bootstrap” dan “agregasi”.
Bootstrap adalah metode pengambilan sampel lain di mana Anda perlu membuat himpunan bagian dari beberapa pengamatan yang diambil dari kumpulan data asli dengan penggantian. Di sini, ukuran subset akan sama dengan ukuran kumpulan data asli.
Sumber: Pemrogram buggy
Jadi, dalam pengantongan, himpunan bagian atau kantong digunakan untuk memahami distribusi himpunan lengkap. Namun, himpunan bagian bisa lebih kecil dari kumpulan data asli di bagging. Metode ini melibatkan algoritma ML tunggal. Tujuan menggabungkan hasil model yang berbeda adalah untuk mendapatkan hasil umum.
Inilah cara kerja mengantongi:
- Beberapa himpunan bagian dihasilkan dari himpunan asli dan pengamatan dipilih dengan penggantian. Subset digunakan dalam pelatihan model atau pohon keputusan.
- Model lemah atau dasar dibuat untuk setiap subset. Model akan independen satu sama lain dan berjalan secara paralel.
- Prediksi akhir akan dibuat dengan menggabungkan setiap prediksi dari setiap model menggunakan statistik seperti averaging, voting, dll.
Algoritma populer yang digunakan dalam teknik ansambel ini adalah:
- Hutan acak
- Pohon keputusan yang dikantongi
Keuntungan dari metode ini adalah membantu meminimalkan kesalahan varians di pohon keputusan.
#2. Penumpukan
Sumber Gambar: OpenGenus IQ
Dalam generalisasi bertumpuk atau bertumpuk, prediksi dari model yang berbeda, seperti pohon keputusan, digunakan untuk membuat model baru guna membuat prediksi pada set pengujian ini.
Penumpukan melibatkan pembuatan subset data bootstrap untuk model pelatihan, mirip dengan mengantongi. Tapi di sini, output model diambil sebagai input untuk dimasukkan ke classifier lain, yang dikenal sebagai meta-classifier untuk prediksi akhir dari sampel.
Alasan mengapa dua lapisan pengklasifikasi digunakan adalah untuk menentukan apakah kumpulan data pelatihan dipelajari dengan tepat. Meskipun pendekatan dua lapis adalah umum, lebih banyak lapisan juga dapat digunakan.
Misalnya, Anda dapat menggunakan 3-5 model di lapisan pertama atau level-1 dan satu model di lapisan 2 atau level 2. Model terakhir akan menggabungkan prediksi yang diperoleh di level 1 untuk membuat prediksi akhir.
Selain itu, Anda dapat menggunakan model pembelajaran ML apa pun untuk menggabungkan prediksi; model linier seperti regresi linier, regresi logistik, dll., adalah hal biasa.
Algoritme ML populer yang digunakan dalam penumpukan adalah:
- Memadukan
- Ansambel super
- Model bertumpuk
Catatan: Blending menggunakan set validasi atau holdout dari dataset pelatihan untuk membuat prediksi. Tidak seperti stacking, blending melibatkan prediksi yang dibuat hanya dari holdout.
#3. Meningkatkan
Boosting adalah metode pembelajaran ansambel iteratif yang menyesuaikan bobot pengamatan tertentu tergantung pada klasifikasi terakhir atau sebelumnya. Ini berarti setiap model selanjutnya bertujuan untuk memperbaiki kesalahan yang ditemukan pada model sebelumnya.
Jika observasi tidak diklasifikasikan dengan benar, maka boosting menambah bobot observasi.
Dalam meningkatkan, para profesional melatih algoritme pertama untuk meningkatkan pada kumpulan data lengkap. Selanjutnya, mereka membangun algoritme ML selanjutnya dengan menggunakan residu yang diekstrak dari algoritme boosting sebelumnya. Dengan demikian, lebih banyak bobot diberikan pada pengamatan yang salah yang diprediksi oleh model sebelumnya.
Begini cara kerjanya secara bertahap:
- Sebuah subset akan dihasilkan dari kumpulan data asli. Setiap titik data akan memiliki bobot yang sama pada awalnya.
- Membuat model dasar terjadi pada subset.
- Prediksi akan dilakukan pada dataset lengkap.
- Menggunakan nilai aktual dan prediksi, kesalahan akan dihitung.
- Pengamatan yang diprediksi salah akan diberi bobot lebih
- Model baru akan dibuat dan prediksi akhir akan dibuat pada kumpulan data ini, sementara model mencoba memperbaiki kesalahan yang dibuat sebelumnya. Beberapa model akan dibuat dengan cara yang sama, masing-masing mengoreksi kesalahan sebelumnya
- Prediksi akhir akan dibuat dari model akhir, yang merupakan rata-rata tertimbang dari semua model.
Algoritma boosting yang populer adalah:
- CatBoost
- GBM ringan
- AdaBoost
Manfaat dari peningkatan adalah menghasilkan prediksi yang unggul dan mengurangi kesalahan karena bias.
Teknik Ensemble Lainnya
Campuran Pakar: ini digunakan untuk melatih banyak pengklasifikasi, dan hasilnya digabungkan dengan aturan linier umum. Di sini, bobot yang diberikan pada kombinasi ditentukan oleh model yang dapat dilatih.
Pemungutan suara mayoritas: ini melibatkan pemilihan pengklasifikasi ganjil, dan prediksi dihitung untuk setiap sampel. Kelas yang menerima kelas maksimum dari kumpulan pengklasifikasi akan menjadi kelas yang diprediksi dari ansambel. Ini digunakan untuk memecahkan masalah seperti klasifikasi biner.
Aturan Maks: ini menggunakan distribusi probabilitas dari setiap pengklasifikasi dan menggunakan keyakinan dalam membuat prediksi. Ini digunakan untuk masalah klasifikasi multi-kelas.
Kasus Penggunaan Pembelajaran Ensemble dalam Kehidupan Nyata
#1. Deteksi wajah dan emosi
Pembelajaran ensemble menggunakan teknik seperti analisis komponen independen (ICA) untuk melakukan deteksi wajah.
Selain itu, pembelajaran ensemble digunakan dalam mendeteksi emosi seseorang melalui deteksi ucapan. Selain itu, kemampuannya membantu pengguna melakukan deteksi emosi wajah.
#2. Keamanan
Deteksi penipuan: Pembelajaran Ensemble membantu meningkatkan kekuatan pemodelan perilaku normal. Inilah sebabnya mengapa dianggap efisien dalam mendeteksi aktivitas penipuan, misalnya, dalam sistem kartu kredit dan perbankan, penipuan telekomunikasi, pencucian uang, dll.
DDoS: Distributed denial of service (DDoS) adalah serangan mematikan pada ISP. Pengklasifikasi ansambel dapat mengurangi deteksi kesalahan dan juga membedakan serangan dari lalu lintas asli.
Deteksi intrusi: Pembelajaran Ensemble dapat digunakan dalam sistem pemantauan seperti alat deteksi intrusi untuk mendeteksi kode penyusup dengan memantau jaringan atau sistem, menemukan anomali, dan sebagainya.
Mendeteksi malware: Ensemble learning cukup efektif dalam mendeteksi dan mengklasifikasikan kode malware seperti virus dan worm komputer, ransomware, trojan horse, spyware, dll. menggunakan teknik pembelajaran mesin.
#3. Pembelajaran Inkremental
Dalam pembelajaran inkremental, algoritme ML belajar dari kumpulan data baru sambil mempertahankan pembelajaran sebelumnya tetapi tanpa mengakses data sebelumnya yang telah dilihatnya. Sistem ansambel digunakan dalam pembelajaran inkremental dengan membuatnya mempelajari pengklasifikasi tambahan pada setiap kumpulan data saat tersedia.
#4. Obat
Pengklasifikasi ansambel berguna dalam bidang diagnosis medis, seperti deteksi gangguan neuro-kognitif (seperti Alzheimer). Itu melakukan deteksi dengan mengambil dataset MRI sebagai input dan mengklasifikasikan sitologi serviks. Selain itu, ini diterapkan dalam proteomik (studi tentang protein), ilmu saraf, dan bidang lainnya.
#5. Penginderaan jauh
Deteksi perubahan: Pengklasifikasi ansambel digunakan untuk melakukan deteksi perubahan melalui metode seperti rata-rata Bayesian dan pemungutan suara mayoritas.
Pemetaan tutupan lahan: Metode pembelajaran gabungan seperti boosting, pohon keputusan, analisis komponen utama kernel (KPCA), dll. Digunakan untuk mendeteksi dan memetakan tutupan lahan secara efisien.
#6. Keuangan
Akurasi adalah aspek penting dari keuangan, baik itu perhitungan atau prediksi. Ini sangat mempengaruhi output dari keputusan yang Anda buat. Ini juga dapat menganalisis perubahan data pasar saham, mendeteksi manipulasi harga saham, dan banyak lagi.
Sumber Belajar Tambahan
#1. Metode Ensemble untuk Pembelajaran Mesin
Buku ini akan membantu Anda mempelajari dan menerapkan metode-metode penting pembelajaran ansambel dari awal.
#2. Metode Ensemble: Yayasan dan Algoritma
Buku ini memiliki dasar-dasar pembelajaran ensemble dan algoritmanya. Ini juga menguraikan bagaimana itu digunakan di dunia nyata.
#3. Pembelajaran Ensemble
Ini menawarkan pengenalan metode ansambel terpadu, tantangan, aplikasi, dll.
#4. Ensemble Machine Learning: Metode dan Aplikasi:
Ini menyediakan cakupan luas teknik pembelajaran ansambel lanjutan.
Kesimpulan
Saya harap Anda sekarang memiliki gagasan tentang pembelajaran ansambel, metodenya, kasus penggunaan, dan mengapa menggunakannya dapat bermanfaat untuk kasus penggunaan Anda. Ini memiliki potensi untuk menyelesaikan banyak tantangan kehidupan nyata, mulai dari domain keamanan dan pengembangan aplikasi hingga keuangan, obat-obatan, dan banyak lagi. Penggunaannya berkembang, sehingga kemungkinan akan ada lebih banyak perbaikan dalam konsep ini dalam waktu dekat.
Anda juga dapat menjelajahi beberapa alat untuk pembuatan data sintetik untuk melatih model pembelajaran mesin