Kecerdasan buatan mengubah dunia seni dengan cara yang luar biasa. Salah satu penerapan AI yang menarik di segmen seni adalah melalui pemanfaatan generator seni deskriptif. Generator ini memiliki kemampuan untuk memeriksa dan menafsirkan gambar dan menghasilkan karya seni yang benar-benar baru berdasarkan analisisnya.
Pada artikel ini, kami membahas tiga generator seni AI: MidJourney, Stable Diffusion, dan Microsoft Bing Image Creator, dan mana di antara ketiganya yang unggul dalam menghasilkan hasil terbaik berdasarkan permintaan.
MidJourney
MidJourney, didirikan oleh David Holz, adalah generator seni AI yang menggunakan pembelajaran mesin untuk mengidentifikasi pola dan fitur dalam karya seni yang ada, yang kemudian dapat digunakan untuk membuat karya baru.
MidJourney memasuki open beta pada 12 Juli 2022. Sebelum meluncurkan MidJourney, Holz ikut mendirikan Leap Motion, sebuah startup yang mengubah antarmuka pengguna dengan memanfaatkan perekaman video dan gerakan tangan. Pada 2019, dia menjual Leap Motion ke Ultrahaptics.
Dengan MidJourney mendapatkan popularitas, Holz telah membagikan wawasannya tentang teknologi dan pengaruhnya terhadap seni dan masyarakat. Holz menganggap artis sebagai pelanggan MidJourney, bukan pesaing, dan percaya bahwa platform tersebut dapat memfasilitasi kreativitas dan eksperimen yang lebih besar dalam fase ide.
Namun, ada kekhawatiran tentang potensi pelanggaran hak cipta dari perangkat pelatihan MidJourney, yang mungkin mencakup karya berhak cipta dari artis lain.
Holz menekankan bahwa MidJourney dirancang untuk meningkatkan kemampuan manusia daripada menggantikannya. Dia menyamakannya dengan mobil, menjelaskan bahwa hanya karena mobil lebih cepat dari manusia, bukan berarti kita harus memotong kaki kita.
Dengan menggunakan generasi gambar AI MidJourney, seniman dapat mengeksplorasi kemungkinan baru dan menghasilkan banyak ide sebelum membuat karya mereka sendiri.
Difusi Stabil
Difusi Stabil adalah model pembelajaran mesin sumber terbuka yang dapat menghasilkan gambar dari teks, memodifikasi gambar berdasarkan teks, atau mengisi detail pada gambar beresolusi rendah atau detail rendah. Itu telah dilatih pada miliaran gambar dan dapat menghasilkan hasil yang sebanding dengan yang akan Anda dapatkan dari DALL-E 2 dan MidJourney.
Emad Mostaque, pendiri dan CEO Stability AI, adalah perusahaan yang bertanggung jawab atas Difusi Stabil. Difusi Stabil adalah model difusi laten yang dikembangkan oleh grup CompVis di LMU Munich, dan dirancang oleh Patrick Esser dan Robin Rombach, yang sebelumnya menciptakan arsitektur model difusi laten yang digunakan oleh Difusi Stabil.
Kolaborasi antara Stability AI, CompVis LMU, Runway, EleutherAI, dan LAION telah membuat Stable Diffusion tersedia untuk umum.
Difusi yang stabil dapat diterapkan di berbagai platform, termasuk perangkat Windows dan Apple. Memanfaatkan penerapan di perangkat dalam aplikasi dapat melindungi privasi pengguna, yang lebih disukai daripada pendekatan berbasis server.
Pembuat Gambar Microsoft Bing
Microsoft meluncurkan alat baru yang disebut Bing Image Creator, yang memberdayakan pengguna untuk membuat gambar mereka sendiri secara langsung di dalam Microsoft Edge. Perusahaan telah merilis seperangkat alat pencipta yang dirancang untuk menyalakan kreativitas dan ekspresi diri. Alat ini memungkinkan pengguna membuat gambar yang dipersonalisasi untuk membagikan pembaruan kehidupan mereka atau untuk tujuan lain apa pun yang mungkin mereka perlukan.
Pengguna dapat dengan mudah mengakses Image Creator dari sidebar Microsoft Edge. Microsoft telah mengambil tindakan proaktif untuk memastikan alat tersebut digunakan secara bertanggung jawab dan tidak memfasilitasi penyebaran konten yang menyinggung.
Perusahaan telah menetapkan kebijakan konten yang melarang penggunaan Image Creator untuk kasus-kasus tertentu, dan pengguna dapat melaporkan setiap pelanggaran terhadap kebijakan ini. Selain itu, Microsoft telah mengimplementasikan teknologi untuk mengatasi potensi bias yang dapat muncul dalam teknologi gambar generatif.
Dalam artikel ini, kami akan memulai perjalanan untuk mengevaluasi hasil dari setiap generator gambar AI deskriptif saat diminta dengan perintah teks yang identik.
Prompt 1: Sinterklas modern di atas kereta luncur yang ditarik oleh rusa pada hari yang cerah dan hangat di jalan raya
Prompt 2: Bidikan close-up hewan dengan mata besar, menangkap kepolosan dan kelucuannya
Prompt 3: Seorang astronot manusia yang sedang bermain mendarat di planet baru disambut oleh makhluk asing bermusuhan yang mengeluarkan senjata mereka
Prompt 4: Seni abstrak modern dari sampul buku novel yang berbasis di New York City dengan warna-warna cerah yang berani
Prompt 5: Seorang pria memutuskan antara dua piring – satu dengan pizza dan satu lagi dengan burger keju di atasnya
Prompt 6: Seorang prajurit yang terluka menunggang kudanya di atas gunung bersalju dengan pedang di tangannya
Prompt 7: Gambar abstrak menggunakan nuansa berbeda yang menunjukkan pergerakan dan aliran air
Prompt 8: Salmon di sungai dengan pepohonan hijau subur di latar belakang
Prompt 9: Segelas air di atas meja dengan lemon diperas dengan tangan
Prompt 10: Pemandangan cakrawala di padang pasir dari sudut pandang orang yang menunggang gajah di dalamnya
Prompt 11: Hutan tempat uang kertas tumbuh di pohon dan burung terbuat dari koin
Prompt 12: Semangkuk ramen, cel shading, pencahayaan malam, fotorealistik
Prompt 13: Elon Musk miskin dan menganggur
Dakwaan
Setelah mengevaluasi keluaran MidJourney, Stable Diffusion, dan Bing Image Creator, terbukti bahwa tidak ada pemenang yang pasti.
Setiap generator menginterpretasikan prompt dengan cara yang berbeda, dengan kesamaan yang ditemukan di keluaran Bing Image Creator dan MidJourney. Difusi Stabil efisien ketika prompt memiliki deskripsi yang jelas tetapi sering mengambil kata-kata terlalu harfiah. Meskipun MidJourney dan Bing Image Creator umumnya berhasil, terkadang mereka memberikan hasil yang tidak sesuai dengan petunjuknya.
Khususnya, Bing Image Creator berhati-hati dalam menghasilkan keluaran yang kasar atau menghasut, mengeluarkan pesan peringatan saat diminta untuk membuat gambar Elon Musk yang miskin dan menganggur. Adopsi tindakan perlindungan seperti itu oleh Microsoft patut dipuji.
Sementara itu, keahlian jaringan saraf MidJourney menghasilkan citra Elon Musk yang melarat dan menyedihkan. Oleh karena itu, dapat disimpulkan bahwa setiap generator akan memenuhi basis penggunanya masing-masing.