Mengekstrak Data dengan Mudah dengan Scraping Browser

Ekstraksi data adalah proses pengumpulan data tertentu dari halaman web. Pengguna dapat mengekstrak teks, gambar, video, ulasan, produk, dll. Anda dapat mengekstrak data untuk melakukan riset pasar, analisis sentimen, analisis persaingan, dan data agregat.

Jika Anda berurusan dengan sejumlah kecil data, Anda dapat mengekstrak data secara manual dengan menyalin-menempelkan informasi tertentu dari halaman web ke spreadsheet atau format dokumen yang Anda sukai. Misalnya, jika, sebagai pelanggan, Anda mencari ulasan online untuk membantu Anda membuat keputusan pembelian, Anda dapat menghapus data secara manual.

Di sisi lain, jika Anda berurusan dengan kumpulan data besar, Anda memerlukan teknik ekstraksi data otomatis. Anda dapat membuat solusi ekstraksi data internal atau menggunakan Proxy API atau Scraping API untuk tugas tersebut.

Namun, teknik ini mungkin kurang efektif karena beberapa situs yang Anda targetkan mungkin dilindungi oleh captcha. Anda mungkin juga harus mengelola bot dan proxy. Tugas semacam itu dapat menyita banyak waktu Anda dan membatasi sifat konten yang dapat Anda ekstrak.

Scraping Browser: Solusinya

Anda dapat mengatasi semua tantangan ini melalui Scraping Browser oleh Bright Data. Peramban all-in-one ini membantu mengumpulkan data dari situs web yang sulit dikikis. Ini adalah browser yang menggunakan antarmuka pengguna grafis (GUI) dan dikendalikan oleh Puppeteer atau Playwright API, membuatnya tidak terdeteksi oleh bot.

Scraping Browser memiliki fitur buka kunci bawaan yang secara otomatis menangani semua blok atas nama Anda. Peramban dibuka di server Bright Data, artinya Anda tidak memerlukan infrastruktur internal yang mahal untuk membuang data untuk proyek skala besar Anda.

Fitur Browser Scraping Data Cerah

  • Buka kunci situs web otomatis: Anda tidak perlu menyegarkan browser karena browser ini menyesuaikan secara otomatis untuk menangani penyelesaian CAPTCHA, blok baru, sidik jari, dan percobaan ulang. Scraping Browser meniru pengguna sebenarnya.
  • Jaringan proxy besar: Anda dapat menargetkan negara mana pun yang Anda inginkan, karena Scraping Browser memiliki lebih dari 72 juta IP. Anda dapat menargetkan kota atau bahkan operator dan memanfaatkan teknologi terbaik di kelasnya.
  • Dapat diskalakan: Anda dapat membuka ribuan sesi secara bersamaan karena browser ini menggunakan infrastruktur Bright Data untuk menangani semua permintaan.
  • Kompatibel dengan Puppeteer dan Playwright: Browser ini memungkinkan Anda melakukan panggilan API dan mengambil sejumlah sesi browser baik menggunakan Dalang (Python) atau Playwright (Node.js).
  • Menghemat waktu dan sumber daya: Alih-alih menyiapkan proxy, Browser Scraping menangani semuanya di latar belakang. Anda juga tidak perlu menyiapkan infrastruktur internal, karena alat ini menangani semuanya di latar belakang.
  Perbaiki Orc Must Die Unchained Runtime Error

Cara Menyiapkan Browser Scraping

  • Kunjungi situs web Bright Data dan klik pada Scraping Browser pada tab “Scraping Solutions”.
  • Buat sebuah akun. Anda akan melihat dua opsi; “Mulai uji coba gratis” dan “Mulai gratis dengan Google”. Mari kita pilih “Mulai uji coba gratis” untuk saat ini dan lanjutkan ke langkah berikutnya. Anda dapat membuat akun secara manual atau menggunakan akun Google Anda.

  • Saat akun Anda dibuat, dasbor akan menampilkan beberapa opsi. Pilih “Proxy & Infrastruktur Scraping”.

  • Di jendela baru yang terbuka, pilih Scraping Browser dan klik “Mulai”.

  • Simpan dan aktifkan konfigurasi Anda.

  • Aktifkan uji coba gratis Anda. Opsi pertama memberi Anda $5 kredit yang dapat Anda gunakan untuk penggunaan proxy Anda. Klik pada opsi pertama untuk mencoba produk ini. Namun, jika Anda adalah pengguna berat, Anda dapat mengklik opsi kedua yang memberi Anda $50 gratis jika Anda memuat akun Anda dengan $50 atau lebih.

  • Masukkan informasi tagihan anda. Jangan khawatir, karena platform tidak akan membebankan biaya apa pun kepada Anda. Informasi penagihan hanya memverifikasi bahwa Anda adalah pengguna baru dan tidak mencari barang gratis dengan membuat banyak akun.

  • Buat proksi baru. Setelah menyimpan detail tagihan, Anda dapat membuat proxy baru. Klik ikon “tambah” dan pilih Scraping Browser sebagai “tipe Proxy” Anda. Klik “Tambahkan Proksi” dan lanjutkan ke langkah berikutnya.

  • Buat “zona” baru. Sebuah pop akan muncul menanyakan apakah Anda ingin membuat Zone baru; klik “Ya” dan lanjutkan.

  • Klik “Lihat kode dan contoh integrasi”. Anda sekarang akan mendapatkan contoh integrasi Proxy yang dapat Anda gunakan untuk membuang data dari situs web target Anda. Anda dapat menggunakan Node.js atau Python untuk mengekstrak data dari situs target Anda.
  Strategi Peretasan Pertumbuhan untuk Mendapatkan Pengguna Baru di 2023

Anda sekarang memiliki semua yang Anda butuhkan untuk mengekstrak data dari situs web. Kami akan menggunakan situs web kami, techking.id.com, untuk mendemonstrasikan cara kerja Scraping Browser. Untuk demonstrasi ini, kami akan menggunakan node.js. Anda dapat mengikuti jika Anda telah menginstal node.js.

Ikuti langkah ini;

  • Buat proyek baru di mesin lokal Anda. Arahkan ke folder dan buat file, beri nama script.js. Kami menjalankan kode scraping secara lokal dan menampilkan hasilnya di terminal kami.
  • Buka proyek di editor kode favorit Anda. Saya menggunakan VsCode.
  • Instal dalang. Gunakan perintah ini untuk; npm i dalang-inti
  • Tambahkan kode ini ke file script.js;
  • const puppeteer = require('puppeteer-core');
    
       // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
    
    const auth="USERNAME:PASSWORD";
    
    async function run(){
    
      let browser;
    
      try {
    
        browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`});
    
        const page = await browser.newPage();
    
        page.setDefaultNavigationTimeout(2*60*1000);
    
        await page.goto('https://example.com');
    
        const html = await page.evaluate(() => document.documentElement.outerHTML);
    
        console.log(html);
    
      } 
    
      catch(e) {
    
        console.error('run failed', e);
    
      } 
    
      finally {
    
        await browser?.close();
    
      }
    
    }
    
    if (require.main==module)
    
         run();
  • Ubah isi di const auth=’USERNAME:PASSWORD’; dengan detail akun Anda. Periksa Nama Pengguna, Nama Zona, dan Kata Sandi Anda di tab berlabel “Parameter akses”.
  • Masukkan URL target Anda. Untuk kasus saya, saya ingin mengekstrak data untuk semua penulis di techking.id.com, ditemukan di https://techking.id.com/authors.
  • Saya akan mengubah kode saya pada baris 10 menjadi sebagai berikut;

    menunggu page.goto(‘https://techking.id.com/authors/‘);

    Kode terakhir saya sekarang adalah;

    const puppeteer = require('puppeteer-core');
    
       // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
    
    const auth="brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c";
    
    async function run(){
    
      let browser;
    
      try {
    
        browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`});
    
        const page = await browser.newPage();
    
        page.setDefaultNavigationTimeout(2*60*1000);
    
        await page.goto('https://techking.id.com/authors/');
    
        const html = await page.evaluate(() => document.documentElement.outerHTML);
    
        console.log(html);
    
      } 
    
      catch(e) {
    
        console.error('run failed', e);
    
      } 
    
      finally {
    
        await browser?.close();
    
      }
    
    }
    
    if (require.main==module)
    
         run();
  • Jalankan kode Anda menggunakan perintah ini;
  • node script.js

    Anda akan memiliki sesuatu seperti ini di terminal Anda

    Cara Mengekspor Data

    Anda dapat menggunakan beberapa pendekatan untuk mengekspor data, tergantung bagaimana Anda ingin menggunakannya. Hari ini, kita dapat mengekspor data ke file html dengan mengubah skrip untuk membuat file baru bernama data.html alih-alih mencetaknya di konsol.

    Anda dapat mengubah isi kode Anda sebagai berikut;

    const puppeteer = require('puppeteer-core');
    
    const fs = require('fs');
    
    // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
    
    const auth="brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c";
    
    async function run() {
    
      let browser;
    
      try {
    
        browser = await puppeteer.connect({ browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222` });
    
        const page = await browser.newPage();
    
        page.setDefaultNavigationTimeout(2 * 60 * 1000);
    
        await page.goto('https://techking.id.com/authors/');
    
        const html = await page.evaluate(() => document.documentElement.outerHTML);
    
        // Write HTML content to a file
    
        fs.writeFileSync('data.html', html);
    
        console.log('Data export complete.');
    
      } catch (e) {
    
        console.error('run failed', e);
    
      } finally {
    
        await browser?.close();
    
      }
    
    }
    
    if (require.main == module) {
    
      run();
    
    }

    Anda sekarang dapat menjalankan kode menggunakan perintah ini;

    node script.js

    Seperti yang Anda lihat di tangkapan layar berikut, terminal menampilkan pesan yang mengatakan, “ekspor data selesai”.

      Cara Menyorot dan Memberi Anotasi pada PDF di iPad Anda

    Jika kita memeriksa folder proyek kita, sekarang kita dapat melihat sebuah file bernama data.html dengan ribuan baris kode.

    Saya baru saja menggores permukaan tentang cara mengekstrak data menggunakan browser Scraping. Saya bahkan dapat mempersempit dan menghapus hanya nama penulis dan deskripsi mereka menggunakan alat ini.

    Jika Anda ingin menggunakan Scraping Browser, identifikasi dataset yang ingin Anda ekstrak dan modifikasi kodenya. Anda dapat mengekstrak teks, gambar, video, metadata, dan tautan, bergantung pada situs web yang Anda targetkan dan struktur file HTML.

    FAQ

    Apakah ekstraksi data dan pengikisan web legal?

    Pengikisan web adalah topik yang kontroversial, dengan satu kelompok mengatakan itu tidak bermoral sementara yang lain merasa tidak apa-apa. Legalitas pengikisan web akan bergantung pada sifat konten yang dikorek dan kebijakan halaman web target.
    Umumnya, mengorek data dengan informasi pribadi seperti alamat dan detail keuangan dianggap ilegal. Sebelum Anda mengambil data, periksa apakah situs yang Anda targetkan memiliki pedoman. Selalu pastikan bahwa Anda tidak membuang data yang tidak tersedia untuk umum.

    Apakah Scraping Browser adalah alat gratis?

    Tidak. Scraping Browser adalah layanan berbayar. Jika Anda mendaftar untuk uji coba gratis, alat tersebut memberi Anda kredit $5. Paket berbayar mulai dari $15/GB + $0,1/jam. Anda juga dapat memilih opsi Bayar Saat Anda Pergi yang dimulai dari $20/GB + $0,1/jam.

    Apa perbedaan antara browser Scraping dan browser tanpa kepala?

    Scraping Browser adalah browser headful, artinya memiliki antarmuka pengguna grafis (GUI). Di sisi lain, browser tanpa kepala tidak memiliki antarmuka grafis. Peramban tanpa kepala seperti Selenium digunakan untuk mengotomatiskan pengikisan web tetapi terkadang terbatas karena harus berurusan dengan CAPTCHA dan deteksi bot.

    Membungkus

    Seperti yang Anda lihat, Scraping Browser menyederhanakan penggalian data dari halaman web. Scraping Browser mudah digunakan dibandingkan dengan alat seperti Selenium. Bahkan non-pengembang dapat menggunakan browser ini dengan antarmuka pengguna yang mengagumkan dan dokumentasi yang bagus. Alat ini memiliki kemampuan membuka blokir yang tidak tersedia di alat scrapping lainnya, menjadikannya efektif untuk semua orang yang ingin mengotomatiskan proses tersebut.

    Anda juga dapat menjelajahi cara menghentikan Plugin ChatGPT dari menggores konten situs web Anda.