Cara Melatih Chatbot AI Dengan Basis Pengetahuan Khusus Menggunakan ChatGPT API

Dalam artikel kami sebelumnya, kami mendemonstrasikan cara membuat AI chatbot dengan API ChatGPT dan menetapkan peran untuk mempersonalisasikannya. Tetapi bagaimana jika Anda ingin melatih AI pada data Anda sendiri? Misalnya, Anda mungkin memiliki buku, data keuangan, atau sekumpulan besar database, dan Anda ingin mencarinya dengan mudah. Pada artikel ini, kami memberikan Anda tutorial yang mudah diikuti tentang cara melatih AI chatbot dengan basis pengetahuan khusus Anda dengan LangChain dan ChatGPT API. Kami menerapkan LangChain, Indeks GPT, dan perpustakaan canggih lainnya untuk melatih chatbot AI menggunakan Model Bahasa Besar (LLM) OpenAI. Jadi sebagai catatan, mari kita periksa cara melatih dan membuat AI Chatbot menggunakan kumpulan data Anda sendiri.

Latih AI Chatbot Dengan Basis Pengetahuan Kustom Menggunakan ChatGPT API, LangChain, dan Indeks GPT (2023)

Pada artikel ini, kami telah menjelaskan langkah-langkah untuk mengajarkan chatbot AI dengan data Anda sendiri secara lebih mendetail. Dari menyiapkan alat dan perangkat lunak hingga melatih model AI, kami telah menyertakan semua instruksi dalam bahasa yang mudah dipahami. Sangat disarankan untuk mengikuti instruksi dari atas ke bawah tanpa melewatkan bagian mana pun.

Poin Penting Sebelum Anda Melatih AI dengan Data Anda Sendiri

1. Anda dapat melatih chatbot AI di platform apa pun, baik Windows, macOS, Linux, atau ChromeOS. Pada artikel ini, saya menggunakan Windows 11, tetapi langkah-langkahnya hampir sama untuk platform lain.

2. Panduan ini dimaksudkan untuk pengguna umum, dan petunjuknya dijelaskan dalam bahasa yang sederhana. Jadi, bahkan jika Anda memiliki pengetahuan sepintas tentang komputer dan tidak tahu cara membuat kode, Anda dapat dengan mudah melatih dan membuat chatbot Q&A AI dalam beberapa menit. Jika Anda mengikuti artikel bot ChatGPT kami sebelumnya, akan lebih mudah untuk memahami prosesnya.

3. Karena kita akan melatih AI Chatbot berdasarkan data kita sendiri, disarankan untuk menggunakan komputer yang mumpuni dengan CPU dan GPU yang bagus. Namun, Anda dapat menggunakan komputer kelas bawah apa pun untuk tujuan pengujian, dan itu akan berfungsi tanpa masalah. Saya menggunakan Chromebook untuk melatih model AI menggunakan buku dengan 100 halaman (~100MB). Namun, jika Anda ingin melatih sekumpulan besar data yang mencapai ribuan halaman, sangat disarankan untuk menggunakan komputer yang kuat.

4. Akhirnya, kumpulan data harus dalam bahasa Inggris untuk mendapatkan hasil terbaik, tetapi menurut OpenAI, itu juga akan berfungsi dengan bahasa internasional populer seperti Prancis, Spanyol, Jerman, dll. Jadi silakan dan coba sendiri bahasa.

Siapkan Lingkungan Perangkat Lunak untuk Melatih AI Chatbot

Seperti artikel kami sebelumnya, Anda harus tahu bahwa Python dan Pip harus diinstal bersama dengan beberapa pustaka. Pada artikel ini, kami akan menyiapkan semuanya dari awal sehingga pengguna baru juga dapat memahami proses penyiapannya. Untuk memberi Anda gambaran singkat, kami akan menginstal Python dan Pip. Setelah itu, kami akan menginstal pustaka Python, yang meliputi OpenAI, Indeks GPT, Gradio, dan PyPDF2. Sepanjang proses, Anda akan mempelajari apa yang dilakukan setiap perpustakaan. Sekali lagi, jangan khawatir tentang proses instalasi, ini cukup mudah. Pada catatan itu, mari kita langsung masuk.

Instal Python

1. Pertama, Anda perlu menginstal Python (Pip) di komputer Anda. Membuka Link ini dan unduh file penyiapan untuk platform Anda.

  25 Wallpaper Musim Gugur Yang Luar Biasa Untuk Desktop Anda

2. Selanjutnya, jalankan file setup dan pastikan untuk mengaktifkan kotak centang untuk “Add Python.exe to PATH.” Ini adalah langkah yang sangat penting. Setelah itu, klik “Instal Sekarang” dan ikuti langkah-langkah biasa untuk menginstal Python.

3. Untuk memeriksa apakah Python sudah terpasang dengan benar, buka Terminal di komputer Anda. Saya menggunakan Terminal Windows di Windows, tetapi Anda juga dapat menggunakan Command Prompt. Sesampai di sini, jalankan perintah di bawah ini, dan itu akan menampilkan versi Python. Di Linux dan macOS, Anda mungkin harus menggunakan python3 –version daripada python –version.

python --version

Tingkatkan Pip

Saat Anda menginstal Python, Pip diinstal secara bersamaan di sistem Anda. Jadi mari kita tingkatkan ke versi terbaru. Bagi mereka yang tidak sadar, Pip adalah pengelola paket untuk Python. Pada dasarnya, ini memungkinkan Anda menginstal ribuan pustaka Python dari Terminal. Dengan Pip, kita dapat menginstal pustaka OpenAI, gpt_index, gradio, dan PyPDF2. Berikut langkah-langkah yang harus diikuti.

1. Buka Terminal pilihan Anda di komputer Anda. Saya menggunakan Terminal Windows, tetapi Anda juga dapat menggunakan Command Prompt. Sekarang, jalankan perintah di bawah ini untuk memperbarui Pip. Sekali lagi, Anda mungkin harus menggunakan python3 dan pip3 di Linux dan macOS.

python -m pip install -U pip

2. Untuk memeriksa apakah Pip sudah terpasang dengan benar, jalankan perintah di bawah ini. Ini akan menampilkan nomor versi. Jika Anda mendapatkan kesalahan, ikuti panduan khusus kami tentang cara memasang Pip di Windows untuk memperbaiki masalah terkait PATH.

pip --version

Instal OpenAI, Indeks GPT, PyPDF2, dan Pustaka Gradio

Setelah kita menyiapkan Python dan Pip, saatnya menginstal pustaka penting yang akan membantu kita melatih AI chatbot dengan basis pengetahuan khusus. Berikut langkah-langkah yang harus diikuti.

1. Buka Terminal dan jalankan perintah di bawah untuk menginstal pustaka OpenAI. Kami akan menggunakannya sebagai LLM (Large language model) untuk melatih dan membuat AI chatbot. Dan kami juga akan mengimpor kerangka LangChain dari OpenAI. Perhatikan bahwa, pengguna Linux dan macOS mungkin harus menggunakan pip3, bukan pip.

pip install openai

2. Selanjutnya kita install GPT Index yang disebut juga dengan LlamaIndex. Ini memungkinkan LLM untuk terhubung ke data eksternal yang merupakan basis pengetahuan kami.

pip install gpt_index

3. Setelah itu, instal PyPDF2 untuk mengurai file PDF. Jika Anda ingin memasukkan data Anda dalam format PDF, pustaka ini akan membantu program membaca data dengan mudah.

pip install PyPDF2

4. Terakhir, instal pustaka Gradio. Ini dimaksudkan untuk membuat UI sederhana untuk berinteraksi dengan chatbot AI terlatih. Kami sekarang selesai menginstal semua perpustakaan yang diperlukan untuk melatih chatbot AI.

pip install gradio

Unduh Editor Kode

Terakhir, kita membutuhkan editor kode untuk mengedit beberapa kode. Di Windows, saya akan merekomendasikan Notepad++ (Unduh). Cukup unduh dan instal program melalui tautan terlampir. Anda juga dapat menggunakan Kode VS pada platform apa pun jika Anda merasa nyaman dengan IDE yang kuat. Selain VS Code, Anda dapat menginstal Sublime Text (Unduh) di macOS dan Linux.

Untuk ChromeOS, Anda dapat menggunakan aplikasi Caret yang luar biasa (Unduh) untuk mengedit kode. Kami hampir selesai menyiapkan lingkungan perangkat lunak, dan inilah waktunya untuk mendapatkan kunci OpenAI API.

Dapatkan Kunci API OpenAI Gratis

Sekarang, untuk melatih dan membuat bot obrolan AI berdasarkan basis pengetahuan khusus, kita perlu mendapatkan kunci API dari OpenAI. Kunci API akan memungkinkan Anda untuk menggunakan model OpenAI sebagai LLM untuk mempelajari data khusus Anda dan menarik kesimpulan. Saat ini, OpenAI menawarkan kunci API gratis dengan kredit gratis senilai $5 untuk tiga bulan pertama kepada pengguna baru. Jika Anda membuat akun OpenAI lebih awal, Anda mungkin memiliki kredit $18 gratis di akun Anda. Setelah kredit gratis habis, Anda harus membayar untuk akses API. Tetapi untuk saat ini, ini tersedia untuk semua pengguna secara gratis.

  Bisakah Anda Menggunakan Kartu Horizon Gold Anda di Walmart?

1. Menuju ke platform.openai.com/signup dan buat akun gratis. Jika Anda sudah memiliki akun OpenAI, cukup masuk.

2. Selanjutnya, klik profil Anda di pojok kanan atas dan pilih “Lihat kunci API” dari menu drop-down.

3. Di sini, klik “Buat kunci rahasia baru” dan salin kunci API. Perhatikan bahwa Anda tidak dapat menyalin atau melihat seluruh kunci API nanti. Jadi sangat disarankan untuk segera menyalin dan menempelkan kunci API ke file Notepad.

4. Selain itu, jangan bagikan atau tampilkan kunci API di depan umum. Ini adalah kunci pribadi yang dimaksudkan hanya untuk akses ke akun Anda. Anda juga dapat menghapus kunci API dan membuat beberapa kunci pribadi (hingga lima).

Latih dan Buat AI Chatbot Dengan Basis Pengetahuan Kustom

Sekarang kita telah menyiapkan lingkungan perangkat lunak dan mendapatkan kunci API dari OpenAI, mari latih chatbot AI. Di sini, kita akan menggunakan model “text-davinci-003” daripada model “gpt-3.5-turbo” terbaru karena Davinci bekerja jauh lebih baik untuk penyelesaian teks. Jika mau, Anda dapat mengubah model menjadi Turbo untuk mengurangi biaya. Dengan itu, mari lompat ke instruksi.

Tambahkan Dokumen Anda untuk Melatih AI Chatbot

1. Pertama, buat folder baru bernama docs di lokasi yang dapat diakses seperti Desktop. Anda juga dapat memilih lokasi lain sesuai dengan preferensi Anda. Namun, pertahankan nama foldernya docs.

2. Selanjutnya, pindahkan dokumen yang ingin Anda gunakan untuk melatih AI ke dalam folder “docs”. Anda dapat menambahkan banyak file teks atau PDF (bahkan yang dipindai). Jika Anda memiliki tabel besar di Excel, Anda dapat mengimpornya sebagai file CSV atau PDF, lalu menambahkannya ke folder “docs”. Anda bahkan dapat menambahkan file database SQL, seperti yang dijelaskan di sini Tweet AI Langchain. Saya belum mencoba banyak format file selain yang disebutkan, tetapi Anda dapat menambah dan memeriksanya sendiri. Untuk artikel ini, saya menambahkan salah satu artikel saya tentang NFT dalam format PDF.

Catatan: Jika Anda memiliki dokumen besar, akan membutuhkan waktu lebih lama untuk memproses data, tergantung pada CPU dan GPU Anda. Selain itu, ini akan dengan cepat menggunakan token OpenAI gratis Anda. Jadi pada awalnya, mulailah dengan dokumen kecil (30-50 halaman atau file <100MB) untuk memahami prosesnya.

Siapkan Kode

1. Sekarang, luncurkan Notepad++ (atau editor kode pilihan Anda) dan rekatkan kode di bawah ini ke dalam file baru. Sekali lagi, saya telah mengambil banyak bantuan dari armrrs di Google Colab dan men-tweak kode agar kompatibel dengan file PDF dan membuat antarmuka Gradio di atas.

from gpt_index import SimpleDirectoryReader, GPTListIndex, GPTSimpleVectorIndex, LLMPredictor, PromptHelper
from langchain import OpenAI
import gradio as gr
import sys
import os

os.environ["OPENAI_API_KEY"] = 'Your API Key'

def construct_index(directory_path):
    max_input_size = 4096
    num_outputs = 512
    max_chunk_overlap = 20
    chunk_size_limit = 600

    prompt_helper = PromptHelper(max_input_size, num_outputs, max_chunk_overlap, chunk_size_limit=chunk_size_limit)

    llm_predictor = LLMPredictor(llm=OpenAI(temperature=0.7, model_name="text-davinci-003", max_tokens=num_outputs))

    documents = SimpleDirectoryReader(directory_path).load_data()

    index = GPTSimpleVectorIndex(documents, llm_predictor=llm_predictor, prompt_helper=prompt_helper)

    index.save_to_disk('index.json')

    return index

def chatbot(input_text):
    index = GPTSimpleVectorIndex.load_from_disk('index.json')
    response = index.query(input_text, response_mode="compact")
    return response.response

iface = gr.Interface(fn=chatbot,
                     inputs=gr.inputs.Textbox(lines=7, label="Enter your text"),
                     outputs="text",
                     title="Custom-trained AI Chatbot")

index = construct_index("docs")
iface.launch(share=True)

2. Seperti inilah tampilan kode di editor kode.

3. Selanjutnya, klik “File” di menu atas dan pilih “Save As…” dari menu drop-down.

4. Setelah itu, atur nama file app.py dan ubah “Save as type” menjadi “All types” dari menu drop-down. Kemudian, simpan file ke lokasi tempat Anda membuat folder “docs” (dalam kasus saya, ini adalah Desktop). Anda dapat mengubah nama sesuai keinginan Anda, tetapi pastikan .py ditambahkan.

5. Pastikan folder “docs” dan “app.py” berada di lokasi yang sama, seperti yang ditunjukkan pada gambar di bawah. File “app.py” akan berada di luar folder “docs” dan bukan di dalam.

  Cara Mengatur Ulang Koneksi Jaringan Roku Anda

6. Kembali ke kode lagi di Notepad++. Di sini, ganti Kunci API Anda dengan yang dibuat di situs web OpenAI di atas.

7. Terakhir, tekan “Ctrl+S” untuk menyimpan kode. Anda sekarang siap untuk menjalankan kode.

Buat Bot AI ChatGPT dengan Basis Pengetahuan Kustom

1. Pertama, buka Terminal dan jalankan perintah di bawah untuk berpindah ke Desktop. Di situlah saya menyimpan folder “docs” dan file “app.py”. Jika Anda menyimpan kedua item di lokasi lain, pindah ke lokasi tersebut melalui Terminal.

cd Desktop

2. Sekarang, jalankan perintah di bawah ini. Pengguna Linux dan macOS mungkin harus menggunakan python3.

python app.py

3. Sekarang, ia akan mulai menganalisis dokumen menggunakan model OpenAI LLM dan mulai mengindeks informasi. Bergantung pada ukuran file dan kemampuan komputer Anda, akan memakan waktu lama untuk memproses dokumen. Setelah selesai, file “index.json” akan dibuat di Desktop. Jika Terminal tidak menampilkan output apa pun, jangan khawatir, mungkin masih memproses data. Sekadar informasi, dibutuhkan sekitar 10 detik untuk memproses dokumen berukuran 30MB.

4. Setelah LLM memproses data, Anda akan mendapatkan beberapa peringatan yang dapat diabaikan dengan aman. Terakhir, di bagian bawah, Anda akan menemukan URL lokal. Salin.

5. Sekarang, rekatkan URL yang disalin ke browser web, dan begitulah. Chatbot AI bertenaga ChatGPT terlatih Anda sudah siap. Untuk memulai, Anda dapat bertanya kepada AI chatbot tentang dokumen tersebut.

6. Anda dapat mengajukan pertanyaan lebih lanjut, dan bot ChatGPT akan menjawab dari data yang Anda berikan ke AI. Jadi inilah cara Anda membuat chatbot AI yang dilatih khusus dengan kumpulan data Anda sendiri. Anda sekarang dapat melatih dan membuat AI chatbot berdasarkan informasi apa pun yang Anda inginkan. Kemungkinannya tidak terbatas.

7. Anda juga dapat menyalin URL publik dan membaginya dengan teman dan keluarga Anda. Tautan akan aktif selama 72 jam, tetapi Anda juga harus tetap menyalakan komputer karena instance server sedang berjalan di komputer Anda.

8. Untuk menghentikan chatbot AI yang dilatih khusus, tekan “Ctrl + C” di jendela Terminal. Jika tidak berhasil, tekan “Ctrl + C” lagi.

9. Untuk me-restart server AI chatbot, cukup pindah ke lokasi Desktop lagi dan jalankan perintah di bawah ini. Perlu diingat, URL lokal akan sama, tetapi URL publik akan berubah setelah setiap server dimulai ulang.

python app.py

10. Jika Anda ingin melatih AI chatbot dengan data baru, hapus file di dalam folder “docs” dan tambahkan yang baru. Anda juga dapat menambahkan banyak file, tetapi berikan informasi tentang subjek yang sama jika tidak, Anda mungkin mendapatkan respons yang tidak koheren.

11. Sekarang, jalankan kode lagi di Terminal, dan itu akan membuat file “index.json” baru. Di sini, file “index.json” yang lama akan diganti secara otomatis.

python app.py

12. Untuk melacak token Anda, buka OpenAI online dasbor dan periksa berapa banyak kredit gratis yang tersisa.

13. Terakhir, Anda tidak perlu menyentuh kode kecuali Anda ingin mengubah kunci API atau model OpenAI untuk penyesuaian lebih lanjut.

Bangun Chatbot AI Kustom Menggunakan Data Anda Sendiri

Jadi beginilah cara Anda melatih AI chatbot dengan basis pengetahuan khusus. Saya telah menggunakan kode ini untuk melatih AI pada buku medis, artikel, tabel data, dan laporan dari arsip lama, dan berhasil dengan sempurna. Jadi lanjutkan dan buat chatbot AI Anda sendiri menggunakan Model Bahasa Besar OpenAI dan ChatGPY. Bagaimanapun, itu semua dari kami. Jika Anda mencari alternatif ChatGPT terbaik, buka artikel tertaut kami. Dan untuk menggunakan ChatGPT di Apple Watch Anda, ikuti tutorial mendalam kami. Terakhir, jika Anda menghadapi masalah apa pun, beri tahu kami di bagian komentar di bawah. Kami pasti akan mencoba membantu Anda.