Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Peran apa yang dimainkan ETL dalam alur penyerapan data RAG


Peran apa yang dimainkan ETL dalam alur penyerapan data RAG


Berdasarkan hasil penelusuran, ETL (Extract, Transform, Load) memainkan peran penting dalam jalur penyerapan data untuk sistem Retrieval Augmented Generation (RAG):

1. Ekstrak: Langkah pertama dalam alur penyerapan data RAG adalah mengekstrak data dari beragam sumber, seperti database, server, pusat data, dan sumber online. Ini mencakup data terstruktur dan tidak terstruktur seperti file teks, file CSV, dan dokumen PDF. LangChain menyediakan berbagai pemuat dokumen untuk memuat data dari berbagai sumber.

2. Transformasi: Data yang diekstraksi kemudian melalui langkah pra-pemrosesan, yang meliputi:
- Pemisahan Teks: Teks panjang dibagi menjadi segmen yang lebih kecil agar sesuai dengan panjang token maksimum model penyematan.
- Tokenisasi: Teks dipecah menjadi token individual, seperti kata atau frasa, untuk menciptakan representasi yang lebih efisien dan akurat.

3. Muat: Data yang telah diproses sebelumnya kemudian diubah menjadi vektor berdimensi tinggi, yang mewakili teks dalam format numerik. Penyematan ini disimpan dalam database vektor khusus, seperti Milvus, yang dioptimalkan untuk operasi pencarian dan pengambilan cepat.

Proses ETL sangat penting untuk jalur penyerapan data RAG karena memastikan data dikumpulkan, diubah, dan dimuat ke dalam sistem dengan cara yang memungkinkan pengambilan dan integrasi yang efisien dengan model bahasa. Dengan mengikuti pendekatan terstruktur ini, sistem RAG dapat secara efektif memanfaatkan sumber data eksternal untuk menambah pengetahuan tentang model bahasa dan memberikan respons yang lebih akurat dan kontekstual terhadap pertanyaan pengguna.

Singkatnya, proses ETL adalah komponen mendasar dari alur penyerapan data RAG, karena memungkinkan sistem menyerap dan menyiapkan beragam data dalam jumlah besar untuk digunakan dalam proses Retrieval Augmented Generation.

Kutipan:
[1] https://www.crossml.com/build-a-rag-data-ingestion-pipeline/
[2] https://aws.amazon.com/blogs/big-data/build-a-rag-data-ingestion-pipeline-for-large-scale-ml-workloads/
[3] https://docs.zenml.io/user-guide/llmops-guide/rag-with-zenml/data-ingestion
[4] https://developer.nvidia.com/blog/rag-101-demystifying-retrieval-augmented-generasi-pipelines/
[5] https://mallahyari.github.io/rag-ebook/03_prepare_data.html