Arama sonuçlarına göre, ETL (Çıkarma, Dönüştürme, Yükleme), Alma Artırılmış Üretim (RAG) sistemleri için veri alma hattında çok önemli bir rol oynamaktadır:
1. Çıkarma: RAG veri alma kanalındaki ilk adım, veritabanları, sunucular, veri merkezleri ve çevrimiçi kaynaklar gibi çeşitli kaynaklardan veri çıkarmaktır. Buna metin dosyaları, CSV dosyaları ve PDF belgeleri gibi yapılandırılmış ve yapılandırılmamış veriler dahildir. LangChain, farklı kaynaklardan veri yüklemek için çeşitli belge yükleyiciler sağlar.
2. Dönüştürme: Çıkarılan veriler daha sonra aşağıdakileri içeren bir ön işleme adımından geçer:
- Metin Bölme: Uzun metin, yerleştirme modelinin maksimum belirteç uzunluğuna uyacak şekilde daha küçük parçalara bölünür.
- Belirteçleştirme: Daha verimli ve doğru bir temsil oluşturmak için metin, kelimeler veya ifadeler gibi ayrı belirteçlere bölünür.
3. Yükleme: Önceden işlenmiş veriler daha sonra metni sayısal formatta temsil eden yüksek boyutlu vektörlere dönüştürülür. Bu yerleştirmeler, hızlı arama ve geri alma işlemleri için optimize edilmiş Milvus gibi özel vektör veritabanlarında depolanır.
ETL süreci, RAG veri alımı hattı için çok önemlidir çünkü verilerin verimli bir şekilde alınmasına ve dil modelleriyle entegrasyonuna olanak sağlayacak şekilde toplanmasını, dönüştürülmesini ve sisteme yüklenmesini sağlar. RAG sistemi, bu yapılandırılmış yaklaşımı izleyerek, dil modellerine ilişkin bilgiyi artırmak ve kullanıcı sorgularına daha doğru ve bağlamsal yanıtlar sağlamak için harici veri kaynaklarından etkili bir şekilde yararlanabilir.
Özetle, ETL süreci RAG veri alımı ardışık düzeninin temel bir bileşenidir; çünkü sistemin büyük miktardaki farklı verileri alıp Artırılmış Üretimi Alma sürecinde kullanılmak üzere hazırlamasına olanak tanır.
Alıntılar:[1] https://www.crossml.com/build-a-rag-data-ingestion-pipeline/
[2] https://aws.amazon.com/blogs/big-data/build-a-rag-data-ingestion-pipeline-for-large-scale-ml-workloads/
[3] https://docs.zenml.io/user-guide/llmops-guide/rag-with-zenml/data-ingestion
[4] https://developer.nvidia.com/blog/rag-101-demystifying-retrieval-augmented-jenerasyon-pipelines/
[5] https://mallahyari.github.io/rag-ebook/03_prepare_data.html