Pamatojoties uz meklēšanas rezultātiem, ETL (Extract, Transform, Load) spēlē izšķirošu lomu datu ievades cauruļvadā Retrieval Augmented Generation (RAG) sistēmām:
1. Izvilkums: pirmais solis RAG datu ievades konveijerā ir iegūt datus no dažādiem avotiem, piemēram, datu bāzēm, serveriem, datu centriem un tiešsaistes avotiem. Tas ietver strukturētus un nestrukturētus datus, piemēram, teksta failus, CSV failus un PDF dokumentus. LangChain nodrošina dažādus dokumentu ielādētājus, lai ielādētu datus no dažādiem avotiem.
2. Pārveidot: iegūtie dati tiek pakļauti pirmapstrādes darbībai, kas ietver:
- Teksta sadalīšana: garais teksts tiek sadalīts mazākos segmentos, lai tas atbilstu iegulšanas modeļa maksimālajam marķiera garumam.
- Tokenizācija: teksts tiek sadalīts atsevišķos marķieros, piemēram, vārdos vai frāzēs, lai izveidotu efektīvāku un precīzāku attēlojumu.
3. Ielādēt: pēc tam iepriekš apstrādātie dati tiek pārvērsti augstas dimensijas vektoros, kas attēlo tekstu skaitliskā formātā. Šīs iegulšanas tiek glabātas specializētās vektoru datubāzēs, piemēram, Milvus, kas ir optimizētas ātrai meklēšanas un izguves operācijām.
ETL process ir ļoti svarīgs RAG datu ievades konveijeram, jo tas nodrošina datu apkopošanu, pārveidošanu un ielādi sistēmā tādā veidā, kas nodrošina efektīvu izguvi un integrāciju ar valodas modeļiem. Ievērojot šo strukturēto pieeju, RAG sistēma var efektīvi izmantot ārējos datu avotus, lai papildinātu zināšanas par valodu modeļiem un sniegtu precīzākas un kontekstuālākas atbildes uz lietotāju vaicājumiem.
Rezumējot, ETL process ir RAG datu ievades cauruļvada pamatkomponents, jo tas ļauj sistēmai pārņemt un sagatavot lielu daudzumu dažādu datu izmantošanai izguves paplašinātās paaudzes procesā.
Citāts:[1] https://www.crossml.com/build-a-rag-data-ingestion-pipeline/
[2] https://aws.amazon.com/blogs/big-data/build-a-rag-data-ingestion-pipeline-for-large-scale-ml-workloads/
[3] https://docs.zenml.io/user-guide/llmops-guide/rag-with-zenml/data-ingestion
[4] https://developer.nvidia.com/blog/rag-101-demystifying-retrieval-augmented-generation-pipelines/
[5] https://mallahyari.github.io/rag-ebook/03_prepare_data.html