Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Mikä rooli ETL:llä on RAG-tiedonottoputkessa?


Mikä rooli ETL:llä on RAG-tiedonottoputkessa?


Hakutulosten perusteella ETL (Extract, Transform, Load) on ratkaisevassa roolissa tiedonsiirtoprosessissa Retrieval Augmented Generation (RAG) -järjestelmissä:

1. Poimi: Ensimmäinen vaihe RAG-tiedonkeruuputkessa on tietojen poimia eri lähteistä, kuten tietokannoista, palvelimista, palvelinkeskuksista ja online-lähteistä. Tämä sisältää jäsenneltyä ja jäsentämätöntä dataa, kuten tekstitiedostoja, CSV-tiedostoja ja PDF-dokumentteja. LangChain tarjoaa erilaisia ​​asiakirjalataajia tietojen lataamiseen eri lähteistä.

2. Muuntaa: Poimitut tiedot käyvät sitten läpi esikäsittelyvaiheen, joka sisältää:
- Tekstin jakaminen: Pitkä teksti jaetaan pienempiin osiin upotusmallin enimmäispituuden mukaan.
- Tokenisointi: Teksti on jaettu yksittäisiin tunnusmerkkeihin, kuten sanoihin tai lauseisiin, tehokkaamman ja tarkemman esityksen luomiseksi.

3. Lataa: Esikäsitellyt tiedot muunnetaan sitten suurulotteisiksi vektoreiksi, jotka edustavat tekstiä numeerisessa muodossa. Nämä upotukset on tallennettu erikoistuneisiin vektoritietokantoihin, kuten Milvus, jotka on optimoitu nopeita haku- ja hakutoimintoja varten.

ETL-prosessi on tärkeä RAG-tiedonottoputkelle, koska se varmistaa, että tiedot kerätään, muunnetaan ja ladataan järjestelmään tavalla, joka mahdollistaa tehokkaan haun ja integroinnin kielimalleihin. Noudattamalla tätä jäsenneltyä lähestymistapaa RAG-järjestelmä voi tehokkaasti hyödyntää ulkoisia tietolähteitä lisätäkseen kielimallien tuntemusta ja tarjotakseen tarkempia ja kontekstuaalisia vastauksia käyttäjien kyselyihin.

Yhteenvetona voidaan todeta, että ETL-prosessi on olennainen osa RAG-tiedonottoputkea, koska sen avulla järjestelmä voi vastaanottaa ja valmistella suuria määriä erilaista dataa käytettäväksi Retrieval Augmented Generation -prosessissa.

Lainaukset:
[1] https://www.crossml.com/build-a-rag-data-ingestion-pipeline/
[2] https://aws.amazon.com/blogs/big-data/build-a-rag-data-ingestion-pipeline-for-large-scale-ml-workloads/
[3] https://docs.zenml.io/user-guide/llmops-guide/rag-with-zenml/data-ingestion
[4] https://developer.nvidia.com/blog/rag-101-demystifying-retrieval-augmented-generation-pipelines/
[5] https://mallahyari.github.io/rag-ebook/03_prepare_data.html