GPT-4.5, kaip ir jo pirmtakas GPT-4, yra galingas AI modelis, kurį sukūrė „Openai“. Nors „GPT-4“ parodė galimybes tvarkyti tiek teksto, tiek vaizdo analizę per savo multimodalinę versiją, „GPT-4 Vision“, standartiniai GPT-4 ir GPT-4.5 modeliai pirmiausia yra pagrįsti tekstiniais. Jie gali efektyviai apdoroti tekstą PDFS, tačiau gali tiesiogiai kovoti su diagramų ar vaizdų analize.
GPT-4 PDF analizės vizija
„GPT-4“ „Vision“ yra specialiai sukurtas tiek teksto, tiek vaizdo įvesties tvarkymui, todėl jis yra tinkamas analizuoti PDF, kuriame yra schemos. Tai gali apibūdinti vaizdus, apibendrinti tekstą iš ekrano kopijų ir atsakyti į klausimus, kuriuose yra schemų [1]. Tačiau „GPT-4“ vizija nėra numatytasis GPT-4 ar GPT-4.5 modelis; Tai specializuota versija.
standartinio GPT-4 ir GPT-4.5 apribojimai
Standartiniai GPT-4 ir GPT-4.5 modeliai nėra optimizuoti vaizdo analizei. Jie gali apdoroti tekstą PDFS, tačiau negali nuosekliai suprasti ar analizuoti schemų ar vaizdų. Atlikdami diagramas apimančias užduotis, vartotojai dažnai remiasi išorinėmis priemonėmis, tokiomis kaip OCR (optinis simbolių atpažinimas), norėdami konvertuoti vaizdus į tekstą, kuriuos vėliau gali analizuoti GPT-4 arba GPT-4.5 [1] [3].
PDFS analizės su diagramomis metodas
Norėdami išanalizuoti PDFS su diagramomis, naudojant GPT-4 arba GPT-4.5, galite atlikti šiuos veiksmus:
1. Konvertuokite vaizdus į tekstą: naudokite OCR įrankius, tokius kaip „Tesseract“, norėdami konvertuoti vaizdus PDF į mašininį skaitomą tekstą. Šis žingsnis yra labai svarbus norint išgauti informaciją iš schemų ar lentelių, kuriose yra tekstas.
2. Integruokite su „Langchain“: Norėdami apdoroti ir analizuoti ištrauktą tekstą, naudokite tokius rėmus kaip „Langchain“. „Langchain“ gali padėti segmentuoti tekstą, efektyviai gauti jį ir efektyviai gauti atitinkamą informaciją [1].
3. Naudokite GPT-4 regėjimą: Jei įmanoma, naudokite GPT-4 matymą užduotims, kurioms reikalinga tiesioginė vaizdo analizė. Šis modelis gali sklandžiai tvarkyti tiek tekstą, tiek vaizdus, todėl jis yra idealus PDF su schemomis [1].
Apibendrinant galima pasakyti, kad nors pats GPT-4.5 tiesiogiai nepalaiko PDF schemų analizės, derinant ją su išorinėmis priemonėmis, tokiomis kaip OCR, ir specializuoti modeliai, tokie kaip „GPT-4 Vision“, gali pateikti išsamų tokių užduočių sprendimą.
Citatos:
[1] https://www.reveation.io/blog/gpt4v-for-pdf-analysis
[2] https://pmc.ncbi.nlm.nih.gov/articles/pmc11184879/
[3] https://www.reddit.com/r/chatgptpro/comments/1b84mlx/how_good_is_gpt4_or_gpt4_turbo_at_analyzing_pdf/
[4] https://aclanthology.org/2023.findings-emnlp.637.pdf
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/whath-are-the-limitations-of-gpt-o-in-analyzing-pdf-text/534760
[7] https://platform.openai.com/docs/models
[8] https://community.openai.com/t/can-you-explain-how-to-analyze-a-pdffile-in-gpt-4/107334