Výkon GPT-4 na jednotnom barovom skúške (UBE) bol predmetom významného záujmu a debaty, ale nie sú k dispozícii žiadne konkrétne informácie o výkone GPT-4.5. Pochopenie výkonu GPT-4 však môže poskytnúť informácie o tom, ako by sa budúce verzie ako GPT-4,5 mohli vnímať v právnom prostredí.
Výkon
GPT-4 na UBE
GPT-4 sa pôvodne uvádza, že dosiahlo skóre v blízkosti 90. percentilu na UBE, čo vyvolalo značné vzrušenie z jeho potenciálu v právnych kontextoch [5] [7]. Následné analýzy však vyvolali pochybnosti o tomto tvrdení, čo naznačuje, že výkon bol nadhodnotený. Napríklad, v porovnaní s opakovanými testovacími pracovníkmi sa skóre GPT-4 zdalo pôsobivé, ale keď sa hodnotilo proti všetkým skúšajúcim alebo prvým skúškam, jeho výkon bol výrazne nižší, odhaduje sa okolo 69. percentilu celkovo a približne 48. percentilu eseje [1] [4].
Dôsledky pre dôveryhodnosť v právnych prostrediach
1. Metodologické obavy: nezrovnalosti v hlásených výkonoch zvýrazňujú metodologické výzvy pri hodnotení modelov AI, ako je GPT-4. Tieto obavy môžu mať vplyv na to, ako sú vnímané budúce verzie, pretože môžu čeliť podobným výzvam pri preukazovaní konzistentného výkonu v rôznych testovacích populáciách.
2. Porovnanie s ľudským výkonom: Schopnosť GPT-4 zložiť skúšku advokátskej komory, najmä vynikajúce v sekciách s viacerými výbermi, ako je viacstupňové barové vyšetrenie (MBE), naznačuje potenciál pre AI v právnych úlohách, ktoré si vyžadujú faktické stiahnutie a analýzu [5]. Jeho slabšia výkonnosť v sekciách esejí však naznačuje obmedzenia v odtieňoch právneho zdôvodnenia a písania, ktoré sú kritickými zručnosťami pre právnikov.
3. Potenciálne aplikácie: Napriek týmto obmedzeniam by modely AI ako GPT-4 a potenciálne GPT-4,5 mohli byť stále cenné v právnych prostrediach pre úlohy, ako sú preskúmanie dokumentov, pomoc v oblasti výskumu a vypracovanie bežných právnych dokumentov. Ich schopnosť rýchlo a presne spracovať veľké objemy informácií môže podporovať právnikov, hoci je nepravdepodobné, že by nahradili ľudský úsudok a zložité právne zdôvodnenie.
4. Etické a regulačné úvahy: Keď sa AI stane integrovanejšou do právnej práce, zvýši sa kontrola jej spoľahlivosti a etických dôsledkov. Zabezpečenie toho, aby boli nástroje AI transparentné, spravodlivé a nezhromažďujú existujúce zaujatosti, bude rozhodujúce pre udržanie dôveryhodnosti v právnych kontextoch.
Stručne povedané, zatiaľ čo sa diskutovalo o výkone GPT-4 v oblasti UBE, zdôrazňuje to potenciál a obmedzenia AI v právnych prostrediach. Budúce verzie, ako je GPT-4.5, budú musieť riešiť tieto výzvy, aby sa zvýšila dôveryhodnosť a užitočnosť v právnych aplikáciách.
Citácie:
[1] https://law-ai.org/re-evaluing-gpt-4s-bar-exam-performance/
[2] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4441311
[3] https://pmc.ncbi.nlm.nih.gov/articles/pmc10884900/
[4] https://ethicalalawinstitute.org/blog/gpt-4-and-the-bar-exam-a-closer-look-at-the-hype-and-reality/
[5] https://www.abajournal.com/web/article/latest-version-of-chatgpt-aces-the-bar-exam-with-core-in-90th-Percentile
[6] https://www.researchgate.net/publication/379435142_re-evaluaing_gpt-4's_bar_exam_performance
[7] https://openai.com/index/gpt-4-research/
[8] https://pmc.ncbi.nlm.nih.gov/articles/pmc10894685/