Grok 3: Elon Musk's XAI AI mudel edestab GPT-4O ja Kaksikud

Kuidas võrrelda Grok 3 etendust GPT-4O ja Kaksikutega

Grok 3, mille käivitas Elon Musk's Xai, on loodud konkureerima teiste AI-mudelitega, nagu OpenAi GPT-4O ja Google'i Kaksikud [3] [4]. Xai väidab, et Grok 3 on "kõige nutikam AI maa peal" [1].

Grok 3 versus GPT-4O:
* Võrdlusalused: GROK 3 on näidanud GPT-4O-ga võrreldes mitmel võrdlusalusel paremat jõudlust [1] [4]. Nende hulka kuuluvad matemaatika (AIME 24), Science (GPQA) ja kodeerimine (LCB oktoober-VEB) [1]. Grok 3 viskas 52 matemaatikas, 75 teaduses ja 57 kodeerimisel, edestades nendes piirkondades GPT-4O [1] [4].
* Keele mõistmine: Grok 3 saavutas keele mõistmise testide 94,2% täpsuse, ületades pisut ChatGPT -i 92,8% [2].
* Kodeerimine: GROK 3 on väidetavalt 1,2x kiirem kui koodide genereerimise kiiruses ChatGPT, keskmise reageerimisajaga 0,8 sekundit [2].
* Arena tulemus: Grok 3 varajane versioon, mida nimetatakse "šokolaadiks", oli esimene AI, mille tulemus ületas LMSYS CHATBOT Arenal tulemuse 1400, edestades GPT-4O [4].
* Põhjendus ja reaalajas andmed: Grok 3 näitab tugevust matemaatiliste mõttekäikude, kodeerimise ülesannete, reaalajas andmete analüüsi ja praeguste sündmuste arutelude alal [2].
* Koolitus: Grok 3 koolitatakse X (endine Twitteri) reaalajas andmete abil, pakkudes sellele ajakohast teavet [2]. Seda koolitati Xai Colossuse superklastrile, mis oli varustatud 100 000 GPU -ga [2].

Grok 3 versus Kaksikud:

* Võrdlusalused: Grok 3 on edestanud Google DeepMind 'Gemini-2 Pro erinevatel võrdlusalustel [1].
* ChatBot Arena (LMSYS): GROK 3 varajane versioon edestas suuremaid mudeleid, näiteks Gemini-2.0 välklambi mõtlemine ChatBot Arenal [1].
* Matemaatika (AIME 24): Matemaatika (Aime 24) võrdlusaluse korral viskas Grok 3 52, Gemini-2 Pro aga 39 [4].
* Teadus (GPQA): teaduses (GPQA), Grok 3 viskas 75, edestades Gemini-2 Pro, mis viskas 65 [4].

Tsitaadid:
]
]
]
]
[5] https://www.youtube.com/watch?v=WXQHHCGNBZS
]
]
[8] https://www.digitaltrends.com/computing
]