Grok 3: Elon Muskin Xai AI -malli ylittää GPT-4O: n ja Gemini

Kuinka Grok 3: n esitys verrataan GPT-4O: iin ja Kaksoisiin

Elon Muskin XAI: n käynnistämä Grok 3 on suunniteltu kilpailemaan muiden AI-mallien kanssa, kuten Openain GPT-4O ja Googlen Gemini [3] [4]. Xai väittää, että Grok 3 on "älykkäin AI maan päällä" [1].

Grok 3 vs. GPT-4O:
* Vertailuarvo: Grok 3 on osoittanut erinomaisen suorituskyvyn useissa vertailuarvoissa verrattuna GPT-4O: iin [1] [4]. Näitä ovat matematiikka (AIMEâ 24), tiede (GPQA) ja koodaus (LCB OCT-helm-helmina) [1]. Grok 3 sai 52 matematiikassa, 75 tieteessä ja 57 koodauksessa, ylittäen GPT-4O: n näillä alueilla [1] [4].
* Kielen ymmärtäminen: Grok 3 saavutti 94,2%: n tarkkuuden kielten ymmärtämistesteissä, ylittäen hiukan ChatgPT: n 92,8% [2].
* Koodaus: GROK 3: n on ilmoitettu olevan 1,2x nopeampi kuin chatgpt koodintuotannon nopeudella, keskimääräinen vasteaika 0,8 sekuntia [2].
* Areena-pisteet: Varhainen Grok 3: n versio, jota kutsutaan "suklaaksi", oli ensimmäinen AI, joka ylitti pistemäärän 1400 LMSYS Chatbot-areenalla, ylittäen GPT-4O: n [4].
* Perustelu ja reaaliaikainen tieto: GROK 3 näyttää voimakkuuden matemaattisissa päättelyissä, koodaustehtävissä, reaaliaikaisessa data-analyysissä ja nykyisissä tapahtumakeskusteluissa [2].
* Koulutus: Grok 3 on koulutettu käyttämällä reaaliaikaista tietoa X: ltä (entinen Twitter) tarjoamalla sille ajantasaisia tietoja [2]. Se koulutettiin XAI: n Colossus Superclusterilla, varustettu 100 000 GPU: lla [2].

Grok 3 vs. Kaksoset:

* Vertailuarvot: Grok 3 on ylittänyt Google Deepmindin Gemini-2 Pron eri vertailuarvoilla [1].
* Chatbot Arena (LMSYS): GROK 3: n varhainen versio ylitti tärkeimmät mallit, kuten Gemini-2.0 Flash-ajattelu chatbot-areenalla [1].
* Matematiikka (Aimeâ 24): Matematiikassa (AIMEâ 24) Benchmark, Grok 3 teki 52, kun taas Gemini-2 Pro sai 39 [4].
* Tiede (GPQA): Tiede (GPQA), Grok 3 pisteytettiin 75, ylittämätön Gemini-2 Pro, joka teki 65 [4].

Viittaukset:
.
.
.
.
[5] https://www.youtube.com/watch?v=WXQHHCGNBZS
.
.
.
[9.