karminski-牙医 · @karminski3

就这??? 马斯克你认真的吗? 来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体...

View this X/Twitter post from @karminski3 published on July 10, 2025 at 11:13 AM. This post contains 1 video.

Published
July 10, 2025 at 11:13 AM
Thread Items
1
Media Items
1
karminski-牙医 avatar
karminski-牙医
@karminski3
July 10, 2025 at 11:13 AM

Tweet Overview

View this X/Twitter post from @karminski3 published on July 10, 2025 at 11:13 AM. This post contains 1 video.

就这??? 马斯克你认真的吗?

来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 

结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦,这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 

从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 

建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果.

更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵.

#Grok4

More from @karminski3

Archived posts from karminski-牙医

View All

Related Creators

TwitFast

v1.4.88

Free Twitter video downloader. Top Twitter trends and hashtags list, Monitor, track hottest trending topics, hashtags.

© 2024 TwitFast All rights reserved.