新鲜出炉:Gork 4模型
详细测评数据:Grok 4 - 智能、性能和价格分析 | 人工智能分析
阅读前,请先关注,谢谢🙏
说明
马斯克表示 Grok 4 是“世界上最智能的 AI”,并称其进化速度“远超任何人类”。Grok 4 具备卓越的推理能力,即使面对从未见过的考题,也能在 SAT 和 GRE 等高难度考试中取得近乎完美的成绩。
马斯克表示:Grok 系列展现出“荒谬的进步速度”(Ludicrous rate of progress)。从 Grok 2 到 Grok 4,每一代模型的训练计算量增加约 10 倍,总增幅达 100 倍。
核心基准测试
MMLU评分: 0.866(86.6%)- 高于平均水平
Artificial Analysis智能指数: 73分 - 超过OpenAI o3(70分)、Google Gemini 2.5 Pro(70分)、Anthropic Claude 4 Opus(64分) Grok 4 Benchmarks Explained: Why Its Performance is a Game-Changer - Kingy AI
高级推理能力
ARC-AGI-2测试: 15.9%准确率,据报道是下一个最佳模型Claude Opus的两倍表现 Musk’s Grok-4 Crushes Benchmarks, Beats OpenAI & Google in RL | AIM,是过去三个月中唯一突破10%门槛的模型 Musk’s Grok-4 Crushes Benchmarks, Beats OpenAI & Google in RL | AIM
人文学科期末考试: 得分高达50%,超越了Opus 4和Gemini 2.5 Pro等竞争对手 Grok 4 Released : Features, Performance, and Controversies - Geeky Gadgets
学术水平表现
博士水平!
博士级问题处理: 在涵盖数学、物理、化学、人文学科和计算机科学的2500个问题中,有一半取得了两位数的分数 Grok 4 is Here and it's Simply Brilliant! - Analytics Vidhya
数学分析: Grok 4 Heavy达到了完美分数,展示了对高级数学的近乎完美掌握
订阅定价
高级订阅: 每月$300(刚推出的新订阅层级)
API定价:
输入token:每百万token 输出:每百万15.00
混合定价:每百万token $6.00(3:1比例)
成本效益分析
相对昂贵: 比市场平均价格高出显著幅度
定位: 面向高端用户和企业级应用
处理速度
输出速度: 76.1 tokens/秒(低于平均水平)
首token延迟: 5.69秒(高于平均延迟)
整体评价: 在速度方面表现一般
上下文处理
上下文窗口: 260k tokens
相对表现: 小于当前市场平均水平
评论区