新鲜出炉：Gork 4模型

详细测评数据：Grok 4 - 智能、性能和价格分析 | 人工智能分析
阅读前，请先关注，谢谢🙏

说明

马斯克表示 Grok 4 是“世界上最智能的 AI”，并称其进化速度“远超任何人类”。Grok 4 具备卓越的推理能力，即使面对从未见过的考题，也能在 SAT 和 GRE 等高难度考试中取得近乎完美的成绩。

马斯克表示：Grok 系列展现出“荒谬的进步速度”（Ludicrous rate of progress）。从 Grok 2 到 Grok 4，每一代模型的训练计算量增加约 10 倍，总增幅达 100 倍。

核心基准测试

MMLU评分: 0.866（86.6%）- 高于平均水平
Artificial Analysis智能指数: 73分 - 超过OpenAI o3（70分）、Google Gemini 2.5 Pro（70分）、Anthropic Claude 4 Opus（64分） Grok 4 Benchmarks Explained: Why Its Performance is a Game-Changer - Kingy AI

高级推理能力

ARC-AGI-2测试: 15.9%准确率，据报道是下一个最佳模型Claude Opus的两倍表现 Musk’s Grok-4 Crushes Benchmarks, Beats OpenAI & Google in RL | AIM，是过去三个月中唯一突破10%门槛的模型 Musk’s Grok-4 Crushes Benchmarks, Beats OpenAI & Google in RL | AIM
人文学科期末考试: 得分高达50%，超越了Opus 4和Gemini 2.5 Pro等竞争对手 Grok 4 Released : Features, Performance, and Controversies - Geeky Gadgets

学术水平表现

博士水平！
博士级问题处理: 在涵盖数学、物理、化学、人文学科和计算机科学的2500个问题中，有一半取得了两位数的分数 Grok 4 is Here and it's Simply Brilliant! - Analytics Vidhya
数学分析: Grok 4 Heavy达到了完美分数，展示了对高级数学的近乎完美掌握

订阅定价

高级订阅: 每月$300（刚推出的新订阅层级）

API定价:

输入token：每百万token 输出：每百万15.00
混合定价：每百万token $6.00（3:1比例）

成本效益分析

相对昂贵: 比市场平均价格高出显著幅度
定位: 面向高端用户和企业级应用

处理速度

输出速度: 76.1 tokens/秒（低于平均水平）
首token延迟: 5.69秒（高于平均延迟）
整体评价: 在速度方面表现一般

上下文处理

上下文窗口: 260k tokens
相对表现: 小于当前市场平均水平

目录CONTENT

新鲜出炉：Gork 4模型

新鲜出炉：Gork 4模型

说明

马斯克表示：Grok 系列展现出“荒谬的进步速度”（Ludicrous rate of progress）。从 Grok 2 到 Grok 4，每一代模型的训练计算量增加约 10 倍，总增幅达 100 倍。

核心基准测试

高级推理能力

学术水平表现

订阅定价

API定价:

成本效益分析

处理速度

上下文处理

评论区