AI | FunkyGod - 投资与AI实践笔记

AI Agent 时代，为什么我放弃 Markdown 全面转向 HTML

AI Agent 时代，为什么我放弃 Markdown 全面转向 HTML 原文作者：Thariq（@trq212），Claude Code 团队工程师原文发布于 2026 年 5 月 9 日背景 Markdown 已经成为 AI Agent 与我们沟通时的主流文件格式。它简洁、可移植，具备一定的富文本能力，并且便于编辑。Claude 甚至已经擅长在 Markdown 文件中用 ASCII 字符绘制图表。但随着 Agent 能力越来越强，我开始觉得 Markdown 成了一种束缚。 Markdown 的局限性信息密度低超过 100 行的 Markdown 文件读起来就很吃力。当 Claude 需要表达：表格数据设计系统（颜色、组件）图表和插图交互效果 Markdown 只能：画丑丑的 ASCII 图用 unicode 字符近似呈现颜色（如 🟣🟢🔴）贴截图或图片链接视觉体验差 Markdown 扁平化了一切。代码 diff、流程图、模块关系——这些空间信息在 Markdown 里全部被压成一维文字。当方案的复杂度超过一屏时，Markdown 从"文档"变成了"阅读障碍"。分享不便大多数浏览器不能原生渲染 Markdown 文件。你只能：作为邮件附件发送粘贴到 GitHub 评论里上传到某个平台（Notion、飞书等）而 HTML？上传到 S3 或任何静态托管，一个链接就能分享。 ...

我的AI模型使用情况分享：从云厂商到编程Agent的实战体验

我的AI模型使用情况分享首先，大多数国内云厂商和模型服务商的模型我都接入和使用过，以下是根据实际体验得出的算力服务上自测评价，排序靠前说明体验感和实际使用效果很好；我的模型体感（云厂商和模型商）主要以稳定性、模型质量、使用体验为主的主观描述，国外模型不在表单里，因为属于算力能力和模型能力双领先；排名平台我的推荐理由我的使用劣势感受 1 火山引擎 / 火山方舟我会把它作为线上生产环境的首选，尤其适合需要低延迟、高稳定性和持续调用的业务。我觉得它的优势主要集中在生产稳定性上，如果追求极限低价，可能不是最便宜的选择。 2 阿里云百炼我会把它作为企业级 AI 应用和多模型生态的主力平台，尤其适合需要工具链、Batch、长上下文和模型管理的场景。我觉得它的产品体系比较完整，但也相对复杂，上手和配置成本会比单一 API 平台高一些。 3 DeepSeek 官方我会把它作为低成本、高性价比调用 DeepSeek 模型的首选，适合大批量、成本敏感的任务。我在高峰期可能会担心它的稳定性和响应速度，所以不一定会把它单独作为核心生产依赖。 4 腾讯云我会把它作为腾讯云生态内项目的补充选择，尤其适合已经在腾讯云上部署业务的场景。我觉得它在价格和综合体验上不算最突出，如果没有腾讯云生态绑定，吸引力会弱一些。 5 硅基流动我会把它作为模型试验和多模型切换的平台，适合快速测试不同开源模型和低成本方案。我觉得它更适合测试和非实时任务，强实时生产场景下我会更谨慎。 6 MiniMax 官方我会在长上下文、多模态、语音或特定 MiniMax 模型能力上优先考虑它。我不会把它作为通用推理 API 的第一主力，因为平台综合稳定性和生态证据不如火山、阿里这类云厂商充分。 7 智谱 GLM 官方我会在中文场景、长上下文、工具调用和国产模型适配上考虑 GLM。我觉得它的模型能力有特色，但公开的第三方平台级压测资料相对不足，所以生产主力选择上我会保守一些。 8 天翼云息壤我会在政企、国产化、合规、央国企或电信体系项目里优先考虑它。我觉得它更偏政企交付和合规场景，作为个人开发者或互联网产品的主力 API，体验和灵活度可能不是最优，当前缺失缓存机制，成本很高且模型上下文窗口阉割和算力不足。我的主力模型 gpt + glm5.1 企业使用：火山放在线上实时调用、Agent 后端、需要稳定低延迟的任务；阿里放企业生态、Qwen、百炼工作流、Batch、长上下文和多模型兜底个人使用： Claude/Codex 更像"会干活的工程师" 或智谱的coding plans 政企客户：尤其是电信、政务、金融、央国企场景，息壤价值在合规、国产算力、专网和交付，但个人开发者不推荐国内模型模型自测排行 GLM5.1（推荐，中等难度编程或自主任务执行） DeepSeek v4（可以赶上GLM5.1） MiniMax 2.7（在复杂任务执行，效果欠佳，比如openclaw的agent自主任务） Seedance 2.0（推荐，视频质量还可以，够用） MiniMax 2.5 和 GLM5（仅适合简单任务）豆包 = 千问 > 元宝（网页使用推荐前2个）模型用量数据我的智谱AI，开通的是季度lite套餐，月度使用量截止到现在是31亿tokens； ...

【AI前沿观察】2026-05-10 日报

【AI前沿观察】2026-05-10 日报自动生成于 2026-05-10 23:00 📊 今日推送概览共推送 19 条重要资讯，创单日推送量新高。今日主线有三： OpenAI 产品大爆发——七项更新齐发，从 Agent 安全到广告商业化全覆盖 Q1 财报季收官——四大科技巨头 AI Capex 合计 $725B 创纪录，Google Cloud 63% 增速成最大亮点 AI 竞争格局剧变——中国大模型调用量首超美国，Anthropic 年化收入超越 OpenAI，英伟达中国市场份额归零 🔵 AI 领域 Running Codex safely at OpenAI 事实：OpenAI 详细阐述了 Codex 编程 Agent 的安全部署框架。核心设计包括：沙盒执行边界（限制写入路径、网络访问）、分级审批策略（低风险自动通过，高风险需人工确认）、Auto-review 子代理（自动审批常规请求减少中断），以及代理原生遥测日志。思考：标志着 AI Agent 从"能用"到"敢用"的关键转变。把沙盒、审批、日志三大机制系统性整合，本质上是在做 AI Agent 的"企业安全合规操作系统"。Auto-review 子代理——用 AI 审批 AI——的设计尤其巧妙，将成为所有 Agent 产品的标配。 Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber 事实：OpenAI 发布 GPT-5.5-Cyber 网络安全专用模型，以限量预览形式提供给关键基础设施安全团队。同时推出 Trusted Access for Cyber（TAC）信任框架，基于身份验证和信任分级让防御者获得增强能力。思考：AI 行业"负责任能力释放"的标杆案例。身份验证 + 信任分级 + 能力分层的三重架构，比简单的"全开放"或"全封闭"都成熟得多，可能成为 AI 安全分发的行业标准模式。 Advancing voice intelligence with new models in the API 事实：发布三个语音 API 模型：GPT-Realtime-2（首个搭载 GPT-5 级推理能力的语音模型）、GPT-Realtime-Translate（实时翻译，70+ 输入语言到 13 种输出语言）、GPT-Realtime-Whisper（流式语音转文本）。思考：语音正在成为 AI 交互主战场。OpenAI 不是升级一个模型，而是把语音交互全链路产品化——转录、翻译、对话推理三位一体。GPT-Realtime-2 搭载 GPT-5 级推理意味着语音对话终于可以"边想边说"。2026 下半年可能迎来语音 AI 应用爆发。 Introducing Trusted Contact in ChatGPT 事实：ChatGPT 推出"信任联系人"功能，当系统检测到用户可能讨论自我伤害等严重安全问题时，可通知用户提前指定的信任联系人。功能可选，不替代专业心理危机服务。思考：AI 产品责任感的具体体现。把"社会连接"这个心理学中最有效的自杀预防保护因素，以产品设计的形式嵌入 AI 系统。可能在 AI 行业开创先例——AI 产品不仅是工具，也是用户福祉的守护者。 GPT-5.5 Instant：更智能、更清晰、更个性化事实：OpenAI 推出 GPT-5.5 Instant 快速对话模型。核心升级：幻觉大幅减少（事实准确性显著提升）、回答结构更清晰、支持个性化记忆。思考：命名暗示 OpenAI 已形成完整产品矩阵——Opus 做重度推理，标准 GPT-5.5 做通用任务，Instant 做快速对话。幻觉减少直接决定 AI 能否被信任用于生产环境。前沿企业如何拉开差距 — B2B Signals 事实：OpenAI 推出 B2B Signals 商业智能信号平台，帮助企业识别 AI 在其行业中的采用趋势、竞对动态和最佳实践。结合 Codex Agent 形成"洞察→决策→执行"闭环。思考：不只是数据分析工具，更是"行业 AI 采用的雷达"。信息差本身就是巨大的商业价值。OpenAI 正在构建从"看到机会"到"抓住机会"的端到端企业 AI 平台。中国大模型周调用量首超美国事实：OpenRouter 数据显示，中国大模型周调用量达 7.94 万亿 Token，环比增长 81.7%，全球前五大模型中中国占四席，总占比达 85.7%。思考：这是一个里程碑式的数据。中国在 AI 应用层的规模优势正在转化为真正的市场力量。调用量不等于营收，但当你的产品被用得越多，迭代速度就越快，飞轮效应就越强。黄仁勋确认英伟达中国市场份额归零事实：英伟达 CEO 黄仁勋确认，受美国出口管制影响，英伟达在中国的市场份额已经归零。他警告这将拖慢全球 AI 部署进度。思考：英伟达中国份额归零不是英伟达的失败，而是地缘政治对全球科技产业切割的极端案例。中国 GPU 市场的空白将被华为昇腾、摩尔线程等国产替代加速填补。深圳耀光超算的发布就是例证。 Anthropic 年化收入首超 OpenAI 事实：Reuters 报道，Anthropic 年化收入达到 $90 亿，首次超过 OpenAI 的 $80-85 亿。Anthropic 推理毛利率达 70%，正寻求融资 500 亿美元。思考：这个数据点改写了行业叙事。长期以来 Anthropic 被视为"老二"，但凭借企业级 API 业务的高毛利，在收入上实现了反超。说明 AI 市场不是一个赢者通吃的游戏，企业级市场的付费意愿远高于消费者市场。 DeepSeek 多模态论文 + 灰度测试事实：DeepSeek 发布多模态论文，识图功能开启灰度测试。华为昇腾平台已全面支持 DeepSeek V4 模型。思考：DeepSeek 正在从"纯文本模型"进化为"全模态模型"。与华为昇腾的深度绑定意味着中国 AI 产业链正在形成"国产模型 + 国产算力"的闭环。 xAI 发布 Grok 4.3 降价六成事实：xAI 发布 Grok 4.3，输入 $1.25/输出 $2.50 每百万 token，较此前降价约 60%。代理任务 Elo 评分提升 321 分。思考：价格战继续升级。xAI 的激进定价策略直接对标 OpenAI 和 Anthropic，通过低价抢夺开发者生态。代理任务 Elo +321 说明不只是便宜，能力也在提升。 🟠 半导体 SEMI：全球芯片需求强劲，2026 年达 $1 万亿事实：SEMI 报告指出全球芯片需求持续强劲，预计 2026 年市场规模达 $1 万亿，2035 年达 $2 万亿。东南亚需要大幅扩产以满足需求。思考：$1 万亿意味着半导体正式进入"万亿产业"时代。AI 是最大驱动力，但供应端的瓶颈同样明显——制造产能、先进封装、电力供应都是约束。东南亚成为新的产能扩张焦点，地缘政治推动供应链多元化。深圳超算发布耀光 LineShine 事实：深圳超算中心发布耀光 LineShine 超级计算机，采用 100% 国产 CPU，零英伟达 GPU，算力剑指全球前列。思考：这是中国"去英伟达化"的标志性成果。在英伟达中国市场份额归零的背景下，耀光 LineShine 证明了中国在高性能计算领域的自主替代能力已经从"可用"走向"好用"。对中国超算和 AI 基础设施产业意义深远。 🟡 AI 货币化四大科技巨头 2026 年 AI Capex 创纪录 $725B 事实：四大科技巨头（Microsoft、Amazon、Meta、Alphabet）2026 年 AI 资本支出合计 $7250 亿，同比增长 77%。其中 Microsoft $250 亿的增长归因于芯片涨价。思考：$7250 亿是一个令人震惊的数字。四个公司一年在 AI 基础设施上的投入超过了很多国家的 GDP。核心问题是：这些投入的 ROI 什么时候能兑现？目前只有 Google Cloud 的 63% 增速给出了一个相对正面的回答。 Alphabet Q1 2026：Cloud 收入 $20B（+63%），backlog $462B 事实：Google Cloud 首次单季收入突破 $200 亿，同比增长 63%。GenAI 产品收入增长 800%。云业务 backlog 达 $4620 亿。盘后股价上涨 7%。思考：Google Cloud 63% 的增速是本次财报季最大的亮点，也是对 AI Capex 投入最强有力的验证。GenAI 收入 +800% 说明 Google 终于找到了 AI 变现的节奏——从搜索广告的增量到云服务的 AI 增值，两条腿走路。 Microsoft Q3 FY2026：Azure 重回 40% 增长，Copilot 2000 万付费席位事实：Azure 增速重回 40%，Copilot 付费席位突破 2000 万。取消 OpenAI 分润，Capex 达 $1900 亿。Maia 200 自研 AI 芯片开始部署。思考：取消 OpenAI 分润是一个重要信号——Microsoft 正在从"依赖 OpenAI"转向"多模型战略"。Copilot 2000 万付费席位说明企业 AI 工具的 PMF（产品市场匹配）正在验证。$1900 亿 Capex 背后是 Maia 自研芯片的战略意图：降低对英伟达的依赖。 Meta 上调 Capex 至 $125-145B，盘后跌 6% 事实：Meta 上调 2026 年 Capex 指引至 $1250-1450 亿，盘后股价下跌 6%。Zuckerberg 在财报电话会上关于 AI 投入 ROI 的回答未能安抚投资者。思考：Meta 是四大巨头中唯一因 AI 投入遭抛售的公司，核心原因是 ROI 叙事模糊。不同于 Google 有 Cloud 收入验证、Microsoft 有 Copilot 付费席位，Meta 的 AI 投入主要服务于广告效率提升，这种"间接变现"让投资者难以量化。Zuckerberg 需要一个更清晰的 AI 变现故事。 CoreWeave Q1：收入 $2.1B（+112%），净亏损扩至 $740M 事实：AI 云服务商 CoreWeave Q1 收入 $21 亿，同比增长 112%，但净亏损扩大至 $7.4 亿。Q2 指引不及预期。Backlog 达 $994 亿。思考：CoreWeave 的"增收不增利"揭示了 AI 基础设施层的一个深层问题——GPU 云是一门资本密集型生意，收入增长被折旧和利息支出吞噬。$994 亿 backlog 说明需求不缺，但利润模型的可持续性存疑。 Testing ads in ChatGPT 事实：ChatGPT 广告试点扩展至英国、墨西哥、巴西、日本和韩国。早期数据：用户信任指标未受影响、广告关闭率低、相关性持续改善。广告仅面向 Free 和 Go 层用户。思考：ChatGPT 周活超 5 亿，如果广告模式跑通，这将是继 Google 搜索广告之后最大的注意力变现平台。"回答不受广告影响"和"对话对广告商保密"是正确的底线。AI 对话广告的 CPM 水平将决定 OpenAI 的估值天花板。 🟣 具身智能今日无具身智能专项推送（昨日推送了 Zeroth M1 接入腾讯 OpenClaw、Dobot ISO 认证等 5 条）。 ...

飞书接入 OpenClaw Agent 后，飞书文档到底能怎么用？

飞书文档负责承载个人或团队的知识，OpenClaw Agent 负责理解、整理和执行完成 OpenClaw Agent 与飞书 Bot 的绑定后，很多人第一反应是： "好了，Bot 能聊天了，然后呢？" 其实，飞书 Bot 只是入口。真正有价值的是：Agent 可以基于飞书文档、知识库、多维表格、群消息等能力，变成一个能读、能写、能整理、能执行的团队 AI 助手。本篇博文旨在：绑定完成飞书 Bot 后，后续如何使用飞书文档，以及飞书文档可以帮助我们完成哪些工作。第0步：飞书机器人开通文档权限一、绑定完成后，怎么开始使用？绑定飞书 Bot 后，通常有两种使用方式：第一种是私聊机器人。你可以像和同事沟通一样，直接给机器人发消息。例如：帮我读取这个飞书文档： https://xxx.feishu.cn/docx/xxxxxx 总结成 5 条要点，并列出待办事项。或者：在这个文档末尾追加一段"今日进展"，内容包括： 1. 完成接口联调 2. 发现 2 个权限问题 3. 明天继续处理配置排查第二种是在群里 @机器人。例如在项目群中发送： @OpenClaw助手帮我把这份会议纪要整理成行动项，并按负责人分类。如果机器人已经被拉进群，并且 OpenClaw 配置了对应的群权限，那么它就可以根据你的指令处理文档、生成内容，甚至同步结果到指定飞书文档或多维表格中。二、飞书文档可以用来做什么？ 1. 读取文档并自动总结这是最常见的使用场景。你只需要把飞书文档链接发给 Agent，它就可以读取文档内容，并帮你做摘要、提炼重点、整理待办事项。例如：帮我阅读这个 PRD，输出： 1. 项目背景 2. 核心需求 3. 开发任务 4. 风险点 5. 下一步建议适合处理的文档包括： ...

我的AI心得：别教 AI 做事，限制 AI 的，往往是我们自己

不要一上来就告诉 AI 该怎么做。很多时候，AI 没有发挥好，不是因为它不够强，而是因为我们把它框住了。我们习惯先想一个方案，再让 AI 去执行。问题是，AI 的知识、工具和组合能力，可能远超我们的个人经验。如果一开始就让 AI 按照我们的办法做，本质上就是在用自己的认知边界，限制 AI 的能力。 1. 最大的误区：把自己的方案当成需求很多人用 AI，是这样开始的：你帮我按照这个方法实现一下。然后 AI 开始执行，折腾半天，效果一般。最后再问一句：有没有更好的办法？这时 AI 反而可能给出一个完全不同、但明显更优的方案。问题就在这里：我们太早给出了方案，却没有讲清楚问题。我们以为自己在提需求，其实是在把自己的解法塞给 AI。但 AI 的价值不只是执行。它可以帮你重新定义问题、拆解问题、发现盲区，甚至找到更短的路径。如果你只让它执行你的方案，那你用到的只是 AI 的一小部分能力。 2. 正确方式：先讲目标，再谈方案不要一上来就说：帮我做这个。按这个步骤来。用这个方法实现。更好的方式是先说清楚：我想达成什么目标？我正在解决什么问题？背景是什么？有哪些限制？最终结果要满足什么要求？我现在卡在哪里？我试过哪些办法？先别急着让 AI 干活。先让它参与判断： ...

Claude Opus 4.7 正式发布：编程能力飞跃，多模态大幅增强

🚀 核心发布信息模型名称：Claude Opus 4.7 定位：Opus 4.6 的直接升级版，但能力不及最强模型 Claude Mythos Preview 定价：与 Opus 4.6 相同（输入 $5/M tokens，输出 $25/M tokens）可用渠道：Claude 全系产品、API、Amazon Bedrock、Google Vertex AI、Microsoft Foundry 📈 主要技术升级 1️⃣ 编程能力大幅提升在 Anthropic 内部 93 项编码基准测试中：指标 Opus 4.6 Opus 4.7 提升综合解决率 58% 70% +12% 复杂任务部分失败解决 4 个新任务首次突破工具错误率基准减少 1/3 大幅提升执行连续性易中断贯穿工具故障显著改善用户反馈（来自早期测试）： Devin：长时间自主工作数小时，攻克此前无法解决的难题 Cursor：CursorBench 从 58% → 70% Factory Droids：任务成功率提升 10-15%，更少工具错误 CodeRabbit：代码审查召回率提升 10%+ 2️⃣ 多模态视觉增强参数 Opus 4.6 Opus 4.7 最大长边分辨率 ~800px 2,576px（约 3.75MP）提升倍数 1× 3×+ 应用场景： ...

老板们，一定要搞定您公司的龙虾记忆分层

🧠 记忆分层架构（原生 3 层 + 我扩展的 2 层）层级存储形式生命周期用途访问范围 0️⃣ 会话上下文当前对话历史（数组）单次会话实时理解、即时决策当前 session 1️⃣ 每日日志 memory/YYYY‑MM‑DD.md 永久（文件）原始事件记录、原始决策、待办当前 agent（main session） 2️⃣ 长期记忆 MEMORY.md 永久（文件）精炼知识、经验总结、偏好、教训仅 main session（安全隔离） 3️⃣ 结构化知识 Ontology 知识图谱（可选技能）永久（图谱文件）实体关系、项目依赖、跨技能状态共享安装了 ontology 技能时 4️⃣ 跨会话索引已索引的会话记录（内部存储）永久（索引）搜索历史对话、跨会话回忆通过 memory_search 工具 5️⃣ 外部补充 Compiled‑wiki 补充资料（可注册）永久（外部）额外文档、知识库 memory_search corpus=wiki 📂 各层详情 0️⃣ 会话上下文（Session Context）内容：本次对话的最近数十条消息。特点：临时性，session 结束后自动消失（除非显式持久化）。用途：维持对话连贯、处理指代。 1️⃣ 每日日志（每日日志）路径：<workspace>/memory/YYYY‑MM‑DD.md 写入时机：重要事件发生后（如完成任务、发布博客） Heartbeat 检查时归档临时信息示例： ## 2026‑04‑29 - 解读 browser-use 仓库 - 创建 DeepSeek V4 博客文章 - 更新 TOOLS.md（新增 browser-use 技能笔记）安全：仅在 main session（直接对话）自动加载，群聊、共享环境不读取。 2️⃣ 长期记忆（MEMORY.md）路径：<workspace>/MEMORY.md 本质：策划后的精华记忆，相当于人类的长期记忆。存放：用户偏好（如“主人喜欢简洁技术总结”）重要决策（如“默认模型改为 GLM‑4.7”）经验教训（如“避免在群聊中加载 MEMORY.md”）项目上下文（如“blog‑demo 使用 Hugo + PaperMod”）维护：Heartbeat 定期回顾最近的每日日志，提炼有价值信息写入。 3️⃣ 结构化知识（Ontology）技能：ontology（如果已安装）模型：实体（Person、Project、Task、Event、Document）+ 关系（link、depends_on 等）好处：跨技能共享状态、约束检查、依赖可视化，适合复杂业务工作流。 4️⃣ 跨会话索引（Session Transcripts）机制：OpenClaw 为每个会话生成 sessions/YYYY‑MM‑DD‑<slug>.md 并自动建立向量+BM25 混合索引。检索：memory_search(query, corpus="all") 自动搜索这些索引。检索原理：向量搜索（70% 权重）捕捉语义相似度 BM25（30% 权重）保证精确关键词匹配每块约 400 token，80 token 重叠，SHA‑256 去重 5️⃣ 外部补充（Compiled‑wiki）用途：接入公司内部 Wiki、产品手册、行业文档等外部知识库。访问：同样通过 memory_search corpus="wiki" 检索。 🔍 原生检索机制向量 + BM25 融合（70%/30%）块分割：400 token 块 + 80 token 重叠，防止上下文丢失去重：块 SHA‑256 哈希，已有向量直接命中缓存压缩触发：当会话快达到上下文上限时，系统会让模型在压缩前把关键信息写入 memory/*.md 或 MEMORY.md（即所谓的 “Dreaming”） 📦 实际操作示例 # 查看今天的日志 cat $(date +%Y-%m-%d).md # 向长期记忆写入关键结论（示例） cat >> MEMORY.md <<EOF - 结论：使用向量+BM25 的混合检索可以兼顾概念关联和精确匹配。 EOF # 用 ontology 记录项目关系 ontology create entity Project name="blog-demo" ontology create relationship link source=Project target=Document name="deepseek-v4.md" 🔐 记忆安全与隔离（简要回顾）文件系统权限：700 目录、600 文件，仅当前 agent 可读写。会话层隔离：MEMORY.md 只在主私人会话加载，避免在群聊泄露。审计日志：每次写入都会记录在 memory/heartbeat-state.json，可追溯。子代理 sandbox：默认只读工作区，写入必须显式声明。可选加密：若有合规需求，可对 MEMORY.md 进行 AES‑256‑GCM 加密。 🎯 小结 OpenClaw 的记忆分层把即时日志、长期精华、结构化实体、跨会话索引和外部 Wiki 五层有机结合，兼顾可检索性、安全性与可维护性。通过混合向量+BM25 检索、块去重与 Dreaming 机制，保证重要信息不被上下文压缩遗失。正确使用 memory_search、memory_get、ontology 等工具，可以让企业 AI 助手在千余次会话后仍保持对关键业务的清晰记忆。 #openclaw #龙虾 #memory ...

DeepSeek V4：百万上下文 + 最高峰离线推理

发布时间：2026‑04‑24 模型名：deepseek‑v4‑pro / deepseek‑v4‑flash 上下文：1 M token（百万级）核心技术：混合注意力、多维压缩、流形约束超连接、Muon优化器 1️⃣ 一览版本参数量激活量目标亮点 V4‑Pro 1.6 T 49 B 最高端开源模型 V4‑Flash 284 B 13 B 极致效率/低成本备注：两版均支持 1 M token 上下文，思考模式 (reasoning‑effort) 可调高/把握成本。 2️⃣ 技术回顾 2.1 混合注意力机制（CSA + HCA） CSA：在 KV 维度进行 4 : 1 压缩，结合 DSA 稀疏注意力，利用 Lightning‑Indexer 仅保留 top‑1024 KV 项。 HCA：压缩率 128 : 1，全部 KV 参与计算，滑动窗口‐512 tokens 跨层捕捉全局依赖。优势：相比前代仅 27 % 的算力、10 % 的 KV 缓存，显存与训练成本大幅下降。 2.2 流形约束超连接（mHC）采用双随机矩形流形（Birkhoff‑Polytope）约束残差映射，确保谱范数 ≤ 1，信息在深层网络不发散，训练稳定性上升 6.7 % 成本。 2.3 Muon 优化器对梯度动量进行 Newton‑Schulz 正交化，10 次混合迭代实现快速收敛。结合 Anticipatory‑Routing 与 SwiGLU‑Clamping，进一步提升训练速度与模型收敛稳定性。 3️⃣ 性能表现指标 V3‑2 V4‑Pro V4‑Flash Agent‑Coding 开源前列最高接近 Pro 世界知识较差仅微距差距次佳推理速度 1.43× 3.80× 4.14× 1M KV 缓存 49 B 6.2 B 5.5 B 结论：V4‑Pro 以与 Gemini‑Pro‑3.1 并驾齐驱的性能，处理复杂 Agent 任务如代码生成、文档翻译等表现尤为出色；V4‑Flash 则以 13 B 激活实现极低成本、最快速度的 1 M‑上下文使用场景。 ...

老板们，公司有在用OpenAI GPT-5.5吗？员工必须用上codex！

老板们，公司有在用OpenAI GPT-5.5吗？员工必须用上codex！最近很多公司在问：OpenAI GPT-5.5 来了，我们公司要不要赶紧用上？我的建议是：用，但不是让员工去用 ChatGPT 聊天，而是必须把 Codex 集成进开发流程！什么是 Codex？ Codex 是 OpenAI 专门为代码任务优化的大模型，是 GPT-5.5 系列中的"程序员专属版本"。它不是用来聊天的，是直接嵌入到你的 IDE、CI/CD 流水线、代码审查系统里的。为什么老板们必须重视？效率提升 3-5 倍：重复性代码、单元测试、代码审查，AI 帮你搞定减少低级 Bug：Codex 可以在提交前自动检查常见错误加速新人上手：新人问 AI 比问老员工更快，项目启动速度翻倍怎么落地？不是让每个人去开一个 ChatGPT 账号，而是： DevOps 集成：把 Codex 接到 GitLab/GitHub Actions，代码提交自动审查 IDE 插件：给团队装上 Cursor、Windsurf 等 AI 编程工具内部知识库：把公司代码规范、架构文档喂给 AI，做成本地化的编码助手老板们的行动清单 ✅ 现在就评估团队目前的 AI 工具使用情况 ✅ 联系技术负责人，规划 Codex 集成路线图 ✅ 先从 1-2 个项目试点，看看效率提升数据 ✅ 3 个月后复盘，决定是否全面推广结论：GPT-5.5 不可怕，可怕的是你的竞争对手用上了 Codex，你还在手动写代码。赶紧动起来！

Awesome DESIGN.md：AI 时代的像素级 UI 设计系统

开源的AI设计灵感收集网站 awesome-design-md 收集和提供现成的能被 AI 理解的设计规范,Awesome DESIGN.md 为开发者提供了一个优雅的解决方案 —— 复制一个 DESIGN.md 文件到项目根目录，告诉 AI 代理"给我一个这样的页面"，就能得到像素级完美的 UI。关键词：#AI #awesome-desgin-md 实际效果演示：用AI复刻Wise风格的网站 Wise 复刻网站地址：https://vi-wealth.com 什么是 DESIGN.md？ DESIGN.md 是 Google Stitch 推出的一个创新概念。它是一个纯文本的设计系统文档，AI 代理可以通过阅读这个文档来生成一致的 UI。与传统的设计交付方式相比：传统方式 DESIGN.md Figma 导出（复杂、需要解析）纯 Markdown（LLM 原生理解） JSON Schema（需要配置）零配置，即插即用设计文档（难以代码化）语义化描述，代码可直接生成简单来说，DESIGN.md 就是给 AI 看的设计文档。它用 LLM 最擅长阅读的 Markdown 格式，完整描述了项目的视觉风格。 Awesome DESIGN.md 提供了什么？这个仓库收集了 58 个知名网站的 DESIGN.md 文件，全部从真实网站提取，覆盖了多个领域： AI & 机器学习（12 个） Claude - Anthropic 的 AI 助手，温暖的陶土色调 ElevenLabs - AI 语音平台，深色电影级 UI Ollama - 本地 LLM 运行，终端极简主义 xAI - Elon Musk 的 AI 实验室，未来派单色设计开发者工具（14 个） Cursor - AI 优先代码编辑器，流畅深色界面 Linear - 工程师项目管理，极致精确的紫色点缀 Vercel - 前端部署平台，黑白精确度，Geist 字体 Supabase - 开源 Firebase 替代品，深色祖母绿主题基础设施（6 个） ClickHouse - 快速分析数据库，黄色点缀技术文档风格 Stripe - 支付基础设施，标志性紫色渐变 MongoDB - 文档数据库，绿色叶子品牌设计与生产力（10 个） Figma - 协作设计工具，生动多彩，专业而有趣 Notion - 一体化工作区，温暖极简主义，衬线标题 Framer - 网站构建器，大胆黑蓝，运动优先企业与消费品牌（7 个） Apple - 消费电子， premium 留白，SF Pro 字体 Tesla - 电动汽车，极致减法，电影级全屏摄影 SpaceX - 航天技术，纯粹黑白，未来感汽车品牌（5 个） Ferrari - 奢华汽车，明暗黑白社论式，法拉利红极度简约 Lamborghini - 奢华汽车，纯黑大教堂，金色点缀 Tesla - 电动汽车，极致减法，电影级全屏摄影每个 DESIGN.md 包含什么？每个文件都遵循 Stitch DESIGN.md 格式，包含 9 个核心部分： ...