返回首页

第11篇:Kimi K2.6 替代 Opus 省钱指南

✏️ @shmidtqq · 2026-05-12
📎 查看原文
📎 **来源:** @shmidtqq 原帖

>

**一句话:** 打开你的 Hermes 账单,看看上个月。大部分调用不是推理,而是"总结这个 PDF""润色这段文字""提取会议待办事项"——全都跑在 Claude Opus 4.7 上。Kimi K2.6 四月底发布,Hermes 原生支持,成本是 Opus 的十分之一。

PART 1. KIMI K2.6 到底是什么

发布三周。已在 Kilo Code、Augment Code、Vercel、Factory.ai 生产环境中使用。

  • 开源(Modified MIT 许可)
  • 总参数 1 万亿,每次激活 32B(MoE 混合专家)
  • 推理成本像 32B 模型,能力像 1T 模型
  • 关键数据:

  • 输入 $0.60 / 输出 $2.50 每百万 token(Moonshot API),缓存输入低至 $0.15
  • 256K 上下文窗口
  • SWE-Bench Pro:58.6%(超过 GPT-5.4 的 57.7% 和 Opus 4.6 的 53.4%)
  • HLE-Full with tools:54.0%(超过所有西方闭源前沿模型)
  • 12 小时以上自主会话已是常态
  • 比 K2.5 少用约 35% 步骤达成相同结果
  • 成本对比(每月 100M 输入 + 10M 输出 token):

  • Opus 4.7:~$2,550/月
  • Kimi K2.6:~$85/月
  • 年差额:$28,560
  • Kimi 的弱点: 纯数学计算、不熟悉 API 的模糊规范、大代码库深度跨文件推理。


    PART 2. 实战案例(有凭据的)

    案例 1:Zig 推理引擎

    只给了一台 Mac 和任务:下载小型 AI 模型,用 Zig(几乎没人用的编程语言)写代码运行它。Kimi 独自工作了 12 小时,14 次尝试,自己修复 bug。最终运行速度比开始时快 13 倍,比行业成熟工具 LM Studio 快 20%。

    案例 2:交易引擎

    Exchange-Core 是 8 年历史的开源交易匹配引擎,已被人类工程师调优到接近极限。Kimi 花了 13 小时,改了 4000 行代码,几乎将引擎速度提升了 3 倍。

    案例 3:KiloClaw

    Kilo Code CEO 公开背书:13 小时无监督,1000+ 工具调用,4000+ 行代码,吞吐量提升 185%。

    共同模式: 14 次迭代,不是一次搞定。15 tok/s 变成 193 tok/s 是因为代理循环、评估、修复、再循环。


    PART 3. 接入 Hermes(90 秒)

    Day-zero 支持。4月20日已可用。

    OpenRouter(30 秒):

    /model openrouter:moonshotai/kimi-k2.6

    ~$0.75/$3.50,略高于 Moonshot 直连,零配置。

    Moonshot 直连(2 分钟):

    /model moonshot:kimi-k2.6

    全球最优定价,缓存命中低至 $0.15/M。

    自部署:

    Hugging Face 上开源(Modified MIT),单台 8xH100 节点即可运行。


    PART 4. 辅助模型模式(95% 用户不知道)

    Hermes 不仅主对话用 LLM,还跑辅助模型做上下文压缩、会话摘要、标题生成、视觉识别、嵌入向量。

    默认情况下,所有这些都跑在你主模型上。这意味着你在用 Opus 价格生成三个词的标题、压缩永远不会再读的会话、OCR 截图。

    正确的路由策略:

    任务推荐模型
    主大脑Kimi K2.6(80% 工作量,10% 成本)
    难点逃逸Opus 4.7(Kimi 搞不定的 10%)
    压缩/摘要Kimi K2.6 instant 或 Haiku 4.5
    标题生成Haiku 4.5 或 MiMo
    视觉识别Kimi K2.6 原生多模态
    嵌入向量最便宜的

    配置一次,月账单降 70-85%,关键任务质量不受影响。


    PART 5. 两个成本陷阱

    陷阱一:思考模式膨胀

    Kimi K2.6 思考模式生成的输出 token 比 Opus 或 GPT 多 3.6 倍。虽然每 token 便宜 10 倍,但净优势只有 2.7 倍。长期代理循环中比例还会放大。

    解法: 默认使用非思考模式。/reasoning low/reasoning off。在 /insights 中监控 output:input 比例。

    陷阱二:漂移

    Kimi 又快又便宜,你会放松警惕。当它从"修复 auth 竞态条件"漂移到"顺便重构你的 token 存储",40 分钟和 80K token 就没了。

    解法: 在每个重要 Prompt 开头贴这段:

    Scope: [exactly which files / modules / behavior].
    Do not modify anything outside this scope.
    If you find a related issue, list it at the end. Do not fix it inline.

    两行文字,多文件工作时节省 15-25% token。


    PART 6. 什么时候用 Kimi,什么时候换

    Kimi K2.6 适合:

  • 代码生成、单元测试、重构
  • 长期代理循环
  • 文档处理、摘要
  • 数据提取
  • UI 原型设计、每天跑 100 次的任务
  • Opus 4.7 适合:

  • 不熟悉 API 的多栈集成
  • 模糊的规范
  • 大代码库深度跨文件推理
  • 法律/医疗/金融场景(一个字错比价差贵)
  • 复杂数学
  • 实际会话示例:

    /model moonshot:kimi-k2.6
    [起草,迭代,跑循环30次,完成95%]
    
    /branch
    /model anthropic:claude-opus-4-7
    [调试模糊边缘情况,验证架构]
    
    /model moonshot:kimi-k2.6
    [继续,/reasoning off,交付]

    三次切换,三个价格层级,一个会话。状态通过 /branch 延续。


    PART 7. Kimi 优先的技能

    Kimi 优先(设置 /model moonshot:kimi-k2.6):

  • /architecture-diagram
  • /excalidraw
  • /linear(CRUD)
  • /youtube-content(起草)
  • /test-driven-development
  • /systematic-debugging
  • /manim-video
  • /google-workspace
  • Opus 专用(/model anthropic:claude-opus-4-7):

  • 研究论文写作
  • 深度重构
  • 涉及金钱/合同/合规的一切
  • 小型模型(Haiku 4.5, MiMo-Lite):

  • /classify, /tag, /title-generator, /btw
  • 然后构建一个 /sage 风格的升级技能:默认 Kimi,--hard 标志或 Kimi 低置信度时升级到 Opus。

    升级技能模板:

    You are a senior engineer. Default behavior:
    1. Solve the task on Kimi K2.6.
    2. Pass tests / hit thresholds. Stop.
    3. After the solution passes, run one adversarial pass:
       "Critique your own solution. Find 3 weaknesses."
    4. If thresholds still don't hit after 3 iterations, set
       confidence=low and surface the blocker.
    5. On confidence=low or --hard flag, escalate to Opus 4.7
       with full context.
    
    Scope lock: only modify files I explicitly listed.

    这不是选一个模型,而是编排五个模型。跑一个月,账单从"可怕"变成"零头"。


    写在最后

    你接上 Hermes 选了 Opus,说了声"搞定"。然后每个任务——精彩的、无聊的、三个词的标题、"东京现在几点"——都跑在最贵的模型上。

    Kimi K2.6 4月20日发布。Day-zero Hermes 集成。代理编码领域最先进水平。大约十分之一的成本。已经在 /model 里等着了。

    如果你 2026 年还在把每个任务默认路由到 Opus,你不是在跑代理,你是在开着额外的火焰喷射器烧钱。

    转一下那个旋钮吧。


    这个工作流适合谁

  • ✅ 用 Hermes 但觉得月费太高的开发者
  • ✅ 想优化 AI 模型成本的人
  • ✅ 跑大量自动化任务/代理循环的人
  • ✅ 需要多个模型各司其职的重度用户
  • 核心心法: 编排五个模型,让每个任务跑在最便宜的、能胜任它的模型上。月度账单能降 70-85%。


    🥳 原文作者: @shmidtqq

    >

    📅 发布时间:2026-05-12
    📎 出典: @shmidtqq 原文ポスト

    >

    一言でいうと: Hermes の請求書を開いてみると、ほとんどの呼び出しは推論ではなく単純なタスクで、すべて Opus 上で実行されていました。Kimi K2.6 のコストは Opus のわずか10分の1です。

    PART 1. Kimi K2.6とは

    オープンソースの MoE アーキテクチャ、総パラメータ1T / 毎回のアクティベーション32B。
    SWE-Bench Pro 58.6% で GPT-5.4 と Opus 4.6 を上回ります。
    コスト比較:月間100M入力+10M出力:Opus $2550 vs Kimi $85。
    年間差額は $28,560 です。

    弱点:純粋数学、曖昧なAPI、大規模コードベースにおける深い推論。


    PART 2. 実戦事例

    Zig推論エンジン:12時間で独立稼働、LM Studioより20%高速
    取引エンジン:13時間 / 4000行、速度3倍向上
    KiloClaw:1000+ツール呼び出し / 4000+行、スループット185%向上


    PART 3. Hermesへの接続

    OpenRouter: /model openrouter:moonshotai/kimi-k2.6
    Moonshot直結: /model moonshot:kimi-k2.6


    PART 4. 補助モデルルーティング

    タスク推奨モデル
    主脳Kimi K2.6(80% 作業量、10% コスト)
    難所Opus 4.7(Kimi が苦手な10%)
    圧縮/要約Kimi K2.6 instant または Haiku 4.5
    タイトル生成Haiku 4.5 または MiMo
    視覚認識Kimi K2.6 ネイティブマルチモーダル
    埋め込みベクトル最も安いもの

    月間請求額が70〜85%削減されます。


    PART 5. 二つの落とし穴

    1. 思考モードの膨張: 出力トークンが3.6倍になります。 /reasoning off で対応。

    2. ドリフト: 安価であるがゆえに油断してしまう。Scope制約で防止。


    PART 6. いつKimiを、いつOpusを使うか

    Kimi適性: コード生成 / テスト / ドキュメント処理 / データ抽出

    Opus適性: 曖昧なAPI / マルチスタック統合 / 法律・金融シナリオ


    PART 7. Kimi優先のスキル

    Kimi: /architecture-diagram / /excalidraw / TDD / debugging / manim-video

    Opus: 研究論文 / 深いリファクタリング / 契約コンプライアンス


    🥳 @shmidtqq 📅 2026-05-12