>
PART 1. KIMI K2.6 到底是什么
发布三周。已在 Kilo Code、Augment Code、Vercel、Factory.ai 生产环境中使用。
关键数据:
成本对比(每月 100M 输入 + 10M 输出 token):
Kimi 的弱点: 纯数学计算、不熟悉 API 的模糊规范、大代码库深度跨文件推理。
PART 2. 实战案例(有凭据的)
案例 1:Zig 推理引擎
只给了一台 Mac 和任务:下载小型 AI 模型,用 Zig(几乎没人用的编程语言)写代码运行它。Kimi 独自工作了 12 小时,14 次尝试,自己修复 bug。最终运行速度比开始时快 13 倍,比行业成熟工具 LM Studio 快 20%。
案例 2:交易引擎
Exchange-Core 是 8 年历史的开源交易匹配引擎,已被人类工程师调优到接近极限。Kimi 花了 13 小时,改了 4000 行代码,几乎将引擎速度提升了 3 倍。
案例 3:KiloClaw
Kilo Code CEO 公开背书:13 小时无监督,1000+ 工具调用,4000+ 行代码,吞吐量提升 185%。
共同模式: 14 次迭代,不是一次搞定。15 tok/s 变成 193 tok/s 是因为代理循环、评估、修复、再循环。
PART 3. 接入 Hermes(90 秒)
Day-zero 支持。4月20日已可用。
OpenRouter(30 秒):
/model openrouter:moonshotai/kimi-k2.6
~$0.75/$3.50,略高于 Moonshot 直连,零配置。
Moonshot 直连(2 分钟):
/model moonshot:kimi-k2.6
全球最优定价,缓存命中低至 $0.15/M。
自部署:
Hugging Face 上开源(Modified MIT),单台 8xH100 节点即可运行。
PART 4. 辅助模型模式(95% 用户不知道)
Hermes 不仅主对话用 LLM,还跑辅助模型做上下文压缩、会话摘要、标题生成、视觉识别、嵌入向量。
默认情况下,所有这些都跑在你主模型上。这意味着你在用 Opus 价格生成三个词的标题、压缩永远不会再读的会话、OCR 截图。
正确的路由策略:
| 任务 | 推荐模型 |
|---|---|
| 主大脑 | Kimi K2.6(80% 工作量,10% 成本) |
| 难点逃逸 | Opus 4.7(Kimi 搞不定的 10%) |
| 压缩/摘要 | Kimi K2.6 instant 或 Haiku 4.5 |
| 标题生成 | Haiku 4.5 或 MiMo |
| 视觉识别 | Kimi K2.6 原生多模态 |
| 嵌入向量 | 最便宜的 |
配置一次,月账单降 70-85%,关键任务质量不受影响。
PART 5. 两个成本陷阱
陷阱一:思考模式膨胀
Kimi K2.6 思考模式生成的输出 token 比 Opus 或 GPT 多 3.6 倍。虽然每 token 便宜 10 倍,但净优势只有 2.7 倍。长期代理循环中比例还会放大。
解法: 默认使用非思考模式。/reasoning low 或 /reasoning off。在 /insights 中监控 output:input 比例。
陷阱二:漂移
Kimi 又快又便宜,你会放松警惕。当它从"修复 auth 竞态条件"漂移到"顺便重构你的 token 存储",40 分钟和 80K token 就没了。
解法: 在每个重要 Prompt 开头贴这段:
Scope: [exactly which files / modules / behavior]. Do not modify anything outside this scope. If you find a related issue, list it at the end. Do not fix it inline.
两行文字,多文件工作时节省 15-25% token。
PART 6. 什么时候用 Kimi,什么时候换
Kimi K2.6 适合:
Opus 4.7 适合:
实际会话示例:
/model moonshot:kimi-k2.6 [起草,迭代,跑循环30次,完成95%] /branch /model anthropic:claude-opus-4-7 [调试模糊边缘情况,验证架构] /model moonshot:kimi-k2.6 [继续,/reasoning off,交付]
三次切换,三个价格层级,一个会话。状态通过 /branch 延续。
PART 7. Kimi 优先的技能
Kimi 优先(设置 /model moonshot:kimi-k2.6):
/architecture-diagram/excalidraw/linear(CRUD)/youtube-content(起草)/test-driven-development/systematic-debugging/manim-video/google-workspaceOpus 专用(/model anthropic:claude-opus-4-7):
小型模型(Haiku 4.5, MiMo-Lite):
/classify, /tag, /title-generator, /btw然后构建一个 /sage 风格的升级技能:默认 Kimi,--hard 标志或 Kimi 低置信度时升级到 Opus。
升级技能模板:
You are a senior engineer. Default behavior: 1. Solve the task on Kimi K2.6. 2. Pass tests / hit thresholds. Stop. 3. After the solution passes, run one adversarial pass: "Critique your own solution. Find 3 weaknesses." 4. If thresholds still don't hit after 3 iterations, set confidence=low and surface the blocker. 5. On confidence=low or --hard flag, escalate to Opus 4.7 with full context. Scope lock: only modify files I explicitly listed.
这不是选一个模型,而是编排五个模型。跑一个月,账单从"可怕"变成"零头"。
写在最后
你接上 Hermes 选了 Opus,说了声"搞定"。然后每个任务——精彩的、无聊的、三个词的标题、"东京现在几点"——都跑在最贵的模型上。
Kimi K2.6 4月20日发布。Day-zero Hermes 集成。代理编码领域最先进水平。大约十分之一的成本。已经在 /model 里等着了。
如果你 2026 年还在把每个任务默认路由到 Opus,你不是在跑代理,你是在开着额外的火焰喷射器烧钱。
转一下那个旋钮吧。
这个工作流适合谁
核心心法: 编排五个模型,让每个任务跑在最便宜的、能胜任它的模型上。月度账单能降 70-85%。
>
>
PART 1. Kimi K2.6とは
オープンソースの MoE アーキテクチャ、総パラメータ1T / 毎回のアクティベーション32B。
SWE-Bench Pro 58.6% で GPT-5.4 と Opus 4.6 を上回ります。
コスト比較:月間100M入力+10M出力:Opus $2550 vs Kimi $85。
年間差額は $28,560 です。
弱点:純粋数学、曖昧なAPI、大規模コードベースにおける深い推論。
PART 2. 実戦事例
Zig推論エンジン:12時間で独立稼働、LM Studioより20%高速
取引エンジン:13時間 / 4000行、速度3倍向上
KiloClaw:1000+ツール呼び出し / 4000+行、スループット185%向上
PART 3. Hermesへの接続
OpenRouter: /model openrouter:moonshotai/kimi-k2.6
Moonshot直結: /model moonshot:kimi-k2.6
PART 4. 補助モデルルーティング
| タスク | 推奨モデル |
|---|---|
| 主脳 | Kimi K2.6(80% 作業量、10% コスト) |
| 難所 | Opus 4.7(Kimi が苦手な10%) |
| 圧縮/要約 | Kimi K2.6 instant または Haiku 4.5 |
| タイトル生成 | Haiku 4.5 または MiMo |
| 視覚認識 | Kimi K2.6 ネイティブマルチモーダル |
| 埋め込みベクトル | 最も安いもの |
月間請求額が70〜85%削減されます。
PART 5. 二つの落とし穴
1. 思考モードの膨張: 出力トークンが3.6倍になります。 /reasoning off で対応。
2. ドリフト: 安価であるがゆえに油断してしまう。Scope制約で防止。
PART 6. いつKimiを、いつOpusを使うか
Kimi適性: コード生成 / テスト / ドキュメント処理 / データ抽出
Opus適性: 曖昧なAPI / マルチスタック統合 / 法律・金融シナリオ
PART 7. Kimi優先のスキル
Kimi: /architecture-diagram / /excalidraw / TDD / debugging / manim-video
Opus: 研究論文 / 深いリファクタリング / 契約コンプライアンス