Skip to content

API 消耗说明

不同回复模式的 API 调用成本差异较大。本页帮助你做体验与成本之间的取舍。

Markdown 模式

典型情况下,一次回复主要包括:

操作调用次数说明
获取 Token1会复用缓存
发送消息1单聊或群聊发送接口

整体成本较低,适合作为默认模式。

AI 卡片模式

典型情况下包括:

阶段调用次数说明
创建卡片1createAndDeliver
流式更新M次数取决于流式节奏
最终完成包含在最后一次流更新中isFinalize=true

总成本约为 1 + M

三种卡片流式策略对比

以一次约 10 秒的 AI 回复为例:

模式streamAICard 调用数首 token 延迟体验
off约 10-15 次约 1-1.5 秒更新更少、成本更稳
answer约 15-25 次约 300-800ms答案更流畅,成本中等
all约 25-35 次约 300ms答案+思考都更实时,成本最高

cardStreamInterval 会影响 answer / all 下的调用频率:间隔越小,streamAICard 调用通常越多。

推荐策略

  • 默认部署:用 markdown
  • 想要卡片体验但控制成本:card + cardStreamingMode: "off""answer"
  • 想要流畅体验:card + cardStreamingMode: "all"

推荐配置示例:

json5
{
  "channels": {
    "dingtalk": {
      "messageType": "card",
      "cardStreamingMode": "answer",
      "cardStreamInterval": 1000
    }
  }
}

额外消耗来源

如果在卡片中开启思考流和工具执行展示,也会增加卡片流式更新次数。

相关文档