Appearance
API 消耗说明
不同回复模式的 API 调用成本差异较大。本页帮助你做体验与成本之间的取舍。
Markdown 模式
典型情况下,一次回复主要包括:
| 操作 | 调用次数 | 说明 |
|---|---|---|
| 获取 Token | 1 | 会复用缓存 |
| 发送消息 | 1 | 单聊或群聊发送接口 |
整体成本较低,适合作为默认模式。
AI 卡片模式
典型情况下包括:
| 阶段 | 调用次数 | 说明 |
|---|---|---|
| 创建卡片 | 1 | createAndDeliver |
| 流式更新 | M | 次数取决于流式节奏 |
| 最终完成 | 包含在最后一次流更新中 | isFinalize=true |
总成本约为 1 + M。
三种卡片流式策略对比
以一次约 10 秒的 AI 回复为例:
| 模式 | streamAICard 调用数 | 首 token 延迟 | 体验 |
|---|---|---|---|
off | 约 10-15 次 | 约 1-1.5 秒 | 更新更少、成本更稳 |
answer | 约 15-25 次 | 约 300-800ms | 答案更流畅,成本中等 |
all | 约 25-35 次 | 约 300ms | 答案+思考都更实时,成本最高 |
cardStreamInterval 会影响 answer / all 下的调用频率:间隔越小,streamAICard 调用通常越多。
推荐策略
- 默认部署:用
markdown - 想要卡片体验但控制成本:
card+cardStreamingMode: "off"或"answer" - 想要流畅体验:
card+cardStreamingMode: "all"
推荐配置示例:
json5
{
"channels": {
"dingtalk": {
"messageType": "card",
"cardStreamingMode": "answer",
"cardStreamInterval": 1000
}
}
}额外消耗来源
如果在卡片中开启思考流和工具执行展示,也会增加卡片流式更新次数。