媒体与设备
对话模式
对话模式让你可以与智能体(agent)进行连续的语音对话,形成一个完整的交互循环:
- 监听你的语音
- 将转录文本发送给模型(主会话,
chat.send) - 等待模型响应
- 通过 ElevenLabs 朗读回复(流式播放)
行为特性 (macOS)
- 启用对话模式时,始终显示悬浮覆盖层
- 清晰展示 监听 → 思考 → 说话 三个阶段
- 检测到短暂停顿(静音窗口)后,发送当前转录文本
- 回复会写入 WebChat(与打字输入效果相同)
- 语音打断(默认开启):助手正在说话时,如果你开始讲话,系统会立即停止播放并记录打断时间戳,用于下一次提示
回复中的语音指令
助手可以在回复开头添加单行 JSON 来动态控制语音:
{ "voice": "<voice-id>", "once": true }
规则:
- 仅第一个非空行有效
- 未知键会被忽略
once: true仅对当前回复生效- 不带
once时,该语音会成为对话模式的新默认语音 - JSON 行会在 TTS 播放前被移除
支持的键:
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
配置 (~/.openclaw/openclaw.json)
{
talk: {
voiceId: "elevenlabs_voice_id",
modelId: "eleven_v3",
outputFormat: "mp3_44100_128",
apiKey: "elevenlabs_api_key",
interruptOnSpeech: true,
},
}
默认值:
interruptOnSpeech:truevoiceId: 回退到ELEVENLABS_VOICE_ID/SAG_VOICE_ID(或 API 密钥可用时使用第一个 ElevenLabs 语音)modelId: 未设置时默认为eleven_v3apiKey: 回退到ELEVENLABS_API_KEY(或网关 shell 配置,如果可用)outputFormat: macOS/iOS 默认为pcm_44100,Android 默认为pcm_24000(设置为mp3_*可强制使用 MP3 流)
macOS 用户界面
- 菜单栏切换:Talk
- 配置标签页:Talk Mode 组(语音 ID + 打断开关)
- 悬浮覆盖层:
- 监听中:云朵随麦克风电平脉动
- 思考中:下沉动画
- 说话中:辐射状圆环动画
- 点击云朵:停止说话
- 点击 X:退出对话模式
注意事项
- 需要语音识别和麦克风权限
- 使用
chat.send发送到会话键main - TTS 使用 ElevenLabs 流式 API 和
ELEVENLABS_API_KEY,在 macOS/iOS/Android 上采用增量播放实现低延迟 eleven_v3的stability只能是0.0、0.5或1.0;其他模型接受0..1范围latency_tier设置时验证为0..4- Android 支持
pcm_16000、pcm_22050、pcm_24000和pcm_44100输出格式,用于低延迟 AudioTrack 流式播放