Медиа и устройства
Режим разговора
Режим разговора — это непрерывный цикл голосового диалога:
- Ожидание речи
- Отправка транскрипта модели (основная сессия, chat.send)
- Ожидание ответа
- Озвучивание через ElevenLabs (потоковое воспроизведение)
Поведение (macOS)
- Постоянный оверлей, пока режим разговора включен.
- Переходы между фазами: Слушание → Размышление → Речь.
- При короткой паузе (окно тишины) текущая транскрипция отправляется.
- Ответы записываются в WebChat (так же, как при вводе текста).
- Прерывание при речи (по умолчанию включено): если пользователь начинает говорить, пока говорит ассистент, воспроизведение останавливается, и время прерывания отмечается для следующего запроса.
Голосовые директивы в ответах
Ассистент может начинать свой ответ с одной строки JSON для управления голосом:
{ "voice": "<voice-id>", "once": true }
Правила:
- Только первая непустая строка.
- Неизвестные ключи игнорируются.
once: trueприменяется только к текущему ответу.- Без
onceголос становится новым значением по умолчанию для режима разговора. - Строка JSON удаляется перед воспроизведением TTS.
Поддерживаемые ключи:
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Конфигурация (~/.openclaw/openclaw.json)
{
talk: {
voiceId: "elevenlabs_voice_id",
modelId: "eleven_v3",
outputFormat: "mp3_44100_128",
apiKey: "elevenlabs_api_key",
interruptOnSpeech: true,
},
}
Значения по умолчанию:
interruptOnSpeech: truevoiceId: используется значение изELEVENLABS_VOICE_ID/SAG_VOICE_ID(или первый голос ElevenLabs, если доступен API-ключ)modelId: по умолчаниюeleven_v3, если не заданоapiKey: используется значение изELEVENLABS_API_KEY(или профиль шлюза shell, если доступен)outputFormat: по умолчаниюpcm_44100на macOS/iOS иpcm_24000на Android (установитеmp3_*для принудительной потоковой передачи MP3)
Интерфейс macOS
- Переключатель в строке меню: Talk (Разговор)
- Вкладка конфигурации: группа Talk Mode (Режим разговора) (идентификатор голоса + переключатель прерывания)
- Оверлей:
- Слушание: пульсирующее облако с уровнем микрофона
- Размышление: анимация погружения
- Речь: расходящиеся кольца
- Нажмите на облако: остановить речь
- Нажмите X: выйти из режима разговора
Примечания
- Требуются разрешения на распознавание речи и использование микрофона.
- Использует
chat.sendдля сессии с ключомmain. - TTS использует потоковый API ElevenLabs с
ELEVENLABS_API_KEYи инкрементное воспроизведение на macOS/iOS/Android для снижения задержки. - Значение
stabilityдляeleven_v3проверяется на соответствие0.0,0.5или1.0; другие модели принимают значения0..1. - Значение
latency_tierпроверяется на соответствие0..4, если задано. - Android поддерживает форматы вывода
pcm_16000,pcm_22050,pcm_24000иpcm_44100для потоковой передачи AudioTrack с низкой задержкой.