Medios y dispositivos
Modo Habla
El Modo Habla es un bucle de conversación de voz continua:
- Escuchar el habla
- Enviar la transcripción al modelo (sesión principal, chat.send)
- Esperar la respuesta
- Reproducirla mediante ElevenLabs (reproducción en streaming)
Comportamiento (macOS)
- Superposición siempre activa mientras el Modo Habla está habilitado.
- Transiciones de fase: Escuchando → Pensando → Hablando.
- Tras una pausa corta (ventana de silencio), se envía la transcripción actual.
- Las respuestas se escriben en WebChat (igual que al escribir).
- Interrumpir al hablar (activado por defecto): si el usuario comienza a hablar mientras el asistente está hablando, detenemos la reproducción y registramos la marca de tiempo de interrupción para el siguiente mensaje.
Directivas de voz en las respuestas
El asistente puede prefijar su respuesta con una única línea JSON para controlar la voz:
{ "voice": "<voice-id>", "once": true }
Reglas:
- Solo la primera línea no vacía.
- Se ignoran las claves desconocidas.
once: truese aplica solo a la respuesta actual.- Sin
once, la voz se convierte en la nueva predeterminada para el Modo Habla. - La línea JSON se elimina antes de la reproducción TTS.
Claves admitidas:
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(PPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Configuración (~/.openclaw/openclaw.json)
{
talk: {
voiceId: "elevenlabs_voice_id",
modelId: "eleven_v3",
outputFormat: "mp3_44100_128",
apiKey: "elevenlabs_api_key",
interruptOnSpeech: true,
},
}
Valores predeterminados:
interruptOnSpeech: truevoiceId: recurre aELEVENLABS_VOICE_ID/SAG_VOICE_ID(o a la primera voz de ElevenLabs cuando la clave API está disponible)modelId: por defectoeleven_v3cuando no está configuradoapiKey: recurre aELEVENLABS_API_KEY(o al perfil de shell del gateway si está disponible)outputFormat: por defectopcm_44100en macOS/iOS ypcm_24000en Android (configuramp3_*para forzar streaming MP3)
Interfaz de usuario en macOS
- Alternar en la barra de menú: Hablar
- Pestaña de configuración: grupo Modo Habla (id de voz + alternar interrupción)
- Superposición:
- Escuchando: nube pulsa con el nivel del micrófono
- Pensando: animación de hundimiento
- Hablando: anillos radiantes
- Clic en la nube: dejar de hablar
- Clic en X: salir del Modo Habla
Notas
- Requiere permisos de Voz + Micrófono.
- Utiliza
chat.sendcon la clave de sesiónmain. - TTS utiliza la API de streaming de ElevenLabs con
ELEVENLABS_API_KEYy reproducción incremental en macOS/iOS/Android para menor latencia. stabilityparaeleven_v3se valida a0.0,0.5, o1.0; otros modelos aceptan0..1.latency_tierse valida a0..4cuando se configura.- Android admite los formatos de salida
pcm_16000,pcm_22050,pcm_24000, ypcm_44100para streaming de baja latencia con AudioTrack.