الوسائط والأجهزة
وضع المحادثة
وضع المحادثة هو حلقة محادثة صوتية مستمرة:
- الاستماع للكلام
- إرسال النص المنقول إلى النموذج (الجلسة الرئيسية، chat.send)
- انتظار الرد
- نطقه عبر ElevenLabs (تشغيل البث)
السلوك (macOS)
- طبقة شفافة دائمة الظهور أثناء تفعيل وضع المحادثة.
- انتقالات المراحل: الاستماع → التفكير → التحدث.
- عند توقف قصير (نافذة صمت)، يتم إرسال النص المنقول الحالي.
- يتم كتابة الردود في WebChat (كما هو الحال عند الكتابة).
- مقاطعة عند الكلام (مفعلة افتراضيًا): إذا بدأ المستخدم بالكلام أثناء تحدث المساعد، نقوم بإيقاف التشغيل وتسجيل طابع زمني للمقاطعة للاستعلام التالي.
التوجيهات الصوتية في الردود
قد يسبق المساعد رده بسطر JSON واحد للتحكم في الصوت:
{ "voice": "<voice-id>", "once": true }
القواعد:
- أول سطر غير فارغ فقط.
- يتم تجاهل المفاتيح غير المعروفة.
once: trueتنطبق على الرد الحالي فقط.- بدون
once، يصبح الصوت هو الافتراضي الجديد لوضع المحادثة. - يتم إزالة سطر JSON قبل تشغيل TTS.
المفاتيح المدعومة:
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(كلمة في الدقيقة),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
التكوين (~/.openclaw/openclaw.json)
{
talk: {
voiceId: "elevenlabs_voice_id",
modelId: "eleven_v3",
outputFormat: "mp3_44100_128",
apiKey: "elevenlabs_api_key",
interruptOnSpeech: true,
},
}
الإعدادات الافتراضية:
interruptOnSpeech: truevoiceId: يتراجع إلىELEVENLABS_VOICE_ID/SAG_VOICE_ID(أو أول صوت ElevenLabs عند توفر مفتاح API)modelId: الافتراضي هوeleven_v3عند عدم التعيينapiKey: يتراجع إلىELEVENLABS_API_KEY(أو ملف تعريف shell للبوابة إذا كان متاحًا)outputFormat: الافتراضي هوpcm_44100على macOS/iOS وpcm_24000على Android (اضبطmp3_*لإجبار بث MP3)
واجهة المستخدم لنظام macOS
- تبديل شريط القائمة: محادثة
- علامة التبويب التكوين: مجموعة وضع المحادثة (معرف الصوت + تبديل المقاطعة)
- الطبقة الشفافة:
- الاستماع: سحابة تنبض مع مستوى الميكروفون
- التفكير: رسوم متحركة للغوص
- التحدث: حلقات مشعة
- انقر على السحابة: إيقاف التحدث
- انقر على X: الخروج من وضع المحادثة
ملاحظات
- يتطلب أذونات التعرف على الكلام + الميكروفون.
- يستخدم
chat.sendمع مفتاح الجلسةmain. - يستخدم TTS واجهة برمجة تطبيقات البث من ElevenLabs مع
ELEVENLABS_API_KEYوالتشغيل التدريجي على macOS/iOS/Android لكمون أقل. - يتم التحقق من صحة
stabilityلـeleven_v3لتكون0.0، أو0.5، أو1.0؛ النماذج الأخرى تقبل0..1. - يتم التحقق من صحة
latency_tierلتكون0..4عند تعيينها. - يدعم Android تنسيقات الإخراج
pcm_16000،pcm_22050،pcm_24000، وpcm_44100لبث AudioTrack منخفض الكمون.