هل تساءلت يومًا كيف تستيقظ روبوتات المحادثة والمساعدون الافتراضيون عندما تقول ، "يا Siri" أو "Alexa"؟ إنه بسبب جمع نطق النص أو تشغيل الكلمات المضمنة في البرنامج الذي ينشط النظام بمجرد سماعه كلمة التنبيه المبرمجة.
ومع ذلك ، فإن العملية الشاملة لإنشاء الأصوات والبيانات اللفظية ليست بهذه البساطة. إنها عملية يجب إجراؤها بالتقنية الصحيحة للحصول على النتائج المرجوة. لذلك ، ستشارك هذه المدونة الطريق لإنشاء أقوال جيدة / كلمات محفزة تعمل بسلاسة مع الذكاء الاصطناعي للمحادثة.
ما هو "اللفظ" في الذكاء الاصطناعي؟
في الذكاء الاصطناعي التفاعلي (روبوتات الدردشة والمساعدات الصوتية)، تُعدّ الجملة الصوتية مُدخلات قصيرة من المستخدم، أي الكلمات التي يقولها أو يكتبها الشخص بدقة. تستخدم النماذج الجمل الصوتية لتحديد نية المستخدم (هدفه) وأي كيانات (تفاصيل مثل التواريخ وأسماء المنتجات والكميات).
أمثلة بسيطة
بوت التجارة الإلكترونية
اللفظ: "تتبع طلبي 123-456".
- النية: TrackOrder
- الكيان: معرف الطلب = 123-456
روبوت الاتصالات
اللفظ: "ترقية خطة البيانات الخاصة بي".
- النية: خطة التغيير
- الكيان: plan_type = data
المساعد الصوتي المصرفي
اللفظ (المنطوق): "Wما هو رصيد حسابي الجاري اليوم؟"
- القصد: التحقق من التوازن
- الكيانات: account_type = التحقق، date = اليوم
لماذا يحتاج الذكاء الاصطناعي المحادثي الخاص بك إلى بيانات نطق جيدة
إذا كنت تريد أن يكون روبوت المحادثة أو مساعدك الصوتي مفيدًا - لا ضعيفًا - فابدأ بتحسين بيانات النطق. النطق هو العبارات الخام التي يقولها الناس أو يكتبونها لإنجاز المهام (مثل "احجز لي غرفة غدًا"، "غيّر خطتي"، "ما هي الحالة؟"). فهو يُعزز تصنيف النوايا، واستخراج الكيانات، وفي النهاية تجربة العميل. عندما تكون النطق متنوعة، وتمثيلية، ومُصنّفة جيدًا، فإن نماذجك تتعلم الحدود الصحيحة بين النوايا وتتعامل مع المدخلات الواقعية المعقدة بثقة.
بناء مستودع العبارات الخاص بك: سير عمل بسيط

1. ابدأ من لغة المستخدم الحقيقية
منجم سجلات الدردشة، استعلامات البحث، نصوص نظام الرد الصوتي التفاعلي، ملاحظات الوكيلورسائل البريد الإلكتروني للعملاء. صنفها حسب هدف المستخدم لتكوين نوايا واضحة. (ستلتقط عبارات عامية ونماذج ذهنية لن تخطر على بالك في غرفة.)
2. خلق التنوع عن قصد
لكل غرض، اكتب أمثلة متنوعة:
- أعد صياغة الأفعال والأسماء ("إلغاء"، "إيقاف"، "إنهاء"؛ "خطة"، "اشتراك").
- قم بخلط أطوال الجملة وبنيتها (السؤال، التوجيه، الشظية).
- قم بتضمين الأخطاء المطبعية، والاختصارات، والرموز التعبيرية (للدردشة)، والتبديل بين الرموز عند الاقتضاء.
- أضف الحالات السلبية التي تبدو مشابهة ولكن يجب لست الخريطة لهذا القصد.
3. تحقيق التوازن في فصولك الدراسية
التدريب غير المتوازن للغاية (على سبيل المثال، ٥٠٠ مثال لهدف واحد و١٠ لأهداف أخرى) يضر بجودة التنبؤ. أحجام النية متساوية نسبيًا وتنميتهم معًا كما تعلمك حركة المرور.
4. التحقق من الجودة قبل التدريب
حظر بيانات الإشارة المنخفضة باستخدام المصادقون أثناء التأليف/التجميع:
- كشف اللغة: تأكد من أن الأمثلة هي اللغة المستهدفة.
- كاشف الهراء: التقاط سلاسل لا معنى لها.
- التحقق من التكرارات/شبه التكرارات: الحفاظ على التنوع العالي.
- التعابير العادية/التدقيق الإملائي والنحوي: فرض قواعد الأسلوب حيثما دعت الحاجة.
يمكن للمحققين الأذكياء (كما يستخدمهم Appen) أتمتة أجزاء كبيرة من هذه البوابة.
5. تسمية الكيانات بشكل متسق
تحديد أنواع الفتحات (التواريخ والمنتجات والعناوين) وإظهار المعلقين كيفية تحديد الحدود. أنماط مثل نمط أي يمكن لـ LUIS إزالة الغموض عن الفترات الطويلة والمتغيرة (على سبيل المثال، أسماء المستندات) التي تسبب الخلط بين النماذج.
6. اختبار كما لو كان إنتاجًا
دفع غير مرئي عبارات حقيقية لنقطة نهاية التنبؤ أو روبوت التدريج، ومراجعة التصنيفات الخاطئة، و تعزيز أدرج أمثلةً غامضةً في التدريب. اجعل هذا حلقةً نقاشيةً: جمع ← تدريب ← مراجعة ← توسيع.
ماذا يعني "الواقع الفوضوي" حقًا (وكيفية التعامل معه)
نادرًا ما يتحدث المستخدمون الحقيقيون بجمل مثالية. توقع:
- فتات: "استرداد رسوم الشحن"
- الأهداف المركبة: "إلغاء الطلب وإعادة الطلب باللون الأزرق"
- الكيانات الضمنية: "الشحن إلى مكتبي" (يجب أن تعرف أي مكتب)
- التباس: "تغيير خطتي" (أي خطة؟ متى ستدخل حيز التنفيذ؟)
حلول عملية
- نقدم لك توضيحات توضيحية فقط عند الحاجة؛ تجنب الإفراط في السؤال.
- إنها تقوم بالتسجيل نقل السياق (ضمائر مثل "هذا الطلب"، "الأخير").
- استعمل نوايا بديلة مع الاسترداد المستهدف: "يمكنني المساعدة في إلغاء الخطط أو تغييرها - ما الذي تريده؟"
- شاشة عرض صحة النية (الارتباك، التصادم) وإضافة البيانات حيث تكون ضعيفة
المساعدون الصوتيون وكلمات الاستيقاظ: بيانات مختلفة وقواعد متشابهة

متى (وكيف) تستخدم البيانات الجاهزة مقابل البيانات المخصصة

- من على الرف:قم بإشعال التغطية في أماكن جديدة، ثم قم بقياس الأماكن التي لا يزال الارتباك قائما فيها.
- Custom:التقط لغة مجال عملك (شروط السياسة، وأسماء المنتجات) و"صوت العلامة التجارية".
- مخلوط:ابدأ على نطاق واسع، ثم أضف بيانات عالية الدقة للأهداف التي لها أكبر قدر من الانحراف أو التأثير على الإيرادات.
إذا كنت بحاجة إلى منحدر سريع، يوفر لك Shaip مجموعة الأقوال ومجموعات البيانات الجاهزة للتحدث/الدردشة عبر العديد من اللغات؛ راجع دراسة الحالة الخاصة بإطلاق مساعد متعدد اللغات.
قائمة مراجعة التنفيذ

- تحديد النوايا والكيانات باستخدام الأمثلة و سلبي الحالات
- المعلن / كاتب التعليق متنوعة ومتوازنة عبارات لكل نية (ابدأ صغيرًا، ثم زدها أسبوعيًا)
- أضف المحققين (اللغة، الهراء، التكرارات، التعابير العادية) قبل التدريب
- اقامة حلقات المراجعة من حركة المرور الحقيقية؛ تعزيز العناصر الغامضة للتدريب
- تتبع صحة النية والتصادمات؛ إصلاح مع عبارات جديدة
- إعادة التقييم حسب القناة/الموقع للقبض على الانجراف مبكرًا
كيف يمكن لشيب المساعدة
- جمع العبارات المخصصة ووضع العلامات عليها (دردشة + صوت) مع المحققين للحفاظ على الجودة العالية.
- مجموعات البيانات الجاهزة للاستخدام عبر أكثر من 150 لغة/متغيرًا للتمهيد السريع.
- برامج المراجعة المستمرة التي تحول حركة المرور المباشرة إلى بيانات تدريب عالية الإشارة - بشكل آمن (عناصر التحكم في معلومات التعريف الشخصية).
استكشف موقعنا متعدد اللغات دراسة حالة لجمع العبارات.