أصبح Shaip الآن جزءًا من منظومة Ubiquity: نفس الفريق - مدعوم الآن بموارد موسعة لدعم العملاء على نطاق واسع. |
جمع بيانات الكلام

ما هو "التعبير" في الذكاء الاصطناعي؟: أمثلة ومجموعات بيانات وأفضل الممارسات

هل تساءلت يومًا كيف تستيقظ روبوتات المحادثة والمساعدون الافتراضيون عندما تقول ، "يا Siri" أو "Alexa"؟ إنه بسبب جمع نطق النص أو تشغيل الكلمات المضمنة في البرنامج الذي ينشط النظام بمجرد سماعه كلمة التنبيه المبرمجة.

ومع ذلك ، فإن العملية الشاملة لإنشاء الأصوات والبيانات اللفظية ليست بهذه البساطة. إنها عملية يجب إجراؤها بالتقنية الصحيحة للحصول على النتائج المرجوة. لذلك ، ستشارك هذه المدونة الطريق لإنشاء أقوال جيدة / كلمات محفزة تعمل بسلاسة مع الذكاء الاصطناعي للمحادثة.

ما هو "اللفظ" في الذكاء الاصطناعي؟

في الذكاء الاصطناعي التفاعلي (روبوتات الدردشة والمساعدات الصوتية)، تُعدّ الجملة الصوتية مُدخلات قصيرة من المستخدم، أي الكلمات التي يقولها أو يكتبها الشخص بدقة. تستخدم النماذج الجمل الصوتية لتحديد نية المستخدم (هدفه) وأي كيانات (تفاصيل مثل التواريخ وأسماء المنتجات والكميات).

أمثلة بسيطة

بوت التجارة الإلكترونية

اللفظ: "تتبع طلبي 123-456".

  • النية: TrackOrder
  • الكيان: معرف الطلب = 123-456

روبوت الاتصالات

اللفظ: "ترقية خطة البيانات الخاصة بي".

  • النية: خطة التغيير
  • الكيان: plan_type = data

المساعد الصوتي المصرفي

اللفظ (المنطوق): "Wما هو رصيد حسابي الجاري اليوم؟"

  • القصد: التحقق من التوازن
  • الكيانات: account_type = التحقق، date = اليوم

لماذا يحتاج الذكاء الاصطناعي المحادثي الخاص بك إلى بيانات نطق جيدة

إذا كنت تريد أن يكون روبوت المحادثة أو مساعدك الصوتي مفيدًا - لا ضعيفًا - فابدأ بتحسين بيانات النطق. النطق هو العبارات الخام التي يقولها الناس أو يكتبونها لإنجاز المهام (مثل "احجز لي غرفة غدًا"، "غيّر خطتي"، "ما هي الحالة؟"). فهو يُعزز تصنيف النوايا، واستخراج الكيانات، وفي النهاية تجربة العميل. عندما تكون النطق متنوعة، وتمثيلية، ومُصنّفة جيدًا، فإن نماذجك تتعلم الحدود الصحيحة بين النوايا وتتعامل مع المدخلات الواقعية المعقدة بثقة.

بناء مستودع العبارات الخاص بك: سير عمل بسيط

بناء مستودع العبارات

1. ابدأ من لغة المستخدم الحقيقية

منجم سجلات الدردشة، استعلامات البحث، نصوص نظام الرد الصوتي التفاعلي، ملاحظات الوكيلورسائل البريد الإلكتروني للعملاء. صنفها حسب هدف المستخدم لتكوين نوايا واضحة. (ستلتقط عبارات عامية ونماذج ذهنية لن تخطر على بالك في غرفة.)

2. خلق التنوع عن قصد

لكل غرض، اكتب أمثلة متنوعة:

  • أعد صياغة الأفعال والأسماء ("إلغاء"، "إيقاف"، "إنهاء"؛ "خطة"، "اشتراك").
  • قم بخلط أطوال الجملة وبنيتها (السؤال، التوجيه، الشظية).
  • قم بتضمين الأخطاء المطبعية، والاختصارات، والرموز التعبيرية (للدردشة)، والتبديل بين الرموز عند الاقتضاء.
  • أضف الحالات السلبية التي تبدو مشابهة ولكن يجب لست الخريطة لهذا القصد.

3. تحقيق التوازن في فصولك الدراسية

التدريب غير المتوازن للغاية (على سبيل المثال، ٥٠٠ مثال لهدف واحد و١٠ لأهداف أخرى) يضر بجودة التنبؤ. أحجام النية متساوية نسبيًا وتنميتهم معًا كما تعلمك حركة المرور.

4. التحقق من الجودة قبل التدريب

حظر بيانات الإشارة المنخفضة باستخدام المصادقون أثناء التأليف/التجميع:

  • كشف اللغة: تأكد من أن الأمثلة هي اللغة المستهدفة.
  • كاشف الهراء: التقاط سلاسل لا معنى لها.
  • التحقق من التكرارات/شبه التكرارات: الحفاظ على التنوع العالي.
  • التعابير العادية/التدقيق الإملائي والنحوي: فرض قواعد الأسلوب حيثما دعت الحاجة.
    يمكن للمحققين الأذكياء (كما يستخدمهم Appen) أتمتة أجزاء كبيرة من هذه البوابة.

5. تسمية الكيانات بشكل متسق

تحديد أنواع الفتحات (التواريخ والمنتجات والعناوين) وإظهار المعلقين كيفية تحديد الحدود. أنماط مثل نمط أي يمكن لـ LUIS إزالة الغموض عن الفترات الطويلة والمتغيرة (على سبيل المثال، أسماء المستندات) التي تسبب الخلط بين النماذج.

6. اختبار كما لو كان إنتاجًا

دفع غير مرئي عبارات حقيقية لنقطة نهاية التنبؤ أو روبوت التدريج، ومراجعة التصنيفات الخاطئة، و تعزيز أدرج أمثلةً غامضةً في التدريب. اجعل هذا حلقةً نقاشيةً: جمع ← تدريب ← مراجعة ← توسيع.

ماذا يعني "الواقع الفوضوي" حقًا (وكيفية التعامل معه)

نادرًا ما يتحدث المستخدمون الحقيقيون بجمل مثالية. توقع:

  • فتات: "استرداد رسوم الشحن"
  • الأهداف المركبة: "إلغاء الطلب وإعادة الطلب باللون الأزرق"
  • الكيانات الضمنية: "الشحن إلى مكتبي" (يجب أن تعرف أي مكتب)
  • التباس: "تغيير خطتي" (أي خطة؟ متى ستدخل حيز التنفيذ؟)

حلول عملية

  • نقدم لك توضيحات توضيحية فقط عند الحاجة؛ تجنب الإفراط في السؤال.
  • إنها تقوم بالتسجيل نقل السياق (ضمائر مثل "هذا الطلب"، "الأخير").
  • استعمل نوايا بديلة مع الاسترداد المستهدف: "يمكنني المساعدة في إلغاء الخطط أو تغييرها - ما الذي تريده؟"
  • شاشة عرض صحة النية (الارتباك، التصادم) وإضافة البيانات حيث تكون ضعيفة

المساعدون الصوتيون وكلمات الاستيقاظ: بيانات مختلفة وقواعد متشابهة

المساعدون الصوتيون وكلمات الاستيقاظ كلمات الاستيقاظ ("مرحبًا سيري"، "أليكسا"، عبارات الاستيقاظ المخصصة) هي مجموعة فرعية متخصصة من العبارات ذات القيود الصوتية القوية، ولكن عقلية التغطية لا يزال الأمر ساريًا: مكبرات صوت وأجهزة وبيئات متنوعة. بعد الاستيقاظ، عبارات لغوية تولى المهمة الفعلية ("تشغيل الأضواء"، "تشغيل موسيقى الجاز"). حافظ على استيقظ و مهمة مجموعات البيانات المتميزة، وتقييمها بشكل منفصل.

متى (وكيف) تستخدم البيانات الجاهزة مقابل البيانات المخصصة

البيانات الجاهزة مقابل البيانات المخصصة

  • من على الرف:قم بإشعال التغطية في أماكن جديدة، ثم قم بقياس الأماكن التي لا يزال الارتباك قائما فيها.
  • Custom:التقط لغة مجال عملك (شروط السياسة، وأسماء المنتجات) و"صوت العلامة التجارية".
  • مخلوط:ابدأ على نطاق واسع، ثم أضف بيانات عالية الدقة للأهداف التي لها أكبر قدر من الانحراف أو التأثير على الإيرادات.

إذا كنت بحاجة إلى منحدر سريع، يوفر لك Shaip مجموعة الأقوال ومجموعات البيانات الجاهزة للتحدث/الدردشة عبر العديد من اللغات؛ راجع دراسة الحالة الخاصة بإطلاق مساعد متعدد اللغات.

قائمة مراجعة التنفيذ

قائمة مراجعة التنفيذ

  • تحديد النوايا والكيانات باستخدام الأمثلة و سلبي الحالات
  • المعلن / كاتب التعليق متنوعة ومتوازنة عبارات لكل نية (ابدأ صغيرًا، ثم زدها أسبوعيًا)
  • أضف المحققين (اللغة، الهراء، التكرارات، التعابير العادية) قبل التدريب
  • اقامة حلقات المراجعة من حركة المرور الحقيقية؛ تعزيز العناصر الغامضة للتدريب 
  • تتبع صحة النية والتصادمات؛ إصلاح مع عبارات جديدة
  • إعادة التقييم حسب القناة/الموقع للقبض على الانجراف مبكرًا

كيف يمكن لشيب المساعدة

  • جمع العبارات المخصصة ووضع العلامات عليها (دردشة + صوت) مع المحققين للحفاظ على الجودة العالية.
  • مجموعات البيانات الجاهزة للاستخدام عبر أكثر من 150 لغة/متغيرًا للتمهيد السريع.
  • برامج المراجعة المستمرة التي تحول حركة المرور المباشرة إلى بيانات تدريب عالية الإشارة - بشكل آمن (عناصر التحكم في معلومات التعريف الشخصية).

استكشف موقعنا متعدد اللغات دراسة حالة لجمع العبارات.

شارك الاجتماعية