تحليل العواطف والمشاعر في الكلام

تمكين مراكز الاتصال الذكية باستخدام الرؤى المدعومة بالذكاء الاصطناعي

الاستفادة من خبرة شايب في جمع البيانات الصوتية والتعليق عليها لتحسين الكشف عن المشاعر والعواطف في الوقت الفعلي لتحسين خدمة العملاء.

تحليل العواطف والمشاعر الكلامية

الكلام الآلي والعاطفة
تحليل المشاعر

تعاون العميل مع Shaip لتطوير نموذج تحليلي آلي للعواطف والمشاعر للكلام لمراكز الاتصال. تضمن المشروع جمع وشرح 250 ساعة من بيانات الصوت لمركز الاتصال عبر أربع لهجات إنجليزية - الولايات المتحدة والمملكة المتحدة وأستراليا والهند. مكّن هذا العميل من تحسين نماذج الذكاء الاصطناعي الخاصة به للكشف عن المشاعر مثل السعادة والحياد والغضب، والمشاعر مثل عدم الرضا والرضا في تفاعلات العملاء في الوقت الفعلي.

لقد تغلب المشروع على تحديات مثل اكتشاف السخرية، وطول الصوت المتنوع، والإشارات اللفظية الدقيقة لعدم الرضا، مما أدى إلى تقديم نتائج دقيقة وقابلة للتطوير.

تحليل العواطف والمشاعر بالكلام الآلي

إحصائيات أساسية

تم جمع بيانات الصوت لمركز الاتصال وشرحها عبر 4 لهجات إنجليزية

ساعة 250

عدد اللغات

الإنجليزية الأمريكية، الإنجليزية البريطانية، الإنجليزية الأسترالية، الإنجليزية الهندية

استخدم حالات

تحليل العواطف والمشاعر بالكلام الآلي

نطاق المشروع

جمع وشرح 250 ساعة من بيانات الصوت لمركز الاتصال بأربع لهجات من اللغة الإنجليزية:

  • اللغة الإنجليزية الأمريكية (30%)
  • الإنجليزية البريطانية (30%)
  • الإنجليزية الأسترالية (20%)
  • اللغة الإنجليزية الهندية (20%)

في النطاق

يتكون المشروع من ثلاثة أجزاء:

  • بيانات صوتية مع كيانات محددة، بما في ذلك البيانات الوصفية.
  • ملفات منقولة مطابقة لتفاصيل التجزئة والختم الزمني.
  • التعليقات على المشاعر والعواطف:
    • العاطفة الصوتية: سعيد، محايد، غاضب
    • مشاعر النسخ: غير راضٍ للغاية، غير راضٍ، محايد، راضٍ، راضٍ للغاية

التحديات

تنوع اللهجات

قد يكون من الصعب التأكد من أن البيانات الصوتية تمثل اللهجات المحددة (الولايات المتحدة والمملكة المتحدة وأستراليا والهند) بدقة. قد تستخدم مناطق مختلفة ضمن هذه الفئات مفردات ولهجات ونطقًا متنوعًا.

متطلبات الخبرة

يتطلب التعليق على الصوت والنصوص المكتوبة للتعبير عن المشاعر والعواطف معلقين مدربين على دراية بالفوارق الثقافية والتفاصيل اللغوية لكل لهجة.

تعقيد العواطف والمشاعر

لا تتوافق المشاعر الصوتية والمشاعر المكتوبة دائمًا. على سبيل المثال، قد يبدو الشخص غاضبًا ولكنه في الواقع يعبر عن الرضا. على سبيل المثال، يجب شرح التعامل مع المحادثات الساخرة بعبارات ساخرة مثل "يا له من أمر رائع، هناك شخص آخر لا يستطيع حل مشكلتي" بشكل صحيح للعاطفة والمشاعر.

جودة الصوت

قد تختلف جودة التسجيلات الصوتية، مما يؤثر على دقة النسخ وكشف المشاعر. كما أن الضوضاء في الخلفية والمحادثات المتداخلة ومعدات التسجيل المتنوعة قد تشكل تحديات كبيرة.

التقاط دقيق

عدم الرضا من خلال الإشارات اللفظية مثل الزفير الثقيل أو علامات الإحباط الأخرى.

الحلول

وباستخدام تقنيات معالجة اللغة الطبيعية المتقدمة، تم تنفيذ الحلول التالية:

جمع البيانات

  • 250 ساعة من البيانات الصوتية مقسمة إلى حصص خاصة باللهجة.
    • اللغة الإنجليزية الأمريكية (30% أو 75 ساعة)
    • اللغة الإنجليزية في المملكة المتحدة (30% أو 75 ساعة)
    • اللغة الإنجليزية الأسترالية (20% أو 50 ساعة)
    • اللغة الإنجليزية الهندية (20% أو 50 ساعة)
  • مستخدمو اللهجة الأصلية من الولايات المتحدة والمملكة المتحدة وأستراليا والهند.
  • عينات من الكلام تحتوي على نغمات مختلفة، مع التركيز بشكل خاص على الحالات التي يكون فيها الانفعال الصوتي غاضبًا ومشاعر النص غير راضية أو غير راضية للغاية.

تصنيف النص/التعليق التوضيحي

تصنيف النص

  • التعليق على المشاعر والعواطف بناءً على فئات محددة:
    • العاطفة الصوتية: سعيد، محايد، غاضب.
    • مشاعر النسخ: غير راضٍ للغاية، غير راضٍ، محايد، راضٍ، راضٍ للغاية.
  • يحتوي كل مقطع صوتي على عاطفة أساسية واحدة فقط.
  • يتم تطبيق فترات تأخير متفاوتة (من 2 إلى 30 ثانية) داخل المحادثات.
  • تم تنسيق النسخ وفقًا لصيغة JSON، بما في ذلك معلومات المتحدث الأيسر والأيمن، وعلامات المشاعر، ومشاعر المقطع النهائي.

 

مدعمة بالاذكاء الاصطناعي

تاكيد الجودة
دقة النسخ:

  • تم التأكد من تقديم 250 ساعة من الصوت بحد أدنى:
    • دقة معدل خطأ النسخ (TER) تصل إلى 90%.
    • دقة معدل التعرف على الكلمات (WER) تصل إلى 95%.

عملية ضمان الجودة:

  • تم إجراء عمليات تدقيق منتظمة للعينات المختارة عشوائيًا من مجموعة البيانات.
    • تم استخدام أدوات آلية لقياس TER و WER عبر مجموعة البيانات.
    • تم التأكد من استيفاء حدود الدقة من خلال المراجعة اليدوية للأقسام المميزة.

نتائج

ستدعم بيانات التدريب تطوير نموذج آلي لكشف المشاعر والعواطف، مما يوفر:

  • الكشف عن المشاعر في الوقت الحقيقي أثناء تفاعلات مركز الاتصال.
  • معالجة أكثر فعالية للقضايا المعقدة، مثل السخرية أو عدم الرضا.
  • إمكانية التوسع في المشاريع المستقبلية، والتكيف بسهولة مع أحجام البيانات المتزايدة واللغات الإضافية.

التسليمات

  • 250 ساعة من ملفات الصوت (بتنسيق 8 كيلو هرتز PCM WAV، أحادي)
  • ملفات النسخ (مع التجزئة، وعلامات المشاعر، ومعرفات المتحدث)
  • البيانات الوصفية (مدة الصوت، تفاصيل المتحدث، وما إلى ذلك)

كانت الشراكة مع Shaip لمشروع بيانات مركز الاتصال الخاص بنا بمثابة لحظة محورية في تطوير حلول الذكاء الاصطناعي لدينا. فقد قام فريقهم بجمع وشرح 250 ساعة من البيانات الصوتية عبر أربع لهجات إنجليزية رئيسية - الولايات المتحدة والمملكة المتحدة وأستراليا والهند - مما يضمن أعلى جودة ودقة. وقد أدى الاهتمام بالفروق اللغوية الدقيقة عبر هذه المناطق إلى تحسين دقة نماذج التعرف على الكلام لدينا بشكل كبير. بالإضافة إلى ذلك، كانت خبرة Shaip في التعامل مع مشاريع شرح البيانات المعقدة مفيدة في مساعدتنا على بناء نماذج موثوقة ومتوافقة على نطاق واسع.

الذهبي 5 نجوم