دراسة حالة: مجموعة الكلام

تسليم 7 مليون كلمة + كلمة لبناء مساعدين رقميين متعددي اللغات بـ 13 لغة

جمع الكلام

حل العالم الحقيقي

البيانات التي تدعم المحادثات العالمية

تنشأ الحاجة إلى التدريب على الكلام لأنه لا يستخدم جميع العملاء الكلمات أو العبارات الدقيقة أثناء التفاعل أو طرح الأسئلة على المساعدين الصوتيين بتنسيق نصي. لهذا السبب يجب تدريب تطبيقات صوتية معينة على بيانات الكلام التلقائية. على سبيل المثال ، "أين يقع أقرب مستشفى؟" "ابحث عن مستشفى بالقرب مني" أو "هل توجد مستشفى قريبة؟" تشير جميعها إلى نفس القصد من البحث ولكن يتم صياغتها بشكل مختلف.

مجموعة الكلام 1

المشكلة

لتنفيذ خارطة طريق الكلام الخاصة بالمساعد الرقمي للعملاء للغات في جميع أنحاء العالم ، كان الفريق بحاجة إلى الحصول على كميات كبيرة من بيانات التدريب لنموذج الذكاء الاصطناعي للتعرف على الكلام. المتطلبات الأساسية للعميل هي:

  • الحصول على كميات كبيرة من بيانات التدريب (مطالبات نطق المتحدث الفردي لا تزيد عن 3-30 ثانية) لخدمات التعرف على الكلام في 13 لغة عالمية
  • لكل لغة ، سيُنشئ المورد مطالبات نصية للمتحدثين للتسجيل (ما لم يكن ملف
    إمدادات العميل) ونسخ الصوت الناتج.
  • توفير البيانات الصوتية ونسخ الكلام المسجل مع ملفات JSON المقابلة
    تحتوي على البيانات الوصفية لجميع التسجيلات.
  • ضمان مزيج متنوع من المتحدثين حسب العمر والجنس والتعليم واللهجة
  • ضمان مزيج متنوع من بيئات التسجيل وفقًا للمواصفات.
  • يجب أن يكون كل تسجيل صوتي 16 كيلو هرتز على الأقل ولكن يفضل 44 كيلو هرتز

تسريع الذكاء الاصطناعي للمحادثة
تطوير التطبيقات بنسبة 100٪

"بعد تقييم العديد من البائعين ، اختار العميل Shaip بسبب خبرتهم في مشاريع الذكاء الاصطناعي للمحادثة. لقد أعجبنا بكفاءة شيب في تنفيذ المشروع ، وخبراتهم في الحصول على الكلام المطلوب من اللغويين الخبراء ونسخه وتقديمه في 13 لغة ضمن جداول زمنية صارمة وبالنوعية المطلوبة "

حل

من خلال فهمنا العميق للذكاء الاصطناعي للمحادثات ، ساعدنا العميل على جمع البيانات وتدوينها والتعليق عليها مع فريق من اللغويين الخبراء والمعلقين لتدريب مجموعة الصوت متعددة اللغات الخاصة بمعالجة الكلام المدعومة بالذكاء الاصطناعي.

شمل نطاق عمل Shaip ، على سبيل المثال لا الحصر ، الحصول على كميات كبيرة من بيانات التدريب الصوتي للتعرف على الكلام ، ونسخ التسجيلات الصوتية بلغات متعددة لجميع اللغات على خارطة طريق المستوى 1 والمستوى 2 للغة ، وتقديم المقابلة. JSON الملفات التي تحتوي على البيانات الوصفية. قام Shaip بجمع أقوال من 3 إلى 30 ثانية على نطاق واسع مع الحفاظ على مستويات الجودة المطلوبة لتدريب نماذج ML للمشاريع المعقدة.

  • تم جمع الصوت ونسخه وتعليقه: 22,250 ساعه
  • اللغات المدعومة: 13 (الدانماركية ، والكورية ، والعربية السعودية ، والهولندية ، والبر الرئيسي وتايوان الصينية ، والفرنسية الكندية ، والإسبانية المكسيكية ، والتركية ، والهندية ، والبولندية ، واليابانية ، والروسية)
  • عدد الأقوال: شنومكسم +
  • الجدول الزمني: 7-8 أشهر

أثناء جمع النطق الصوتي عند 16 كيلوهرتز ، حرصنا على توفير مزيج صحي من مكبرات الصوت حسب العمر والجنس والتعليم واللهجات في بيئات تسجيل متنوعة.

نتيجة

البيانات الصوتية عالية الجودة من اللغويين الخبراء مكنت العميل من التدريب بدقة
نموذج التعرف على الكلام متعدد اللغات في 13 لغة عالمية من المستوى 1 و 2. من خلال مجموعات بيانات التدريب ذات المعايير الذهبية ، يمكن للعميل تقديم مساعدة رقمية ذكية وقوية لحل مشاكل العالم الحقيقي المستقبلية.

خبرتنا

0 +
ساعات الكلام المجمعة
0
فريق جامعي البيانات الصوتية
0 %
متوافق مع PII
0 +
رقم رائع
> 0
قبول البيانات ودقتها
0 +
عملاء Fortune 500

أخبرنا كيف يمكننا مساعدتك في مبادرتك التالية للذكاء الاصطناعي.