دراسة حالة: مجموعة الكلام
حل العالم الحقيقي
البيانات التي تدعم المحادثات العالمية
تنشأ الحاجة إلى التدريب على الكلام لأنه لا يستخدم جميع العملاء الكلمات أو العبارات الدقيقة أثناء التفاعل أو طرح الأسئلة على المساعدين الصوتيين بتنسيق نصي. لهذا السبب يجب تدريب تطبيقات صوتية معينة على بيانات الكلام التلقائية. على سبيل المثال ، "أين يقع أقرب مستشفى؟" "ابحث عن مستشفى بالقرب مني" أو "هل توجد مستشفى قريبة؟" تشير جميعها إلى نفس القصد من البحث ولكن يتم صياغتها بشكل مختلف.
المشكلة
لتنفيذ خارطة طريق الكلام الخاصة بالمساعد الرقمي للعملاء للغات في جميع أنحاء العالم ، كان الفريق بحاجة إلى الحصول على كميات كبيرة من بيانات التدريب لنموذج الذكاء الاصطناعي للتعرف على الكلام. المتطلبات الأساسية للعميل هي:
- الحصول على كميات كبيرة من بيانات التدريب (مطالبات نطق المتحدث الفردي لا تزيد عن 3-30 ثانية) لخدمات التعرف على الكلام في 13 لغة عالمية
- لكل لغة ، سيُنشئ المورد مطالبات نصية للمتحدثين للتسجيل (ما لم يكن ملف
إمدادات العميل) ونسخ الصوت الناتج. - توفير البيانات الصوتية ونسخ الكلام المسجل مع ملفات JSON المقابلة
تحتوي على البيانات الوصفية لجميع التسجيلات. - ضمان مزيج متنوع من المتحدثين حسب العمر والجنس والتعليم واللهجة
- ضمان مزيج متنوع من بيئات التسجيل وفقًا للمواصفات.
- يجب أن يكون كل تسجيل صوتي 16 كيلو هرتز على الأقل ولكن يفضل 44 كيلو هرتز
تسريع تطوير تطبيق الذكاء الاصطناعي المحادثة الخاص بك بنسبة 100٪
بعد تقييم العديد من الموردين، اختار العميل شركة Shaip لخبرتها في مشاريع الذكاء الاصطناعي التحادثي. وقد أُعجبنا بكفاءة Shaip في تنفيذ المشاريع، وخبرتها في الحصول على النصوص المطلوبة ونسخها وتسليمها من خبراء لغويين بثلاث عشرة لغة، ضمن مواعيد نهائية صارمة وبالجودة المطلوبة.
الحلول
من خلال فهمنا العميق للذكاء الاصطناعي للمحادثات ، ساعدنا العميل على جمع البيانات وتدوينها والتعليق عليها مع فريق من اللغويين الخبراء والمعلقين لتدريب مجموعة الصوت متعددة اللغات الخاصة بمعالجة الكلام المدعومة بالذكاء الاصطناعي.
شمل نطاق عمل Shaip ، على سبيل المثال لا الحصر ، الحصول على كميات كبيرة من بيانات التدريب الصوتي للتعرف على الكلام ، ونسخ التسجيلات الصوتية بلغات متعددة لجميع اللغات على خارطة طريق المستوى 1 والمستوى 2 للغة ، وتقديم المقابلة. JSON الملفات التي تحتوي على البيانات الوصفية. قام Shaip بجمع أقوال من 3 إلى 30 ثانية على نطاق واسع مع الحفاظ على مستويات الجودة المطلوبة لتدريب نماذج ML للمشاريع المعقدة.
- تم جمع الصوت ونسخه وتعليقه: خلال 22,250 ساعة
- اللغات المدعومة: 13 (الدانماركية ، والكورية ، والعربية السعودية ، والهولندية ، والبر الرئيسي وتايوان الصينية ، والفرنسية الكندية ، والإسبانية المكسيكية ، والتركية ، والهندية ، والبولندية ، واليابانية ، والروسية)
- عدد الأقوال: شنومكسم +
- الجدول الزمني: 7-8 أشهر

أثناء جمع النطق الصوتي عند 16 كيلوهرتز ، حرصنا على توفير مزيج صحي من مكبرات الصوت حسب العمر والجنس والتعليم واللهجات في بيئات تسجيل متنوعة.
خبراتنا
الموارد الموصى بها
دليل المشتري
دليل المشتري: الذكاء الاصطناعي للمحادثة
يعمل برنامج chatbot الذي تحدثت معه على نظام AI للمحادثة المتقدم الذي يتم تدريبه واختباره وبنائه باستخدام العديد من مجموعات بيانات التعرف على الكلام.
المدونة
حالة الذكاء الاصطناعي للمحادثة 2025
تتحدث الرسوم البيانية للمحادثة AI 2025 عن ماهية الذكاء الاصطناعي للمحادثة ، وتطوره ، وأنواعه ، وسوق AI للمحادثة حسب المنطقة ، وحالات الاستخدام ، والتحديات ، وما إلى ذلك.
المدونة
كيف تفهم Siri و Alexa ما تقوله؟
قد يكون المساعدون الصوتيون هذه الأصوات الرائعة التي يغلب عليها الطابع الأنثوي والتي تستجيب لطلباتك للعثور على أقرب مطعم أو أقصر طريق إلى المركز التجاري.
أخبرنا كيف يمكننا مساعدتك في مبادرتك التالية للذكاء الاصطناعي.