دراسة حالة: الذكاء الاصطناعي للمحادثة
أكثر من 3 آلاف ساعة من البيانات التي تم جمعها وتقسيمها ونسخها لإنشاء ASR بـ 8 لغات هندية
BHASHINI ، منصة ترجمة اللغات الهندية التي يحركها الذكاء الاصطناعي ، هي جزء حيوي من مبادرة الهند الرقمية.
صُممت منصة Bhashini لتوفير أدوات الذكاء الاصطناعي (AI) ومعالجة اللغة الطبيعية (NLP) للشركات الصغرى والصغيرة والمتوسطة والشركات الناشئة والمبتكرين المستقلين ، وهي بمثابة مورد عام. هدفها هو تعزيز الإدماج الرقمي من خلال تمكين المواطنين الهنود من التفاعل مع المبادرات الرقمية للبلاد بلغاتهم الأصلية.
بالإضافة إلى ذلك ، يهدف إلى توسيع نطاق توفر محتوى الإنترنت باللغات الهندية بشكل كبير. يستهدف هذا بشكل خاص مجالات المصلحة العامة مثل الحوكمة والسياسة والعلوم والتكنولوجيا ، إلخ. وبالتالي ، فإن هذا سيحفز المواطنين على استخدام الإنترنت بلغتهم الخاصة ، وتعزيز مشاركتهم النشطة.
تسخير البرمجة اللغوية العصبية لتمكين نظام بيئي متنوع من المساهمين والكيانات الشريكة والمواطنين لغرض تجاوز حواجز اللغة ، وبالتالي ضمان الإدماج والتمكين الرقمي
حل العالم الحقيقي
إطلاق العنان لقوة التعريب بالبيانات
احتاجت الهند إلى منصة تركز على إنشاء مجموعات بيانات متعددة اللغات وحلول تكنولوجيا اللغة القائمة على الذكاء الاصطناعي من أجل تقديم خدمات رقمية باللغات الهندية. لإطلاق هذه المبادرة ، اشترك المعهد الهندي للتكنولوجيا ، مدراس (IIT Madras) مع Shaip لجمع مجموعات بيانات اللغة الهندية وتقسيمها ونسخها لبناء نماذج كلام متعددة اللغات.
التحديات
لمساعدة العميل في خارطة طريق الكلام الخاصة بتكنولوجيا الكلام للغات الهندية ، كان الفريق بحاجة إلى الحصول على كميات كبيرة من بيانات التدريب وتقسيمها ونسخها لبناء نموذج الذكاء الاصطناعي. المتطلبات الأساسية للعميل هي:
جمع البيانات
- احصل على 3000 ساعة من بيانات التدريب بـ 8 لغات هندية مع 4 لهجات لكل لغة.
- لكل لغة ، سيجمع المورد Extempore Speech و
خطاب تحاوري من الفئات العمرية 18-60 سنة - ضمان مزيج متنوع من المتحدثين حسب العمر والجنس والتعليم واللهجات
- ضمان مزيج متنوع من بيئات التسجيل وفقًا للمواصفات.
- يجب أن يكون كل تسجيل صوتي 16 كيلو هرتز على الأقل ولكن يفضل 44 كيلو هرتز
تجزئة البيانات
- أنشئ مقاطع كلام مدتها 15 ثانية وطابع زمني للصوت بالملي ثانية لكل مكبر صوت معين ، ونوع الصوت (الكلام ، والثرثرة ، والموسيقى ، والضوضاء) ، والمنعطفات ، والألفاظ ، والعبارات في محادثة
- أنشئ كل مقطع للإشارة الصوتية المستهدفة مع حشوة 200-400 مللي ثانية في البداية والنهاية.
- بالنسبة لجميع المقاطع ، يجب ملء الكائنات التالية ، على سبيل المثال ، وقت البدء ، ووقت الانتهاء ، ومعرف الجزء ، ومستوى ارتفاع الصوت ، ونوع الصوت ، ورمز اللغة ، ومعرف مكبر الصوت ، وما إلى ذلك.
نسخ البيانات
- اتبع إرشادات نسخ التفاصيل حول الأحرف والرموز الخاصة ، والتهجئة والقواعد ، والكتابة بالأحرف الكبيرة ، والاختصارات ، والتقلصات ، والأحرف المنطوقة الفردية ، والأرقام ، وعلامات الترقيم ، والاختصارات ، والكلام ، والكلام ، والكلام غير الواضح ، واللغات غير المستهدفة ، وغير الكلام.
فحص الجودة وردود الفعل
- ستخضع جميع التسجيلات لتقييم الجودة والتحقق من صحتها ، وسيتم تسليم الكلام الذي تم التحقق من صحته فقط
الحلول
من خلال فهمنا العميق للذكاء الاصطناعي للمحادثات ، ساعدنا العميل على جمع البيانات وتقسيمها ونسخها مع فريق من الخبراء الجامعين واللغويين والمعلقين لإنشاء مجموعة كبيرة من مجموعة البيانات الصوتية بـ 8 لغات هندية
شمل نطاق عمل Shaip ، على سبيل المثال لا الحصر ، الحصول على كميات كبيرة من بيانات التدريب الصوتي ، وتقسيم التسجيلات الصوتية إلى أجزاء متعددة ، ونسخ البيانات وتقديم ملفات JSON المقابلة التي تحتوي على البيانات الوصفية [SpeakerID ، والعمر ، والجنس ، واللغة ، واللهجة ،
اللغة الأم ، المؤهل ، المهنة ، المجال ، تنسيق الملف ، التردد ، القناة ، نوع الصوت ، عدد السماعات ، عدد اللغات الأجنبية ، الإعداد المستخدم ، النطاق الضيق أو النطاق العريض للصوت ، إلخ.].
جمع Shaip 3000 ساعة من البيانات الصوتية على نطاق واسع مع الحفاظ على مستويات الجودة المطلوبة لتدريب تقنية الكلام للمشاريع المعقدة. تم أخذ نموذج الموافقة الصريحة من كل من المشاركين.
1. جمع البيانات