دراسة حالة: الذكاء الاصطناعي للمحادثة

أكثر من 3 آلاف ساعة من البيانات التي تم جمعها وتقسيمها ونسخها لإنشاء ASR بـ 8 لغات هندية

جمع أقوال
تهدف الحكومة إلى تمكين مواطنيها من الوصول السهل إلى خدمات الإنترنت والرقمية بلغتهم الأم من خلال مشروع بهاشيني.

BHASHINI ، منصة ترجمة اللغات الهندية التي يحركها الذكاء الاصطناعي ، هي جزء حيوي من مبادرة الهند الرقمية.

صُممت منصة Bhashini لتوفير أدوات الذكاء الاصطناعي (AI) ومعالجة اللغة الطبيعية (NLP) للشركات الصغرى والصغيرة والمتوسطة والشركات الناشئة والمبتكرين المستقلين ، وهي بمثابة مورد عام. هدفها هو تعزيز الإدماج الرقمي من خلال تمكين المواطنين الهنود من التفاعل مع المبادرات الرقمية للبلاد بلغاتهم الأصلية.

بالإضافة إلى ذلك ، يهدف إلى توسيع نطاق توفر محتوى الإنترنت باللغات الهندية بشكل كبير. يستهدف هذا بشكل خاص مجالات المصلحة العامة مثل الحوكمة والسياسة والعلوم والتكنولوجيا ، إلخ. وبالتالي ، فإن هذا سيحفز المواطنين على استخدام الإنترنت بلغتهم الخاصة ، وتعزيز مشاركتهم النشطة.

تسخير البرمجة اللغوية العصبية لتمكين نظام بيئي متنوع من المساهمين والكيانات الشريكة والمواطنين لغرض تجاوز حواجز اللغة ، وبالتالي ضمان الإدماج والتمكين الرقمي

حل العالم الحقيقي

إطلاق العنان لقوة التعريب بالبيانات

احتاجت الهند إلى منصة تركز على إنشاء مجموعات بيانات متعددة اللغات وحلول تكنولوجيا اللغة القائمة على الذكاء الاصطناعي من أجل تقديم خدمات رقمية باللغات الهندية. لإطلاق هذه المبادرة ، اشترك المعهد الهندي للتكنولوجيا ، مدراس (IIT Madras) مع Shaip لجمع مجموعات بيانات اللغة الهندية وتقسيمها ونسخها لبناء نماذج كلام متعددة اللغات.

التحديات

لمساعدة العميل في خارطة طريق الكلام الخاصة بتكنولوجيا الكلام للغات الهندية ، كان الفريق بحاجة إلى الحصول على كميات كبيرة من بيانات التدريب وتقسيمها ونسخها لبناء نموذج الذكاء الاصطناعي. المتطلبات الأساسية للعميل هي:

جمع البيانات

  • احصل على 3000 ساعة من بيانات التدريب بـ 8 لغات هندية مع 4 لهجات لكل لغة.
  • لكل لغة ، سيجمع المورد Extempore Speech و
    خطاب تحاوري من الفئات العمرية 18-60 سنة
  • ضمان مزيج متنوع من المتحدثين حسب العمر والجنس والتعليم واللهجات
  • ضمان مزيج متنوع من بيئات التسجيل وفقًا للمواصفات.
  • يجب أن يكون كل تسجيل صوتي 16 كيلو هرتز على الأقل ولكن يفضل 44 كيلو هرتز

تجزئة البيانات

  • أنشئ مقاطع كلام مدتها 15 ثانية وطابع زمني للصوت بالملي ثانية لكل مكبر صوت معين ، ونوع الصوت (الكلام ، والثرثرة ، والموسيقى ، والضوضاء) ، والمنعطفات ، والألفاظ ، والعبارات في محادثة
  • أنشئ كل مقطع للإشارة الصوتية المستهدفة مع حشوة 200-400 مللي ثانية في البداية والنهاية.
  • بالنسبة لجميع المقاطع ، يجب ملء الكائنات التالية ، على سبيل المثال ، وقت البدء ، ووقت الانتهاء ، ومعرف الجزء ، ومستوى ارتفاع الصوت ، ونوع الصوت ، ورمز اللغة ، ومعرف مكبر الصوت ، وما إلى ذلك.

نسخ البيانات

  • اتبع إرشادات نسخ التفاصيل حول الأحرف والرموز الخاصة ، والتهجئة والقواعد ، والكتابة بالأحرف الكبيرة ، والاختصارات ، والتقلصات ، والأحرف المنطوقة الفردية ، والأرقام ، وعلامات الترقيم ، والاختصارات ، والكلام ، والكلام ، والكلام غير الواضح ، واللغات غير المستهدفة ، وغير الكلام.

فحص الجودة وردود الفعل

  • ستخضع جميع التسجيلات لتقييم الجودة والتحقق من صحتها ، وسيتم تسليم الكلام الذي تم التحقق من صحته فقط

الحلول

من خلال فهمنا العميق للذكاء الاصطناعي للمحادثات ، ساعدنا العميل على جمع البيانات وتقسيمها ونسخها مع فريق من الخبراء الجامعين واللغويين والمعلقين لإنشاء مجموعة كبيرة من مجموعة البيانات الصوتية بـ 8 لغات هندية

شمل نطاق عمل Shaip ، على سبيل المثال لا الحصر ، الحصول على كميات كبيرة من بيانات التدريب الصوتي ، وتقسيم التسجيلات الصوتية إلى أجزاء متعددة ، ونسخ البيانات وتقديم ملفات JSON المقابلة التي تحتوي على البيانات الوصفية [SpeakerID ، والعمر ، والجنس ، واللغة ، واللهجة ،
اللغة الأم ، المؤهل ، المهنة ، المجال ، تنسيق الملف ، التردد ، القناة ، نوع الصوت ، عدد السماعات ، عدد اللغات الأجنبية ، الإعداد المستخدم ، النطاق الضيق أو النطاق العريض للصوت ، إلخ.]. 

جمع Shaip 3000 ساعة من البيانات الصوتية على نطاق واسع مع الحفاظ على مستويات الجودة المطلوبة لتدريب تقنية الكلام للمشاريع المعقدة. تم أخذ نموذج الموافقة الصريحة من كل من المشاركين.

1. جمع البيانات

2. تجزئة البيانات

  • تم تقسيم البيانات الصوتية التي تم جمعها إلى مقاطع كلام مدتها 15 ثانية لكل منها وطابع زمني يصل إلى المللي ثانية لكل مكبر صوت ، ونوع الصوت ، والمنعطفات ، والألفاظ ، والعبارات في محادثة
  • تم إنشاء كل مقطع للإشارة الصوتية المستهدفة مع حشوة 200-400 مللي ثانية في بداية ونهاية الإشارة الصوتية.
  • بالنسبة لجميع المقاطع ، كانت الكائنات التالية موجودة وممتلئة ، على سبيل المثال ، وقت البدء ، ووقت الانتهاء ، ومعرف المقطع ، ومستوى ارتفاع الصوت (عالي ، عادي ، هادئ) ، نوع الصوت الأساسي (الكلام ، الثرثرة ، الموسيقى ، الضوضاء ، التداخل) ، معرف مكبر صوت رمز اللغة ، النسخ وما إلى ذلك.

3. فحص الجودة وردود الفعل

  • تم تقييم جميع التسجيلات من حيث الجودة وتم تسليم تسجيلات الكلام التي تم التحقق من صحتها باستخدام WER بنسبة 90٪ و TER بنسبة 90٪
  • قائمة فحص الجودة المتبعة:
       »بحد أقصى 15 ثانية من طول المقطع
       »النسخ من مجالات محددة ، وهي: الطقس ، أنواع مختلفة من الأخبار ، الصحة ، الزراعة ، التعليم ، الوظائف أو التمويل
       »ضوضاء خلفية منخفضة
       »لا يوجد مقطع صوتي مغلق - لا يوجد تشويه
       »تصحيح تجزئة الصوت للنسخ

4. نسخ البيانات
تم التقاط جميع الكلمات المنطوقة ، بما في ذلك التردد والكلمات الحشو والبدايات الخاطئة والتشنجات اللفظية الأخرى بدقة في النسخ. اتبعنا أيضًا إرشادات نسخ التفاصيل حول الأحرف الكبيرة والصغيرة ، والتهجئة ، والكتابة بالأحرف الكبيرة ، والاختصارات ، والتقلصات ، والأرقام ،
علامات الترقيم ، والاختصارات ، والكلام غير المألوف ، والضوضاء غير الكلامية ، إلخ. علاوة على ذلك ، فإن تدفق العمل المتبع للجمع والنسخ هو على النحو التالي:

نتيجة

ستمكن البيانات الصوتية عالية الجودة من اللغويين الخبراء المعهد الهندي للتكنولوجيا - مدراس ، من تدريب وبناء نماذج التعرف على الكلام متعددة اللغات بدقة في 8 لغات هندية مع لهجات مختلفة في الوقت المحدد. يمكن استخدام نماذج التعرف على الكلام من أجل:

  • التغلب على حاجز اللغة من أجل الإدماج الرقمي من خلال ربط المواطنين بالمبادرات بلغتهم الأم.
  • يعزز الحوكمة الرقمية
  • محفز لتشكيل نظام بيئي للخدمات والمنتجات باللغات الهندية
  • المزيد من المحتوى الرقمي المحلي في مجالات المصلحة العامة ، لا سيما الحوكمة والسياسات
الذهبي 5 نجوم

لقد تأثرنا بخبرة Shaip في مجال الذكاء الاصطناعي للمحادثة. كفاءتهم الإجمالية في تنفيذ المشروع من تحديد المصادر والتجزئة والنسخ وتقديم بيانات التدريب المطلوبة من اللغويين الخبراء في 8 لغات ضمن جداول زمنية وإرشادات صارمة ؛ مع الحفاظ على مستوى الجودة المقبول ".

تسريع الذكاء الاصطناعي للمحادثة
تطوير التطبيقات بنسبة 100٪

عملاء متميزون

تمكين الفرق لبناء منتجات ذكاء اصطناعي رائدة عالميًا.