الذكاء الاصطناعي للمحادثة: التعرف التلقائي على الكلام

تم جمع أكثر من 8 آلاف ساعة صوتية، و800 ساعة مكتوبة لتقنية الصوت متعددة اللغات

المحادثة منظمة العفو الدولية

المُقدّمة

كانت الهند بحاجة إلى منصة تركز على إنشاء مجموعات بيانات متعددة اللغات وحلول تكنولوجيا اللغة القائمة على الذكاء الاصطناعي من أجل تقديم الخدمات الرقمية باللغات الهندية. لإطلاق هذه المبادرة، عقدت The Client شراكة مع Shaip لجمع اللغة الهندية ونسخها لبناء نماذج كلام متعددة اللغات.

الصوت

ساعات من البيانات التي تم جمعها
10
عدد الصفحات المشروحة
10 +
مدة المشروع
< 1 المقبلة.

التحديات

لمساعدة العميل في خريطة طريق الكلام الخاصة بتقنية الكلام للغات الهندية، كان الفريق بحاجة إلى الحصول على كميات كبيرة من بيانات التدريب وتقسيمها ونسخها لبناء نموذج الذكاء الاصطناعي. وكانت المتطلبات الحاسمة للعميل:

جمع البيانات

  • احصل على 8000 ساعة من بيانات التدريب من المواقع النائية في الهند
  • المورد لجمع الكلام العفوي من الفئات العمرية من 20-70 سنة
  • ضمان وجود مزيج متنوع من المتحدثين حسب العمر والجنس والتعليم واللهجات
  • يجب أن يكون كل تسجيل صوتي 16 كيلو هرتز على الأقل مع 16 بت/عينة.
جمع البيانات

نسخ البيانات

اتبع إرشادات النسخ التفصيلية حول الأحرف والرموز الخاصة، والتهجئة والقواعد، والأحرف الكبيرة، والاختصارات، والاختصارات، والحروف المنطوقة الفردية، والأرقام، وعلامات الترقيم، والمختصرات والأحرف الأولية، والكلام غير المتقن، والكلام غير المفهوم، واللغات غير المستهدفة، وغير الكلام

نسخ البيانات

فحص الجودة وردود الفعل

ستخضع جميع التسجيلات لتقييم الجودة والتحقق من صحتها، وسيتم تسليم تسجيلات الكلام التي تم التحقق من صحتها فقط

الحلول

من خلال فهمنا العميق للذكاء الاصطناعي للمحادثة، ساعدنا العميل على جمع البيانات الصوتية ونسخها مع فريق من جامعي الخبراء واللغويين والمعلقين لبناء مجموعة كبيرة من البيانات الصوتية من المناطق النائية في الهند.

شمل نطاق عمل Shaip، على سبيل المثال لا الحصر، الحصول على كميات كبيرة من بيانات التدريب الصوتي، ونسخ البيانات وتسليم ملفات JSON المقابلة التي تحتوي على البيانات الوصفية [لكل من المتحدثين والناسخين. لكل متحدث، تتضمن البيانات الوصفية معرف مكبر الصوت مجهول الهوية، وتفاصيل الجهاز، والمعلومات الديموغرافية مثل الجنس والعمر والتعليم، إلى جانب الرمز السري والحالة الاجتماعية والاقتصادية واللغات المنطوقة وسجل مدة إقامتهم طوال حياتهم. بالنسبة لكل ناسخ، تتضمن البيانات معرف ناسخ مجهول المصدر، وتفاصيل ديموغرافية مشابهة للمتحدثين، ومدة تجربة النسخ، وتقسيم شامل للغات التي يمكنهم القراءة والكتابة والتحدث بها.

تم جمع شايب 8000 ساعات من البيانات الصوتية / الكلام التلقائي على نطاق واسع ونسخه 800 ساعة مع الحفاظ على مستويات الجودة المطلوبة المطلوبة لتدريب تكنولوجيا الكلام على المشاريع المعقدة. تم أخذ نموذج الموافقة الصريحة من كل من المشاركين. استند الخطاب / العفوي الذي تم جمعه إلى الصور المقدمة من الجامعة. ل 3500 الصور، 1000 هي عامة و 2500 تتعلق بالثقافة والمهرجانات الخاصة بالمنطقة وما إلى ذلك. تصور الصور مجالات مختلفة مثل محطات القطار والأسواق والطقس والمزيد.

جمع البيانات

الولايه او المحافظهالمناطقساعات الصوتنسخ
(ساعة)
ولاية بيهارساران، إيست تشامباران، جوبالجانج، سيتامارهي، ساماستيبور، داربهانجا، مادبورا، بهاجالبور، جايا، كيشانجانج، فايشالي، لاكيساراي، ساهارسا، سوبول، أراريا، بيجوساراي، جاهاناباد، بورنيا، مظفربور، جاموي.2000200
أتر برديشديوريا، فاراناسي، جوراخبور، غازيبور، مظفارناجار، إيتا، هاميربور، جيوتيبا فول ناجار، بودون، جالون1000100
راجستانناجور، شورو20020
أوتارانتشالتيهري جارهوال، أوتاركاشي20020
تشهاتيسجارهبيلاسبور، رايجاره، كابيردام، سارجوجا، كوربا، جاشبور، راجناندجاون، بالرامبور، باستار، سوكما1000100
ولاية البنغال الغربيةباشيم مدينيبور، مالدا، جالبايجوري، بوروليا، كولكاتا، جارجرام، شمال 24 بارجاناس، داكشين ديناجبور80080
جهارخاندSahebganj ، جمتارا20020
APجونتور، شيتور، فيساخاباتنام، كريشنا، أنانتابور، سريكاكولام60060
تيلانجاناكريمناجار، نالجوندا20020
غواشمال + جنوب جوا10010
كارناتاكاداكشين كانادا، جولبارجا، درواد، بيلاري، ميسور، شيموجا، بيجابور، بلجاوم، رايتشور، تشامراجناجار1000100
ماهاراشتراسيندودورج، دهولي، ناجبور، بيون، أورانجاباد، تشاندربور، سولابور70070
الإجمالي8000800

إرشادات عامة

شكل

    • الصوت عند 16 كيلو هرتز، 16 بت/عينة.
    • قناة واحدة.
    • الصوت الخام دون تحويل الترميز.

الطراز

    • كلام عفوي.
    • الجمل مبنية على الصور المقدمة من الجامعة. من بين 3500 صورة، هناك 1000 صورة عامة و2500 تتعلق بالثقافة الخاصة بالمنطقة والمهرجانات وما إلى ذلك. تصور الصور مجالات مختلفة مثل محطات القطار والأسواق والطقس والمزيد.

خلفية التسجيل

    • تم التسجيل في بيئة هادئة وخالية من الصدى.
    • لا توجد اضطرابات في الهاتف الذكي (الاهتزاز أو الإشعارات) أثناء التسجيل.
    • لا توجد تشوهات مثل القطع أو تأثيرات المجال البعيد.
    • الاهتزازات الصادرة عن الهاتف غير مقبولة؛ تكون الاهتزازات الخارجية مقبولة إذا كان الصوت واضحًا.

مواصفات المتحدث

    • الفئة العمرية من 20 إلى 70 سنة مع التوزيع المتوازن بين الجنسين لكل منطقة.
    • الحد الأدنى من الناطقين بها 400 في كل منطقة.
    • يجب على المتحدثين استخدام لغتهم/لهجتهم الأصلية.
    • نماذج الموافقة إلزامية لجميع المشاركين.


فحص الجودة وضمان الجودة الحرجة

تعطي عملية ضمان الجودة الأولوية لضمان الجودة للتسجيلات الصوتية والنسخ الصوتي. تركز معايير الصوت على فترات الصمت الدقيقة ومدة المقطع ووضوح المتحدث الواحد والبيانات الوصفية التفصيلية بما في ذلك العمر والحالة الاجتماعية والاقتصادية. تؤكد معايير النسخ على دقة العلامة، وصحة الكلمة، وتفاصيل المقطع الصحيحة. وينص معيار القبول على أنه إذا فشلت أكثر من 20% من مجموعة الصوت في هذه المعايير، فسيتم رفضها. بالنسبة للتناقضات التي تقل عن 20%، يلزم استبدال التسجيلات بملفات تعريف مماثلة.

نسخ البيانات

تؤكد إرشادات النسخ على الدقة والنسخ الحرفي فقط عندما تكون الكلمات واضحة ومفهومة؛ يتم وضع علامة على الكلمات غير الواضحة على أنها [غير واضح] أو [غير مسموع] بناءً على المشكلة. يتم وضع علامة على حدود الجملة في الصوت الطويل ، ولا يسمح بإعادة الصياغة أو تصحيح الأخطاء النحوية. يغطي النسخ الحرفي الأخطاء، العامية، والتكرار ولكنه يتجاهل البدايات الخاطئة، وأصوات الحشو، والتلعثم. يتم نسخ أصوات الخلفية والأمامية باستخدام علامات وصفية، بينما تتبع أسماء العلم والعناوين والأرقام قواعد النسخ المحددة. يتم استخدام تسميات المتحدث لكل جملة، ويتم الإشارة إلى الجمل غير المكتملة.

سير عمل المشروع

يصف سير العمل عملية النسخ الصوتي. يبدأ الأمر بإعداد المشاركين وتدريبهم. يقومون بتسجيل الصوت باستخدام تطبيق يتم تحميله على منصة ضمان الجودة. يخضع هذا الصوت لفحوصات الجودة والتجزئة التلقائية. يقوم الفريق الفني بعد ذلك بإعداد المقاطع للنسخ. بعد النسخ اليدوي، هناك خطوة لضمان الجودة. يتم تسليم النسخ إلى العميل، وفي حالة قبولها، يعتبر التسليم كاملاً. إذا لم يكن الأمر كذلك، يتم إجراء المراجعات بناءً على ملاحظات العملاء.

نتيجة

ستمكن البيانات الصوتية عالية الجودة من اللغويين الخبراء عملائنا من تدريب وبناء نماذج التعرف على الكلام متعددة اللغات بدقة بمختلف اللغات الهندية بلهجات مختلفة في الوقت المحدد. يمكن استخدام نماذج التعرف على الكلام من أجل:

  • التغلب على حاجز اللغة من أجل الإدماج الرقمي من خلال ربط المواطنين بالمبادرات بلغتهم الأم.
  • يعزز الحوكمة الرقمية
  • محفز لتشكيل نظام بيئي للخدمات والمنتجات باللغات الهندية
  • المزيد من المحتوى الرقمي المحلي في مجالات المصلحة العامة ، لا سيما الحوكمة والسياسات

نحن منبهرون بخبرة Shaip في مجال الذكاء الاصطناعي للمحادثة. كانت مهمة التعامل مع 8000 ساعة من البيانات الصوتية إلى جانب 800 ساعة من النسخ عبر 80 منطقة متنوعة هائلة، على أقل تقدير. لقد كان فهم شايب العميق للتفاصيل المعقدة والفروق الدقيقة في هذا المجال هو الذي جعل التنفيذ الناجح لمثل هذا المشروع الصعب ممكنًا. إن قدرتهم على الإدارة والتنقل بسلاسة عبر تعقيدات هذه الكمية الهائلة من البيانات مع ضمان الجودة العالية أمر يستحق الثناء حقًا.

الذهبي 5 نجوم

تسريع الذكاء الاصطناعي للمحادثة
تطوير التطبيقات بنسبة 100٪