في بلدٍ يتميز بتنوعه الثقافي وثرائه اللغوي كالهند، يبدأ بناء الذكاء الاصطناعي الشامل بجمع مجموعات بيانات تمثيلية عالية الجودة. هذه هي الرؤية وراء مشروع فاني—مبادرة مفتوحة المصدر واسعة النطاق بقيادة حديقة الفن, معهد العلوم الهندي في بنغالوروو جوجل، بهدف إعطاء صوت لكل لغة ولهجة هندية.
الهدف الطموح؟ جمع أكثر من 150,000 ساعة من الكلام و أكثر من 15,000 ساعة من النسخ من 1 مليون شخص في مناطق 773 الهند.
باعتبارها أحد البائعين الرئيسيين لهذه المهمة الوطنية، شيب لقد لعبت دورًا محوريًا في تنظيم بيانات الكلام التلقائي، والنسخ، وجمع البيانات الوصفية - مما وضع الأساس لتقنيات الصوت العادلة التي تمثل الهند الحقيقية حقًا.
الرؤية وراء مشروع فاني
تم تصميم مشروع Vaani لسد فجوة إدراج الذكاء الاصطناعي من خلال إنشاء أكبر مجموعة بيانات مفتوحة المصدر ومتعددة الوسائط ومتعددة اللغات في الهند. تُعدّ هذه البيانات أساسية لتطوير أنظمة دقيقة للتعرف على الكلام والترجمة والذكاء الاصطناعي التوليدي باللغات الهندية الأصلية، والتي لا تحظى الكثير منها بالاهتمام الكافي في النظم التكنولوجية العالمية.
تتمثل الرؤية طويلة المدى في تعزيز التطبيقات المؤثرة في:
- قطاع الرعاية الصحية - الطب عن بعد القائم على الصوت
- قطاع التعليم - منصات التعلم العامية
- الحكم - واجهات محادثة لخدمات المواطنين
- سهولة الوصول والشمولية - أدوات صوتية للمستخدمين ذوي القدرات المختلفة
- الاستجابة للكارثة - التواصل في الوقت الحقيقي باللهجات المحلية
كيف ساعد شايب في بناء أكبر مجموعة بيانات مفتوحة المصدر للكلام في الهند لمشروع فاني
تم تكليف شايب بجمع 8,000 ساعة من الكلام التلقائي و 800 ساعة من النسخ التي تم التحقق منها يدويًا. شملت مسؤوليتنا دمج المتحدثين، والتقاط الصوت، ووضع علامات على البيانات الوصفية، وتنسيق النسخ، ومراقبة الجودة.
خلال 8,000 ساعة من البيانات الصوتية التلقائية
تسجيلات من أكثر من 400 متحدث أصلي لكل منطقة، تمثل الفئات العمرية والأجناس واللهجات المتنوعة
80 مقاطعة، مغطى
المطالبة القائمة على الصور لضمان الكلام الطبيعي والسياقي
وهذا ما جعل نهجنا فريدًا:
التنوع على مستوى المنطقة
جمعنا تسجيلات من 80 مقاطعة موزعة على ولايات مثل بيهار، وأوتار براديش، وكارناتاكا، وغرب البنغال، وماهاراشترا. ساهمت كل مقاطعة بـ 100 ساعة من البيانات الصوتية، مما ساهم في تحقيق التوازن الإقليمي. أشركنا متحدثين أصليين، مما ضمن تمثيل اللهجات واللهجات الإقليمية التي غالبًا ما تُغفل في قواعد بيانات الذكاء الاصطناعي السائدة.
التمثيل اللغوي والديموغرافي
جمعنا تسجيلات من 80 مقاطعة موزعة على ولايات مثل بيهار، وأوتار براديش، وكارناتاكا، وغرب البنغال، وماهاراشترا. ساهمت كل مقاطعة بـ 100 ساعة من البيانات الصوتية، مما ساهم في تحقيق التوازن الإقليمي. أشركنا متحدثين أصليين، مما ضمن تمثيل اللهجات واللهجات الإقليمية التي غالبًا ما تُغفل في قواعد بيانات الذكاء الاصطناعي السائدة.
الكلام الموجه بالصور
لتحفيز المفردات العفوية والطبيعية، عُرض على المشاركين ما بين 45 و90 صورة في كل جلسة، وطُلب منهم وصفها. طُلب من المشاركين استخدام صور متنوعة - من رموز ثقافية إلى أشياء يومية - لاستحضار استجابات طبيعية وعفوية بلغتهم الأم. ضمن هذا أن تعكس التسجيلات الكلام الواقعي والسياقي، وهو أمر أساسي لتدريب أنظمة معالجة اللغة الطبيعية المتقدمة.
معايير النسخ عالية الجودة
تم نسخ 10% فقط من بيانات الكلام، أي ما يعادل 800 ساعة. أجرى لغويون محليون عمليات النسخ ضمن دائرة نصف قطرها 20-50 كيلومترًا من المتحدث، مما يضمن الإلمام باللهجات والفروق الدقيقة. وضمن فحص الطبقة الثانية معدل خطأ في الكلمات أقل من 5%.
ضمان الجودة الصارم
كان لا بد من أن تلبي بيانات الصوت معايير عالية: لا ضوضاء خلفية، ولا صدى، ولا اهتزازات هاتفية، ولا تشوهات. سُجِّل الصوت في بيئات هادئة وخالية من الصدى. خضعت الملفات لمراجعة دقيقة لضمان استيفاء معايير وضوح الكلام، ومستويات الضوضاء، ودقة البيانات الوصفية، والتحقق من هوية المتحدث. كان لا بد من دقة وسم البيانات الوصفية في جميع الملفات، وفحص جميع التسجيلات للتأكد من محاذاة المتحدث والموقع.
التحديات التي حللناها
- الخدمات اللوجستية عن بعد - إدارة الفرق عبر 80 منطقة
- تنوع المتحدثين - دمج أكثر من 32,000 متحدث معتمد في مواقع نائية
- الحساسية الثقافية - احترام العادات واللهجات المحلية
- تكامل البيانات - تلبية معايير الجودة والامتثال
- ضبط الجودة - عبر سياقات لغوية وثقافية متعددة
يعود نجاحنا إلى التخطيط الدقيق، والتحقق من صحة التكنولوجيا، والشراكات مع الفرق المحلية التي فهمت الفروق الثقافية لكل منطقة.
التأثير والتطبيقات
لم تُسرّع مساهمة شايب تقدم مشروع فاني فحسب، بل أرست أيضًا أسس الذكاء الاصطناعي الشامل في الهند. تُستخدم مجموعة بيانات الكلام المُنسّقة بالفعل لبناء نماذج الذكاء الاصطناعي وضبطها بدقة من أجل:
- المساعدون الصوتيون العاميون
- محركات الترجمة الإقليمية
- أدوات التواصل المتاحة للأشخاص ذوي الإعاقة البصرية
- منصات التعليم الإلكتروني المدعومة بالذكاء الاصطناعي للطلاب في المناطق الريفية
- الطب عن بعد في المناطق الريفية
- خدمات المواطنين القائمة على الصوت
- الترجمة والنسخ في الوقت الفعلي
الخاتمة
يعد مشروع Vaani خطوة جريئة نحو الذكاء الاصطناعي الشامل الذي يمكن الوصول إليه - ويشرف Shaip أن يلعب دورًا أساسيًا في هذا المشروع. يؤكد عمل شايب في مشروع فاني التزامنا ببناء أنظمة الذكاء الاصطناعي الأخلاقية والشاملة المتجذرة في التنوع والتمثيل. مع أكثر من 8,000 ساعة من الكلام المجمع و800 ساعة من النسخ، نحن فخورون بأننا لعبنا دورًا في أحد أكثر مشاريع الإدماج الرقمي رؤية في الهند.
مع استمرار مشروع Vaani في تحقيق هدفه الأكبر المتمثل في جمع أكثر من 150,000 ألف ساعة من البيانات، فإننا على أهبة الاستعداد لدعم الحدود التالية للابتكار في مجال الذكاء الاصطناعي الذي يتحدث إلى كل هندي ويتحدث نيابة عنه.
هل تريد الشراكة معنا لبناء الذكاء الاصطناعي الذي يفهم العالم الحقيقي؟ www.shaip.com