بيانات التدريب على التعرف على الكلام

بيانات التدريب على التعرف على الكلام - الأنواع وجمع البيانات والتطبيقات

إذا كنت تستخدم Siri أو Alexa أو Cortana أو Amazon Echo أو غيرها كجزء من حياتك اليومية ، فأنت تقبل ذلك التعرف على الكلام أصبح جزءًا موجودًا في كل مكان من حياتنا. هؤلاء يعمل بالذكاء الاصطناعي يقوم المساعدون الصوتيون بتحويل الاستفسارات الشفوية للمستخدمين إلى نصوص ، ويفسرون ويفهمون ما يقوله المستخدم للتوصل إلى إجابة مناسبة.

هناك حاجة إلى جمع بيانات عالية الجودة لتطوير نماذج موثوقة للكلام والتعرف. لكن ، النامية برنامج التعرف على الكلام ليست مهمة بسيطة - على وجه التحديد لأن نسخ الكلام البشري بكل تعقيداته ، مثل الإيقاع واللهجة والنبرة والوضوح ، أمر صعب. وعندما تضيف المشاعر إلى هذا المزيج المعقد ، يصبح الأمر تحديًا.

ما هو التعرف على الكلام؟

التعرف على الكلام هو قدرة البرنامج على التعرف عليه ومعالجته خطاب انساني في نص. في حين أن الاختلاف بين التعرف على الصوت والتعرف على الكلام قد يبدو شخصيًا للكثيرين ، إلا أن هناك بعض الاختلافات الأساسية بين الاثنين.

على الرغم من أن كل من التعرف على الكلام والصوت يشكلان جزءًا من تقنية المساعد الصوتي ، إلا أنهما يؤديان وظيفتين مختلفتين. يقوم التعرف على الكلام بنسخ الكلام والأوامر البشرية تلقائيًا إلى نص ، بينما يتعامل التعرف على الصوت فقط مع التعرف على صوت المتحدث.

أنواع التعرف على الكلام

قبل أن ننتقل إلى أنواع التعرف على الكلام، فلنلق نظرة سريعة على بيانات التعرف على الكلام.

بيانات التعرف على الكلام عبارة عن مجموعة من التسجيلات الصوتية لكلام الإنسان ونسخ النص التي تساعد في تدريب أنظمة التعلم الآلي على التعرف على الصوت.

يتم إدخال التسجيلات الصوتية والنسخ في نظام ML بحيث يمكن تدريب الخوارزمية على التعرف على الفروق الدقيقة في الكلام وفهم معناه.

في حين أن هناك العديد من الأماكن حيث يمكنك الحصول على مجموعات بيانات مجانية معبأة مسبقًا ، فمن الأفضل الحصول عليها مجموعات البيانات المخصصة لمشاريعك. يمكنك تحديد حجم المجموعة ومتطلبات الصوت ومكبر الصوت واللغة من خلال وجود مجموعة بيانات مخصصة.

طيف بيانات الكلام

بيانات الكلام يحدد الطيف جودة ونبرة الكلام التي تتراوح من الطبيعي إلى غير الطبيعي.

  • بيانات التعرف على الكلام المبرمجة

    كما يوحي الاسم ، فإن الكلام المكتوب هو شكل خاضع للتحكم من البيانات. يقوم المتحدثون بتسجيل عبارات محددة من نص مُعد. تُستخدم هذه عادةً لتوصيل الأوامر ، مع التأكيد على كيفية استخدام كلمة أو عبارة يقال بدلاً مما يقال.

    يمكن استخدام التعرف على الكلام النصي عند تطوير المساعد الصوتي الذي يجب أن يلتقط الأوامر الصادرة باستخدام لهجات مكبر صوت متنوعة.

  • التعرف على الكلام المستند إلى السيناريو

    في خطاب قائم على السيناريو ، يُطلب من المتحدث تخيل سيناريو معين وإصدار أ أمر صوتي بناء على السيناريو. بهذه الطريقة ، تكون النتيجة مجموعة من الأوامر الصوتية التي لم تتم كتابتها بل يتم التحكم فيها.

    بيانات الكلام المستندة إلى السيناريوهات مطلوبة من قبل المطورين الذين يتطلعون إلى تطوير جهاز يفهم الكلام اليومي بفروقه الدقيقة المختلفة. على سبيل المثال ، اسأل عن الاتجاهات للذهاب إلى أقرب بيتزا هت باستخدام مجموعة متنوعة من الأسئلة.

  • التعرف على الكلام الطبيعي

    في نهاية طيف الكلام مباشرةً ، يكون الكلام عفويًا وطبيعيًا ولا يتم التحكم فيه بأي شكل من الأشكال. يتحدث المتحدث بحرية مستخدماً لهجة المحادثة الطبيعية ولغته وطابعه ومضمونه.

    إذا كنت ترغب في تدريب تطبيق قائم على ML على التعرف على الكلام متعدد المتحدثين ، فإن ملف خطاب التخاطب مجموعة البيانات مفيدة.

مكونات جمع البيانات لمشاريع الكلام

جمع بيانات الكلام تضمن سلسلة من الخطوات المتضمنة في جمع بيانات الكلام أن البيانات المجمعة ذات جودة وتساعد في تدريب النماذج عالية الجودة القائمة على الذكاء الاصطناعي.

فهم استجابات المستخدم المطلوبة

ابدأ بفهم استجابات المستخدم المطلوبة للنموذج. لتطوير نموذج التعرف على الكلام ، يجب عليك جمع البيانات التي تمثل المحتوى الذي تحتاجه عن كثب. اجمع البيانات من التفاعلات الواقعية لفهم تفاعلات المستخدم واستجاباته. إذا كنت تقوم ببناء مساعد دردشة قائم على الذكاء الاصطناعي ، فابحث عن سجلات الدردشة وتسجيلات المكالمات واستجابات مربع حوار الدردشة لإنشاء مجموعة بيانات.

فحص اللغة الخاصة بالمجال

أنت تتطلب كلاً من المحتوى العام والخاص بالمجال لمجموعة بيانات التعرف على الكلام. بمجرد قيامك بجمع بيانات الكلام العامة ، يجب عليك غربلة البيانات وفصل البيانات العامة عن البيانات المحددة.

على سبيل المثال ، يمكن للعملاء الاتصال لطلب موعد للتحقق من الجلوكوما في مركز رعاية العيون. طلب موعد هو مصطلح عام للغاية ، ولكن الجلوكوما خاصة بالمجال.

علاوة على ذلك ، عند تدريب نموذج ML للتعرف على الكلام ، تأكد من تدريبه على تحديد العبارات بدلاً من الفردية كلمات معترف بها.

سجل الكلام البشري

بعد جمع البيانات من الخطوتين السابقتين ، ستشمل الخطوة التالية حث البشر على تسجيل البيانات التي تم جمعها.

من الضروري الحفاظ على الطول المثالي للنص. قد تؤدي مطالبة الأشخاص بقراءة أكثر من 15 دقيقة من النص إلى نتائج عكسية. حافظ على فجوة لا تقل عن 2-3 ثوانٍ بين كل عبارة مسجلة.

اسمح للتسجيل أن يكون ديناميكيًا

قم ببناء مستودع كلام لمختلف الأشخاص ولهجات التحدث والأنماط المسجلة في ظل ظروف وأجهزة وبيئات مختلفة. إذا كان غالبية المستخدمين المستقبليين سيستخدمون الخط الأرضي ، فيجب أن تحتوي قاعدة بيانات مجموعة الكلام على تمثيل كبير يتوافق مع هذا المطلب.

إحداث التباين في تسجيل الكلام

بمجرد إعداد البيئة المستهدفة ، اطلب من موضوعات جمع البيانات قراءة النص المُعد في بيئة مماثلة. اطلب من الأشخاص ألا يقلقوا بشأن الأخطاء واجعل التسليم طبيعيًا قدر الإمكان. تكمن الفكرة في وجود مجموعة كبيرة من الأشخاص يقومون بتسجيل النص في نفس البيئة.

نسخ الخطب

بمجرد تسجيل النص باستخدام مواضيع متعددة (مع وجود أخطاء) ، يجب أن تتابع عملية النسخ. حافظ على الأخطاء كما هي ، لأن هذا من شأنه أن يساعدك على تحقيق الديناميكية والتنوع في البيانات التي تم جمعها.

بدلاً من جعل البشر ينسخون النص بالكامل كلمة بكلمة ، يمكنك إشراك محرك تحويل الكلام إلى نص للقيام بعملية النسخ. ومع ذلك ، نقترح عليك أيضًا توظيف ناسخة بشرية لتصحيح الأخطاء.

تطوير مجموعة اختبار

يعد تطوير مجموعة اختبار أمرًا بالغ الأهمية حيث إنه من المرشحين الأوائل لـ نموذج اللغة.

قم بعمل زوج من الكلام والنص المقابل وقم بتقسيمهما إلى مقاطع.

بعد جمع العناصر التي تم جمعها ، استخرج عينة بنسبة 20٪ ، والتي تشكل مجموعة الاختبار. إنها ليست مجموعة التدريب ، ولكن هذه البيانات المستخرجة ستعلمك ما إذا كان النموذج المدرب يقوم بنسخ الصوت الذي لم يتم التدريب عليه.

بناء نموذج وقياس للتدريب اللغوي

الآن قم ببناء نموذج لغة التعرف على الكلام باستخدام العبارات الخاصة بالمجال والاختلافات الإضافية إذا لزم الأمر. بمجرد تدريب النموذج ، يجب أن تبدأ في قياسه.

خذ نموذج التدريب (مع 80٪ مقاطع صوتية محددة) واختبره مقابل مجموعة الاختبار (مجموعة بيانات مستخرجة 20٪) للتحقق من التنبؤات والموثوقية. تحقق من الأخطاء والأنماط والتركيز على العوامل البيئية التي يمكن إصلاحها.

حالات أو تطبيقات الاستخدام المحتملة

حالة استخدام التعرف على الكلام

التطبيق الصوتي ، الأجهزة الذكية ، تحويل الكلام إلى نص ، دعم العملاء ، إملاء المحتوى ، تطبيق الأمان ، المركبات ذاتية القيادة ، تدوين الملاحظات للرعاية الصحية.

يفتح التعرف على الكلام عالمًا من الاحتمالات ، وقد زاد اعتماد المستخدم للتطبيقات الصوتية على مر السنين.

بعض التطبيقات الشائعة لـ تقنية التعرف على الكلام تتضمن:

  1. تطبيق البحث الصوتي

    وفقًا لـ Google ، حول 20٪ من عمليات البحث التي أجريت على تطبيق Google صوتي. ثمانية مليارات نسمة من المتوقع أن تستخدم المساعدين الصوتيين بحلول عام 2023 ، بزيادة حادة عن 6.4 مليار في عام 2022.

    زاد اعتماد البحث الصوتي بشكل كبير على مر السنين ، ومن المتوقع أن يستمر هذا الاتجاه. يعتمد المستهلكون على البحث الصوتي للبحث عن استفسارات وشراء المنتجات وتحديد مواقع الأعمال والعثور على الشركات المحلية والمزيد.

  2. أجهزة منزلية / أجهزة ذكية

    يتم استخدام تقنية التعرف على الصوت لتوفير أوامر صوتية للأجهزة الذكية المنزلية مثل أجهزة التلفزيون والأضواء والأجهزة الأخرى. 66٪ من المستهلكين في المملكة المتحدة والولايات المتحدة وألمانيا ذكروا أنهم استخدموا مساعدين صوتيين عند استخدام الأجهزة الذكية ومكبرات الصوت.

  3. خطاب إلى نص

    يتم استخدام تطبيقات تحويل الكلام إلى نص للمساعدة في الحوسبة المجانية عند كتابة رسائل البريد الإلكتروني والمستندات والتقارير وغيرها. خطاب إلى نص يقضي على الوقت اللازم لكتابة المستندات وكتابة الكتب والرسائل الإلكترونية وترجمة مقاطع الفيديو وترجمة النص.

  4. دعم العملاء

    تُستخدم تطبيقات التعرف على الكلام في الغالب في خدمة العملاء والدعم. يساعد نظام التعرف على الكلام في توفير حلول خدمة العملاء على مدار الساعة طوال أيام الأسبوع بتكلفة معقولة مع عدد محدود من الممثلين.

  5. إملاء المحتوى

    إملاء المحتوى هو شيء آخر حالة استخدام التعرف على الكلام يساعد الطلاب والأكاديميين على كتابة محتوى واسع النطاق في وقت قصير. إنه مفيد جدًا للطلاب المحرومين بسبب العمى أو مشاكل الرؤية.

  6. تطبيق الأمان

    يتم استخدام التعرف على الصوت على نطاق واسع لأغراض الأمان والمصادقة من خلال تحديد خصائص الصوت الفريدة. بدلاً من جعل الشخص يعرّف عن نفسه باستخدام المعلومات الشخصية المسروقة أو التي يساء استخدامها ، تعمل القياسات الحيوية الصوتية على زيادة الأمان.

    علاوة على ذلك ، أدى التعرف على الصوت لأغراض الأمان إلى تحسين مستويات رضا العملاء لأنه يلغي عملية تسجيل الدخول الموسعة ونسخ بيانات الاعتماد.

  7. أوامر صوتية للمركبات

    تتمتع المركبات ، وخاصة السيارات ، الآن بميزة التعرف على الصوت المشتركة لتعزيز سلامة القيادة. يساعد السائقين على التركيز على القيادة من خلال قبول الأوامر الصوتية البسيطة مثل اختيار محطات الراديو أو إجراء المكالمات أو تقليل الصوت.

  8. تدوين الملاحظات للرعاية الصحية

    برنامج النسخ الطبي المصمم باستخدام خوارزميات التعرف على الكلام يلتقط بسهولة الملاحظات الصوتية للأطباء والأوامر والتشخيصات والأعراض. يزيد تدوين الملاحظات الطبية من الجودة والإلحاح في صناعة الرعاية الصحية.

هل لديك مشروع للتعرف على الكلام في الاعتبار يمكنه تحويل عملك؟ كل ما قد تحتاجه هو مجموعة بيانات مخصصة للتعرف على الكلام.

يحتاج برنامج التعرف على الكلام المستند إلى الذكاء الاصطناعي إلى التدريب على مجموعات بيانات موثوقة حول خوارزميات التعلم الآلي لدمج بناء الجملة والقواعد النحوية وبنية الجملة والعواطف والفروق الدقيقة في الكلام البشري. الأهم من ذلك ، يجب أن يتعلم البرنامج ويستجيب باستمرار - يتزايد مع كل تفاعل.

في Shaip ، نقدم مجموعات بيانات مخصصة تمامًا للتعرف على الكلام لمختلف مشاريع التعلم الآلي. مع Shaip ، يمكنك الوصول إلى ملف أعلى جودة بيانات تدريبية مصممة خصيصًا التي يمكن استخدامها لبناء نظام موثوق للتعرف على الكلام وتسويقه. تواصل مع خبرائنا للحصول على فهم شامل لعروضنا.

[اقرأ أيضًا: الدليل الكامل للذكاء الاصطناعي للمحادثة]

شارك الاجتماعية