التعرف التلقائي على الكلام

فهم عملية جمع البيانات الصوتية من أجل التعرف التلقائي على الكلام

أصبحت أنظمة التعرف التلقائي على الكلام والمساعدات الافتراضية مثل Siri و Alexa و Cortana جزءًا شائعًا من حياتنا. يزداد اعتمادنا عليهم بشكل كبير كلما أصبحوا أكثر ذكاءً. من تشغيل الأضواء إلى إجراء مكالمات لتغيير القنوات التلفزيونية ، نستفيد من هذه التقنيات الذكية لإكمال المهام العادية.

ومع ذلك ، هل تساءلت يومًا عن كيفية عمل أنظمة التعرف على الكلام؟

حسنًا ، ستعلمك هذه المدونة ببعض أساسيات التعرف التلقائي على الكلام. أيضًا ، سوف نستكشف عمله وكيف يتم بناء المساعدين الافتراضيين مثل Siri.

ما هو التعرف التلقائي على الكلام؟

التعرف التلقائي على الكلام (ASR) هو برنامج يمكّن نظام الكمبيوتر من تحويل الكلام البشري إلى نص ، والاستفادة من العديد من خوارزميات الذكاء الاصطناعي والتعلم الآلي.

بعد تحويل الأمر المحدد وتحليله ، يستجيب الكمبيوتر بإخراج مناسب للمستخدم. تم تقديم ASR لأول مرة في عام 1962 ، ومنذ ذلك الحين ، تعمل باستمرار على تحسين عملياتها وتسليط الضوء عليها بشكل كبير بسبب التطبيقات الشائعة مثل Alexa و Siri.

هل تعلم أن التعرف التلقائي على الكلام يُعرف أيضًا باسم قارئ الكلام إلى نص؟ اقرأ المزيد عنها في هذه المدونة! 

ما هي عملية جمع الكلام لتدريب نماذج ASR؟

Speech collection process

يهدف جمع الكلام إلى جمع العديد من عينات التسجيلات من مناطق متعددة تستخدم لتغذية وتدريب نماذج ASR. يوفر نظام ASR أعلى كفاءة عندما يتم جمع مجموعات بيانات كبيرة من الكلام والصوت وتقديمها إلى نظامه.

للعمل بسلاسة ، يجب أن تحتوي مجموعات بيانات الكلام المجمعة على جميع الخصائص الديموغرافية واللغات واللهجات واللهجات المستهدفة. توضح العملية التالية كيفية تدريب نموذج التعلم الآلي في خطوات متعددة:

  • ابدأ ببناء مصفوفة ديموغرافية

    يجمع في المقام الأول البيانات لمختلف الديموغرافيات مثل الموقع والجنس واللغة والأعمار واللهجات. تأكد أيضًا من التقاط مجموعة متنوعة من الضوضاء البيئية مثل ضوضاء الشوارع وضوضاء غرفة الانتظار وضوضاء المكاتب العامة وما إلى ذلك.

  • جمع ونسخ بيانات الكلام

    تتمثل الخطوة التالية في جمع عينات من الصوت والكلام البشري بناءً على مواقع جغرافية مختلفة لتدريب نموذج ASR الخاص بك. إنها خطوة مهمة وتتطلب من خبراء بشريين أداء كلمات طويلة وقصيرة للحصول على الإحساس الحقيقي للجملة وتكرار الجمل نفسها بلهجات ولهجات مختلفة.

  • قم بإنشاء مجموعة اختبار منفصلة

    بمجرد جمع النص المكتوب ، فإن الخطوة التالية هي إقرانه ببيانات الصوت المقابلة. بعد ذلك ، قم بتقسيم البيانات بشكل أكبر وقم بتضمين بيان واحد منها. الآن ، من أزواج البيانات المجزأة ، يمكنك سحب بيانات عشوائية من مجموعة لإجراء مزيد من الاختبارات.

  • تدريب نموذج اللغة ASR الخاص بك

    كلما زادت المعلومات المتوفرة في مجموعات البيانات الخاصة بك ، كان أداء نموذجك المدرب على الذكاء الاصطناعي أفضل. لذلك ، قم بإنشاء أشكال متعددة من النص والخطب التي سجلتها سابقًا. أعد صياغة الجمل نفسها باستخدام تدوينات كلامية مختلفة.

  • قم بتقييم الإخراج وأخيراً ، كرر

    أخيرًا ، يقيس ناتج نموذج ASR لإصلاح أدائه. اختبر النموذج مقابل مجموعة اختبار لتحديد كفاءته. بشكل مناسب ، قم بإشراك نموذج ASR الخاص بك في حلقة تغذية مرتدة لتوليد الإخراج المطلوب وإصلاح أي فجوات.

[اقرأ أيضًا: نظرة عامة شاملة على التعرف التلقائي على الكلام]

ما هي حالات الاستخدام المختلفة للتعرف على الكلام؟

تقنية التعرف على الكلام منتشرة بشكل كبير في العديد من الصناعات اليوم. بعض الصناعات التي تستخدم هذه التكنولوجيا الهائلة هي كما يلي:

  • الصناعات الغذائية الصناعات الغذائية: تم تعيين عمالقة الأغذية مثل Wendy's و McDonald's على تحسين تجارب العملاء باستخدام ASR. في العديد من منافذ البيع الخاصة بهم ، قاموا بنشر نماذج ASR تعمل بكامل طاقتها لتلقي الطلبات ، وتمريرها أيضًا إلى قسم الطهي لجعل طلب العميل جاهزًا.

     

  • اتصالات اتصالات: فودافون هي واحدة من أكبر مزودي خدمات الاتصالات في العالم. لقد صممت خدمة العملاء وخدمات الترحيل الهاتفي للاستفادة من نماذج ASR التي توجهك لحل الاستفسارات المختلفة وإعادة توجيه مكالماتك إلى الإدارات المعنية.

     

  • السفر والنقل السفر والمواصلات: أصبح Google Android Auto أو Apple CarPlay شائعًا. يستخدمها معظم الأشخاص لتنشيط أنظمة الملاحة أو إرسال الرسائل أو تبديل قوائم تشغيل الموسيقى. ومع ذلك ، مع التقدم التكنولوجي ، أصبحت هذه الأنظمة أكثر دقة.
    يعد المساعد الشخصي الذكي من BMW الذي تم إطلاقه في سلسلة BMW الثالثة أذكى بكثير من المساعدين الصوتيين العاديين. يمكنه تمكين السائقين من العثور على المعلومات المتعلقة بالسيارة وتشغيل السيارة باستخدام الأوامر الصوتية.
  • وسائل الإعلام والترفيهالإعلام والترفيه: تستخدم صناعة الإعلام أيضًا ASR في العديد من مشاريعها. أطلق Youtube مساعدًا قائمًا على الذكاء الاصطناعي يقوم بإنشاء تسميات توضيحية تلقائية مباشرة. أثناء التحدث على الشاشة ، سيوفر المساعد الترجمة لجعل الفيديو في متناول مجموعة أكبر من مستخدمي Youtube.

 

[اقرأ أيضًا: ما هي تقنية تحويل الكلام إلى نص وكيف تعمل]

كيف يمكن لـ Shaip المساعدة؟

Shaip هي إحدى خدمات التدريب الرائدة في مجال الذكاء الاصطناعي التي تتمتع بخبرة في مجالات متعددة من الذكاء الاصطناعي والتعلم الآلي. يمكنهم مساعدتك في بناء مجموعة البيانات الخاصة بك التي يمكن استخدامها في تطبيقات ومشاريع مختلفة.

بعض الخدمات التي تقدمها Shaip هي:

  • التعرف الآلي على الكلام (ASR)
  • مجموعة الكلام النصي
  • التجنس
  • جمع الكلام العفوي
  • جمع الكلام / كلمات الإيقاظ ،
  • تحويل النص إلى كلام (TTS)

يمكنك الاستفادة من هذه الخدمات للحصول على أفضل النتائج لمشاريعك القائمة على الذكاء الاصطناعي. تعرف على المزيد حول هذه الخدمات من خلال التواصل مع فريق الخبراء لدينا اليوم!

شارك الاجتماعية