18 نيسان

التعرف التلقائي على الكلام (ASR): كل ما يحتاج المبتدئ إلى معرفته (في عام 2024)

كانت تقنية التعرف التلقائي على الكلام موجودة منذ فترة طويلة ولكنها اكتسبت شهرة مؤخرًا بعد أن أصبح استخدامها سائدًا في العديد من تطبيقات الهواتف الذكية مثل Siri و Alexa. لقد أوضحت تطبيقات الهواتف الذكية القائمة على الذكاء الاصطناعي قوة ASR في تبسيط المهام اليومية لنا جميعًا.

بالإضافة إلى ذلك ، مع تحرك قطاعات الصناعة المختلفة نحو الأتمتة ، فإن الحاجة الأساسية لـ ASR تتعرض للطفرة. ومن ثم دعونا نفهم هذا الرائع تقنية التعرف على الكلام في العمق ولماذا تعتبر واحدة من أهم التقنيات للمستقبل.

تاريخ موجز لتكنولوجيا ASR

قبل المضي قدمًا واستكشاف إمكانات التعرف التلقائي على الكلام ، دعونا أولاً نلقي نظرة على تطورها.

1950s

في الخمسينيات من القرن الماضي ، أنشأت Bell Labs أداة التعرف على الكلام الافتراضية المعروفة باسم "Audrey" والتي يمكنها تحديد الأرقام بين 1950-1 عند التحدث بصوت واحد.

1960s

في عام 1952 ، أطلقت شركة IBM أول نظام للتعرف على الصوت ، وهو "Shoebox" ، والذي يمكن أن يفهم ويفرق بين ستة عشر كلمة إنجليزية.

1970s

طورت جامعة كارنيجي ميلون في العام 1976 نظام "Harpy" الذي يمكنه التعرف على أكثر من 1000 كلمة.

1990s

بعد 40 عامًا ، اخترقت Bell Technologies مرة أخرى الصناعة من خلال أنظمة الرد الصوتي التفاعلي التي يمكن أن تملي الكلام البشري.

2000s

أنشأت Google برنامجًا متقدمًا للكلام بمعدل دقة 80٪ ، مما جعله مشهورًا في جميع أنحاء العالم.

2010s

أصبح العقد الماضي حقبة ذهبية لـ ASR ، حيث أطلقت Amazon و Apple أول برنامج كلام قائم على الذكاء الاصطناعي ، Alexa و Siri.

قبل عام 2010 ، تتطور بقايا تقطيع السيارات بشكل هائل وتصبح أكثر انتشارًا ودقة. اليوم ، تعد Amazon و Google و Apple من أبرز رواد تكنولوجيا ASR.

كيف يعمل التعرف على الصوت؟

التعرف التلقائي على الكلام هو تقنية متقدمة إلى حد ما يصعب تصميمها وتطويرها. هناك الآلاف من اللغات في جميع أنحاء العالم بلهجات ولهجات مختلفة ، لذلك من الصعب تطوير برامج يمكنها فهم كل ذلك.

يستخدم ASR مفاهيم معالجة اللغة الطبيعية والتعلم الآلي لتطويرها. من خلال دمج العديد من آليات تعلم اللغة في البرنامج ، يضمن المطورون دقة وكفاءة برامج التعرف على الكلام.

فيما يلي بعض الخطوات الأساسية المستخدمة في تطوير برنامج التعرف التلقائي على الكلام:

نقل الصوت إلى إشارة كهربائية: يتم التقاط اهتزازات صوت الشخص باستخدام ميكروفون ويتم نقلها إلى إشارة كهربائية تشبه الموجة.
تحويل الكهرباء إلى إشارة رقمية: يتم تحويل الإشارة الكهربائية إلى إشارة رقمية باستخدام أجهزة مادية مثل بطاقة الصوت.
تسجيل الصوتيات في البرنامج: ثم يفحص برنامج التعرف على الكلام الإشارة الرقمية ويسجل الصوتيات للتمييز بين الكلمات الملتقطة.
إعادة بناء الصوتيات للكلمات: بعد معالجة الإشارة الرقمية بالكامل وتسجيل جميع الأصوات ، يتم إعادة بناء الكلمات وتشكيل الجمل.

لتحقيق الدقة المقصودة ، يستفيد البرنامج من طريقة تحليل أشكال الأشكال الثلاثية ، والتي تعتمد على استخدام ثلاث كلمات متكررة الاستخدام من خلال قاعدة بيانات محددة. يعد برنامج ASR تقنية استثنائية تفكك أي نمط صوتي ، وتحلل الأصوات ، وتنسخ تلك الأصوات المجمعة إلى نصوص وكلمات ذات معنى.

أمثلة من العالم الحقيقي لـ ASR

التعرف التلقائي على الكلام هو تقنية رائعة أصبحت شائعة على نطاق واسع وقيمة اليوم. تكمن أهميته الكبيرة في أنه يمكّن المستخدمين من إكمال مهام متعددة بسرعة باستخدام التحكم بدون استخدام اليدين. المنتجات الأكثر شيوعًا التي تستخدم تقنية التعرف على الكلام هي:

مساعد جوجل
تم تطوير Google Assistant في عام 2016 ، وهو أفضل برنامج قائم على الدردشة اليوم ، حيث يتمتع بأعلى معدل دقة يزيد عن 95٪ في اللغة الإنجليزية الأمريكية. تقريبًا ، يتم استخدامه من قبل مئات الملايين من الأشخاص في جميع أنحاء العالم.
أبل سيري
Siri هو المثال الكلاسيكي لتوافر ASR في أكثر من 30 دولة و 21 لغة على مستوى العالم. Siri هو أول نظام قائم على الدردشة يُحدث ثورة في استخدام تقنية تحويل الكلام إلى نص.
اليكسا الأمازون
أصبح Alexa اسمًا وجهازًا مألوفًا اليوم ، حيث يقدر عدد المستخدمين بأكثر من 100 مليون شخص حول العالم.

استكشاف المزيد من حالات الاستخدام لتقنية التعرف على الكلام

بصرف النظر عن استخدام تقنية ASR في البرامج القائمة على الدردشة ، هناك حالات استخدام أخرى لهذه التقنية الاستثنائية. فيما يلي عدد قليل منهم:

التعرف على الكلام في السيارة
اليوم ، لدينا رفاهية إخبار سيارتنا بمن تتصل ، وأي أغنية نلعبها ، ومكان تحديد الوجهة. أصبح كل هذا ممكنًا بفضل تقنية تحويل الكلام إلى نص. هذه خطوة هائلة في جانب السلامة لتجربة القيادة الخاصة بك. من خلال التخلص من الحاجة إلى التفاعل الجسدي مع الشاشة ، يمنع استخدام ASR فقدان الانتباه الذي قد يؤدي إلى وقوع حادث.
خدمات النسخ
عملت تقنية ASR على تبسيط عملية النسخ ، مما أتاح التحويل السريع والدقيق للمحتوى المنطوق إلى نص مكتوب. وقد ثبت أن هذا لا يقدر بثمن بالنسبة للصناعات مثل الصحافة والقطاعات القانونية والطبية ، حيث تعتبر النسخ الدقيقة وفي الوقت المناسب أمرًا بالغ الأهمية.

مراكز الاتصال ودعم العملاء
تبنت مراكز الاتصال أنظمة ASR لنسخ تفاعلات العملاء ، مما يسمح بتتبع وتحليل ومراقبة الجودة بشكل أفضل. من خلال تحويل المحادثات المنطوقة إلى نصوص ، تمكن ASR وكلاء ومديري مركز الاتصال من مراجعة تفاعلات العملاء واستخراج رؤى قيمة لتحسين خدماتهم.
تعلم اللغة
أحدثت تقنية ASR ثورة في تعلم اللغة من خلال تقديم ملاحظات في الوقت الفعلي حول النطق ومهارات اللغة المنطوقة. يمكّن هذا المتعلمين من تحسين أنماط كلامهم ، وتلقي تصحيحات فورية ، وتحسين طلاقتهم بطريقة أكثر كفاءة.
سهولة الوصول لضعاف السمع
كانت أنظمة ASR مفيدة في كسر حواجز الاتصال للأفراد الذين يعانون من ضعف السمع. من خلال تحويل اللغة المنطوقة إلى نص مكتوب ، توفر تقنية ASR خدمات التسميات التوضيحية في الوقت الفعلي ، مما يجعل المحتوى الصوتي أكثر سهولة في الوصول إلى جمهور أوسع.
القياسات الحيوية الصوتية والأمن
يمكن استخدام الخصائص الفريدة لصوت الفرد كشكل من أشكال المصادقة البيومترية. تلعب تقنية ASR دورًا مهمًا في أنظمة المقاييس الحيوية الصوتية ، حيث توفر طبقة إضافية من الأمان لتحديد الهوية الشخصية والتحكم في الوصول.

ما الذي يحمله المستقبل لتكنولوجيا ASR؟

مع تقدم الذكاء الاصطناعي والتعلم الآلي ، من المتوقع أن تصبح تقنية التعرف التلقائي على الكلام أكثر دقة وأسرع وأكثر طبيعية. بالإضافة إلى ذلك ، من المرجح أن تصبح تقنية ASR سائدة في خدمة العملاء والتعليم والرعاية الصحية وغير ذلك. بالنسبة للمؤسسات ، يجب أن يكون تطوير حلول أعمال مخصصة قائمة على ASR هو الهدف التالي.

احصل على مساعدة لمشاريعك المستندة إلى ASR من Shaip Experts

شارك الاجتماعية

تحدث إلى خبير

الاسم الأول*
اسم العائلة*
البريد إلكتروني:*
الهاتف:*
الشركة*
الدولة*
الدولة
التعليقات*
بالتسجيل ، أنا أتفق مع Shaip سياسة الخصوصية و شروط الخدمة وأقدم موافقتي على تلقي اتصالات تسويقية B2B من Shaip.
CAPTCHA

تنزيل كتاب مجاني

قد يعجبك أيضاً

التعرف التلقائي على الكلام (ASR): كل ما يحتاج المبتدئ إلى معرفته (في عام 2024)

تاريخ موجز لتكنولوجيا ASR

كيف يعمل التعرف على الصوت؟

أمثلة من العالم الحقيقي لـ ASR

استكشاف المزيد من حالات الاستخدام لتقنية التعرف على الكلام

التعرف على الكلام في السيارة

خدمات النسخ

مراكز الاتصال ودعم العملاء

تعلم اللغة

سهولة الوصول لضعاف السمع

القياسات الحيوية الصوتية والأمن

ما الذي يحمله المستقبل لتكنولوجيا ASR؟

شارك الاجتماعية

تحدث إلى خبير

اختيار مجموعة بيانات التعرف على الكلام المناسبة لنموذج الذكاء الاصطناعي الخاص بك

فهم عملية جمع البيانات الصوتية من أجل التعرف التلقائي على الكلام

جعل التعرف على الكلام مبسطًا مع جمع بيانات الكلام عن بُعد

خدمات بيانات الذكاء الاصطناعي

خاصة

صناعة

المنتجات

الشركة

الموارد

تواصل معنا