مجموعة الصوت العبارة الرئيسية / موجهات

دراسة حالة: مجموعة العبارات الرئيسية للأنظمة التي يتم تنشيطها صوتيًا داخل السيارة

جمع العبارات الرئيسية

هناك طلب متزايد على أنظمة تنشيط الصوت داخل السيارة في صناعة السيارات ، مما يعيد تعريف كيفية تعاملنا مع مركبات التنقل الخاصة بنا.

تبنت صناعة السيارات بسرعة أنظمة تنشيط الصوت ، مع قيام كبار اللاعبين مثل Ford و Tesla و BMW بدمج التعرف على الصوت المتقدم في سياراتهم. بحلول عام 2022 ، قُدر أن أكثر من 50٪ من السيارات الجديدة تتميز بقدرات التعرف على الصوت. تهدف عمليات الدمج هذه إلى تعزيز السلامة ، مما يسمح للسائقين بتشغيل وظائف الملاحة والترفيه والاتصال دون تشتيت الانتباه.

كان من المتوقع أن تتجاوز القيمة السوقية للتعرف على الصوت في السيارات مليار دولار بحلول عام 1 ، مما يشير إلى تزايد الطلب على التفاعلات الذكية داخل السيارة بدون استخدام اليدين.

قطاع المعدات الثقيلة

تشير الأبحاث إلى أنه بحلول عام 2022 ، سيستخدم 73٪ من السائقين مساعدًا صوتيًا داخل السيارة.

بلغت قيمة سوق نظام التعرف على صوت السيارات 2.01 مليار دولار أمريكي في عام 2021 ، ومن المتوقع أن تصل إلى 3.51 مليار دولار أمريكي بحلول عام 2027 ، مسجلاً معدل نمو سنوي مركب يبلغ حوالي 8.07٪.

حل العالم الحقيقي

البيانات التي تشغل الأنظمة الصوتية

تعمل الأنظمة التي يتم تنشيطها بالصوت في السيارات على تعزيز السلامة والراحة. إنها تسمح للسائقين بالوصول إلى نظام الملاحة وإجراء المكالمات وإرسال الرسائل النصية والتحكم في الموسيقى دون رفع اليدين عن عجلة القيادة أو النظر عن الطريق. من خلال الاستجابة للأوامر الشفهية ، تقلل هذه الأنظمة من الإلهاء وتعزز تعدد المهام وتضمن التركيز المستمر على القيادة. 

العميل هو رائد عالمي في ذكاء المحادثة يقدم حلول الذكاء الاصطناعي الصوتية التي تتيح للشركات تقديم تجارب محادثة مذهلة لعملائها. كانوا يعملون مع شركات السيارات الرائدة لتدريب أنظمتهم التي يتم تنشيطها صوتيًا باستخدام عبارات رئيسية ذات علامة تجارية ، وكانوا بحاجة إلى خبرة Shaip في جمع البيانات الصوتية.

حل العالم الحقيقي
التحديات

التحديات

  • حشد المصادر: قم بتجنيد أكثر من 2800 ناطق أصلي لكل لغة على مستوى العالم.
  • جمع البيانات: تأمين مطالبات 200 ألف + بـ 12 لغة خلال الإطار الزمني المحدد.
  • التعرف على السياق والنية: لفهم طلبات المستخدم بشكل صحيح ، يجب تدريب الأنظمة على الأشكال المختلفة لنفس العبارة الرئيسية.
  • معالجة ضوضاء الخلفية: معالجة ضوضاء الخلفية في العالم الحقيقي من أجل دقة نموذج ML.
  • تقليل التحيز: احصل على عينات صوتية من مجموعات سكانية متنوعة لضمان الشمولية.
  • المواصفات الصوتية: 16 كيلو هرتز 16 بت PCM ، أحادية القناة ، WAV ؛ لا معالجة.
  • بيئة التسجيل: يجب أن تحتوي التسجيلات على صوت نظيف بدون ضوضاء أو إزعاج في الخلفية. يتم تسجيل العبارات الرئيسية باستخدام الكلام العادي.
  • فحص الجودة:  ستخضع جميع تسجيلات الكلام لتقييم الجودة والتحقق من صحتها ، وسيتم تسليم تسجيلات الكلام التي تم التحقق من صحتها فقط. إذا لم تفي Shaip بمعايير الجودة المتفق عليها ، فسوف تعيد Shaip تسليم البيانات دون أي تكلفة إضافية

الحلول

شركة Shaip بخبرتها في مجال الذكاء الاصطناعي للمحادثة مكنت العميل من:

  • جمع البيانات: تم جمع 208 آلاف عبارة رئيسية / مطالبات العلامة التجارية بـ 12 لغة عالمية من 2800 متحدث في الإطار الزمني المحدد
  • لهجات ولهجات متنوعة: استقدم متخصصون من جميع أنحاء العالم ، بارعون في اللهجات واللهجات المرغوبة.
  • التعرف على السياق والنية: تم تكليف كل متحدث بتسجيل العبارات الرئيسية في 20 اختلافًا مختلفًا ، مما يتيح لنماذج ML استيعاب طلبات المستخدم بدقة من حيث السياق والهدف.
  • معالجة ضوضاء الخلفية: لضمان جودة صوت نقي ، تأكدنا من التقاط العبارات الرئيسية في بيئة هادئة بمستويات ضوضاء أقل من 40 ديسيبل ، وخالية من الاضطرابات الخلفية مثل التلفزيون أو الراديو أو الموسيقى أو الكلام أو أصوات الشوارع.
  • تقليل التحيز: لتقليل التحيز ، أشركنا أفرادًا من مناطق مختلفة وحافظنا على تمثيل ديموغرافي متوازن بنسبة 50٪ ذكور و 50٪ إناث ، ممتدين للفئات العمرية من 18 إلى 60 عامًا.
  • إرشادات التسجيل: تم التقاط العبارات الأساسية بنمط حديث متسق وطبيعي ، دون أي اختلافات مثل سرعة أو بطء الوتيرة. صمت لمدة ثانيتين في البداية والنهاية لضمان عدم قص أي جزء من الخطاب عن غير قصد.
  • تسجيل Formta: تم تسجيل الصوت عند 16 كيلو هرتز ، 16 بت PCM أحادي ، باستخدام قناة واحدة ، وحفظه بتنسيق ملف WAV. يظل الصوت غير معالج ، مما يعني أنه لم يكن هناك تطبيق للضغط أو التردد أو المعادل.
  • الجودة: خضع كل تسجيل للكلام لفحوصات صارمة للجودة والتحقق من الصحة. تم تسليم التسجيلات التي اجتازت هذا التقييم فقط. تمت إعادة تسجيل أي ملفات لم تفي بمعايير الجودة المتفق عليها وتقديمها دون أي رسوم إضافية
الحلول
نتيجة

نتيجة

ستمكن البيانات الصوتية عالية الجودة الخاصة بالعبارة الرئيسية للعلامة التجارية أو المطالبات الصوتية شركات السيارات وعملائها من:

  1. العلامة التجارية والهوية: تساعد المطالبات الصوتية بعبارة علامة تجارية محددة الشركات على إنشاء اتصال مباشر لا يُنسى بين المستخدم والعلامة التجارية مما يعزز استدعاء العلامة التجارية.
  2. سهولة الاستخدام: تسهل الأوامر الصوتية على السائقين التفاعل مع السيارة دون رفع أيديهم عن عجلة القيادة أو إبعاد أعينهم عن الطريق مما يعزز السلامة على الطريق.
  3. وظائف: تجعل الأوامر الصوتية الوصول إلى ميزات السيارة والتحكم فيها أكثر سهولة. سواء كان التنقل أو تشغيل الوسائط أو التحكم في المناخ.
  4. التكامل مع الأنظمة الأخرى: يتم دمج العديد من الأنظمة التي يتم تنشيطها صوتيًا مع الهواتف الذكية والأجهزة المنزلية الذكية وأجهزة إنترنت الأشياء الأخرى. على سبيل المثال ، قد يتمكن المستخدم من مطالبة سيارته بتشغيل الأضواء في المنزل عند اقترابه من المنزل.
  5. ميزة تنافسية: يمكن أن يكون تقديم أنظمة تنشيط صوتية متقدمة نقطة بيع ومميز. يبحث المشترون عن أحدث التقنيات عند التفكير في شراء سيارة جديدة.
  6. إثبات المستقبل: مع تطور التكنولوجيا وأصبحت إنترنت الأشياء أكثر اندماجًا في الحياة اليومية ، فإن وجود نظام قوي مفعل بالصوت يجعل شركات السيارات أكثر قدرة على التكيف مع التكنولوجيا المستقبلية.
  7. فرص الإيرادات: فرص إضافية لتحقيق الدخل ، على سبيل المثال ، تقدم الأنظمة الصوتية توصيات أو تجارب تجارة إلكترونية متكاملة (مثل طلب الطعام أو البحث عن خدمات قريبة) التي يمكن أن توفر إيرادات تابعة.
الذهبي 5 نجوم

عندما بدأنا في تحديد مصادر الرسائل الصوتية لقطاع السيارات ، كانت التحديات عديدة. كان التقاط التنوع في الكلام واللهجات والنغمات أمرًا حيويًا لتمثيل العملاء العالميين لعملائنا. تميزت شركة Shaip ليس فقط كبائع ، ولكن كشريك حقيقي. كان التزامهم بتأمين مجموعة متنوعة من الأصوات من مختلف المناطق جديرًا بالثناء. لقد تجاوزوا مجرد جمع الأصوات. لقد فهموا الفروق الدقيقة لاحتياجات مشروعنا ، مما يضمن تسجيلات من الدرجة الأولى. أظهر التزامهم الخالي من العيوب بمعايير جمع الصوت احترافهم وتفانيهم في المشروع.

تسريع الذكاء الاصطناعي للمحادثة
تطوير التطبيقات بنسبة 100٪