تعريف
تحويل الكلام إلى نص (STT) هو عملية تحويل اللغة المنطوقة إلى نص مكتوب تلقائيًا باستخدام نماذج الذكاء الاصطناعي. وهو وثيق الصلة بتقنية التعرف الآلي على الكلام (ASR).
الهدف
الهدف هو جعل المحتوى المنطوق متاحًا وقابلًا للبحث. ويُستخدم على نطاق واسع في النسخ، وتسهيل الوصول، والمساعدات الرقمية.
أهمية
- يدعم إمكانية الوصول للمستخدمين ضعاف السمع.
- توفير نصوص الاجتماعات والمحاضرات.
- تعتمد الدقة على اللهجات وظروف الضوضاء.
- يتم استخدامه في جميع التطبيقات التي تعتمد على الصوت تقريبًا.
كيف تعمل هذه التقنية؟
- التقاط إدخال الصوت.
- معالجة الإشارة الصوتية وتطبيعها.
- استخدم نماذج التعرف التلقائي على الكلمات للتعرف على الكلمات.
- إخراج نص منقول.
- قم بمراجعة أو تصحيح ذلك بإشراف بشري إذا لزم الأمر.
أمثلة (العالم الحقيقي)
- واجهة برمجة تطبيقات تحويل الكلام إلى نص من Google Cloud.
- خدمات الكلام من Microsoft Azure.
- نسخة منقحة لاجتماعات Otter.ai.
المراجع / قراءات إضافية
- التعرف التلقائي على الكلام - NIST.
- ISO/IEC 15938-4: وصف محتوى الوسائط المتعددة.
- جورافسكي ومارتن. معالجة الكلام واللغة.
- ما هي تقنية تحويل الكلام إلى نص وكيف تعمل