به گزارش رسانه تحلیلی خبری آناژورنال ElevenLabs، استارتاپ AI که اخیراً ۱۸۰ میلیون دلار سرمایه جذب کرده، مدل جدید گفتار به متن خود به نام “Scribe” را معرفی کرد.
این مدل از بیش از ۹۹ زبان پشتیبانی میکند و دقت بالایی در تبدیل گفتار به متن دارد.
Scribe در بیش از ۲۵ زبان دقت زیر ۵ درصد در نرخ خطای کلمات دارد، از جمله زبانهای انگلیسی، فرانسوی، آلمانی، هندی و ژاپنی.
مدل Scribe در آزمایشهای مختلف از جمله FLEURS و Common Voice توانسته است از مدلهای بزرگ رقبا مانند Google Gemini 2.0 و Whisper Large V3 پیشی بگیرد.
این مدل همچنین دارای ویژگیهایی مانند شناسایی گوینده و اشتراکگذاری خودکار زمانبندی کلمات برای زیرنویس دقیق است.
در حال حاضر، این مدل تنها با فرمتهای صوتی ضبطشده کار میکند، اما ElevenLabs قصد دارد نسخهای با تأخیر کم و لحظهای از آن را به زودی معرفی کند.
قیمت مدل Scribe برای هر ساعت صوتی ۰.۴۰ دلار است که رقابتی به نظر میرسد.
سوالات متداول:
1. مدل Scribe ElevenLabs چه ویژگیهایی دارد؟
مدل Scribe توانایی تبدیل گفتار به متن با دقت بالا را دارد و از بیش از ۹۹ زبان پشتیبانی میکند.
این مدل همچنین قابلیتهایی مانند شناسایی گوینده، زمانبندی دقیق کلمات برای زیرنویس، و برچسبگذاری خودکار رویدادهای صوتی مثل خندههای حضار را داراست.
2. دقت مدل Scribe چقدر است؟
مدل Scribe در بیش از ۲۵ زبان دارای دقت بالای ۹۵٪ در نرخ خطای کلمات است.
زبانهایی مانند انگلیسی، فرانسوی، آلمانی و ژاپنی در دستهبندیهای «دقت عالی» قرار دارند.
3. آیا مدل Scribe برای استفاده در زمان واقعی موجود است؟
در حال حاضر، مدل Scribe تنها با فایلهای صوتی ضبطشده کار میکند.
اما ElevenLabs به زودی نسخهای با تأخیر کم برای استفاده در زمان واقعی، مانند ترنسکریپشن جلسات و یادداشتبرداری صوتی، عرضه خواهد کرد.
4. هزینه استفاده از مدل Scribe چقدر است؟
مدل Scribe به ازای هر ساعت صوتی ۰.۴۰ دلار هزینه دارد. این قیمت رقابتی است، اگرچه برخی از رقبای آن قیمتهای پایینتری برای تبدیل گفتار به متن ارائه میدهند.
ارسال پاسخ
نمایش دیدگاه ها