به گزارش رسانه تحلیلی خبری آناژورنال، OpenAI از مدلهای صوتی جدید خود رونمایی کرده است که قابلیتهای پیشرفتهای در زمینه ترنسکرایب و تبدیل متن به صدا دارند.
مدلهای جدید شامل gpt-4o-transcribe، gpt-4o-mini-transcribe و gpt-4o-mini-tts هستند که قابلیتهای صدای طبیعی و شبیهسازی شده برای برنامههای کاربردی مختلف ارائه میدهند.
این مدلها از دادههای جدید برای بهبود عملکرد در محیطهای پر سر و صدا و با لهجههای مختلف بهینهسازی شدهاند.
به گفته جف هریس از OpenAI، این مدلها از یک تشخیص صدای پیشرفته برای بهبود دقت ترنسکرایب استفاده میکنند.
کاربردهای این مدلها گسترده است و میتواند در مراکز تماس مشتری، ترنسکرایب جلسات، و دستیارهای هوشمند مورد استفاده قرار گیرد.
به ویژه، مدل gpt-4o-mini-tts میتواند صدای خود را با توجه به لحن و احساسات درخواستی کاربر تنظیم کند.
برای مثال، کاربر میتواند صدای مدل را بهطور طبیعی شبیه یک مدرس یوگا یا دانشمند دیوانه کند.
OpenAI همچنین API جدیدی برای توسعهدهندگان ارائه کرده است که با افزودن تنها چند خط کد، امکان افزودن تعامل صوتی به اپلیکیشنها را فراهم میکند.
این مدلها همچنین قادر به پشتیبانی از پخش صوتی به متن بهصورت لحظهای هستند که به توسعهدهندگان این امکان را میدهد که تجربه مکالمات طبیعیتری بسازند.
این مدلها با قیمتهای مناسب از $6.00 برای هر میلیون توکن صوتی برای gpt-4o-transcribe و $12.00 برای مدل gpt-4o-mini-tts در دسترس هستند.
بازار رقیبان نیز داغ است. شرکتهای مانند ElevenLabs و Hume AI مدلهای مشابهی ارائه کردهاند که برخی ویژگیها مانند دستگاه تمایز صدا یا شخصیسازی دقیقتر را فراهم میکنند.
با این حال، OpenAI بر کاهش خطاهای کلامی تمرکز کرده و دقت بیشتری در تشخیص واژگان نشان داده است.
از این رو، OpenAI قصد دارد مدلهای خود را بهطور مداوم بهبود دهد و کاربردهای جدیدی برای صدا و تصویر در برنامههای کاربردی فراهم آورد.
سوالات متداول
1. مدلهای صوتی OpenAI چی هستن؟
این مدلها مثل gpt-4o-transcribe و gpt-4o-mini-tts به شما کمک میکنن تا متن رو به صدا تبدیل کنید یا برعکس، صدا رو به متن. خیلی هم راحت میتونید لحن و احساسات صدا رو تغییر بدید.
2. چطور میتونم از این مدلهای صوتی استفاده کنم؟
خیلی آسونه! فقط باید از API OpenAI استفاده کنید یا از سایت دمو OpenAI.fm برای تست مدلها بهره ببرید.
3. میتونم صدای مدلها رو تغییر بدم؟
بله، میتونید صدای مدلها رو به دلخواه خودتون تغییر بدید. مثلا میتونید صدای یه معلم یوگا یا یه دانشمند دیوانه رو بسازید!
4. این مدلها کجا کاربرد دارن؟
این مدلها توی مواردی مثل مراکز تماس، یادداشتبرداری از جلسات، دستیارهای صوتی و حتی اپلیکیشنهای تجارت الکترونیکی استفاده میشن.
5. هزینه استفاده از این مدلها چطوریه؟
قیمتها متفاوتن، مثلا gpt-4o-transcribe حدود 6 دلار برای هر میلیون توکن صوتی و gpt-4o-mini-tts حدود 12 دلار برای هر میلیون توکن خروجی صدا.
6. این مدلها چقدر دقیقتر از مدلهای قبلی هستن؟
خیلی بیشتر! مدلهای جدید OpenAI خطاهای کمتری دارند و حتی توی محیطهای شلوغ و پر سر و صدا هم بهتر عمل میکنن.
7. OpenAI میخواد این مدلها رو بهبود بده؟
بله، OpenAI به طور مرتب در حال بهبود این مدلهاست و داره ویژگیهای جدیدی مثل پردازش ویدیو رو هم اضافه میکنه.
ارسال پاسخ
نمایش دیدگاه ها