به گزارش رسانه تحلیلی خبری آناژورنال OpenAI اخیراً از بهروزرسانی و ارتقاء مدلهای هوش مصنوعی خود در زمینه تبدیل گفتار به متن و متن به گفتار خبر داده است.
این ارتقاء شامل دو مدل جدید است که به API این شرکت اضافه شدهاند و قابلیتهای پیشرفتهتری را در اختیار توسعهدهندگان قرار میدهند.
مدل جدید تبدیل متن به گفتار OpenAI با نام gpt-4o-mini-tts قادر است گفتاری طبیعیتر و دقیقتر تولید کند.
علاوه بر این، توسعهدهندگان میتوانند نحوه بیان متن را با استفاده از دستورات زبان طبیعی تنظیم کنند.
به عنوان مثال، میتوان از این مدل خواست که مانند یک “دانشمند دیوانه” یا با صدایی آرام و شبیه به یک معلم صحبت کند.
هدف این ارتقاء این است که تجربه صوتی و همچنین زمینههای مختلف در پاسخها به دلخواه تنظیم شوند.
OpenAI همچنین دو مدل جدید در زمینه تبدیل گفتار به متن به نامهای gpt-4o-transcribe و gpt-4o-mini-transcribe معرفی کرده است.
این مدلها جایگزین مدل قدیمی Whisper شدهاند و قادر به تشخیص صداهای با لهجههای مختلف و محیطهای شلوغ با دقت بالاتری هستند.
همچنین، این مدلها نسبت به Whisper خطاهای کمتری در تشخیص کلمات و جملات اضافی دارند.
مدلهای جدید OpenAI نسبت به مدلهای قدیمیتر از دقت بالاتری برخوردارند و میتوانند تجربهای صوتی و متنی قابل اعتماد و دقیقتری ارائه دهند.
برخلاف مدل Whisper که گاهی اوقات جملات غیرواقعی به متن اضافه میکرد، این مدلها به درستی کلمات را تشخیص میدهند و از اضافه کردن جزئیات غیرضروری خودداری میکنند.
برخلاف نسخههای قبلی Whisper که بهصورت متنباز و عمومی منتشر شده بودند، مدلهای جدید تبدیل گفتار به متن به دلیل حجم و پیچیدگی بیشتر، برای انتشار عمومی مناسب نیستند.
OpenAI تصمیم گرفته است که این مدلها را بهصورت عمومی منتشر نکند، زیرا اجرای آنها نیاز به منابع پردازشی بسیار بالایی دارد و تنها برای استفادههای خاص مناسب است.
OpenAI با این بهروزرسانیهای جدید به دنبال ساخت سیستمهای خودکار هوش مصنوعی است که بتوانند بهطور مستقل و با دقت بیشتر وظایف مختلفی را انجام دهند.
این پیشرفتها به توسعهدهندگان امکانات بیشتری برای ساخت تجربیات صوتی و متنی دقیقتر و طبیعیتر میدهند.
سوالات متداول:
1. مدلهای جدید OpenAI برای تبدیل متن به گفتار چیست و چطور کار میکنند؟
مدلهای جدید OpenAI برای تبدیل متن به گفتار، مانند gpt-4o-mini-tts، قادرند صدایی طبیعیتر و دقیقتر تولید کنند.
این مدلها به توسعهدهندگان این امکان را میدهند که نحوه بیان متن را با استفاده از دستورات زبان طبیعی کنترل کنند.
مثلاً میتوانید از مدل بخواهید که مانند یک معلم آرام صحبت کند یا مثل یک دانشمند دیوانه!
2. چطور میتوانم مدلهای جدید OpenAI را برای پروژه خود استفاده کنم؟
برای استفاده از مدلهای جدید OpenAI، باید به API این شرکت دسترسی داشته باشید.
در حال حاضر، این مدلها برای کاربران پولی در دسترس هستند و شما میتوانید از طریق تنظیمات پروفایل در اپلیکیشن وب کلود، قابلیت جستجو در وب و سایر ویژگیهای جدید را فعال کنید.
3. مدلهای جدید OpenAI چه تفاوتی با مدلهای قبلی دارند؟
مدلهای جدید OpenAI نسبت به مدلهای قبلی، به ویژه مدل Whisper، دقت بیشتری دارند.
آنها میتوانند صداهای مختلف را در محیطهای شلوغ با دقت بالا تشخیص دهند و بهطور کلی کمتر خطاهای “توهم” را شامل میشوند.
همچنین، مدلهای جدید میتوانند متنهای طبیعیتر و دقیقتری را از گفتار تولید کنند.
4. آیا این مدلهای جدید برای استفاده عمومی در دسترس خواهند بود؟
نه، مدلهای جدید OpenAI به دلیل پیچیدگی و حجم بالای دادهها، برای استفاده عمومی منتشر نخواهند شد.
این مدلها بهطور خاص برای استفاده در پروژههای خاص و با منابع پردازشی بالا مناسب هستند.
5. آیا میتوانم تنظیمات صدای مدلهای متن به گفتار را تغییر دهم؟
بله، شما میتوانید تنظیمات صدای مدلهای متن به گفتار را تغییر دهید.
برای مثال، میتوانید از مدل بخواهید که مانند یک معلم آرام یا بهعنوان یک دانشمند دیوانه صحبت کند.
این قابلیت برای تجربههای صوتی بسیار شخصیسازیشده مفید است.
ارسال پاسخ
نمایش دیدگاه ها