شرکت OpenAI مدل‌ های گفتاری جدید خود را معرفی کرد: دقت بالاتر و صدای طبیعی‌ تر در هر پروژه‌ای!

شرکت OpenAI از معرفی مدل‌های جدید تبدیل گفتار به متن و جستجوی وب خبر داد. این مدل‌ها با دقت بالا و قابلیت‌های پیشرفته‌تر برای برنامه‌نویسان در دسترس قرار گرفته‌اند.

شرکت OpenAI مدل‌های جدید خود را معرفی کرد: دقت بالاتر و صدای طبیعی‌ تر در هر پروژه‌ای!
شرکت OpenAI مدل‌های جدید خود را معرفی کرد: دقت بالاتر و صدای طبیعی‌ تر در هر پروژه‌ای!
تبلیغات در آناژورنال

به گزارش رسانه تحلیلی خبری آناژورنال OpenAI اخیراً از به‌روزرسانی و ارتقاء مدل‌های هوش مصنوعی خود در زمینه تبدیل گفتار به متن و متن به گفتار خبر داده است.

این ارتقاء شامل دو مدل جدید است که به API این شرکت اضافه شده‌اند و قابلیت‌های پیشرفته‌تری را در اختیار توسعه‌دهندگان قرار می‌دهند.

مدل جدید تبدیل متن به گفتار OpenAI با نام gpt-4o-mini-tts قادر است گفتاری طبیعی‌تر و دقیق‌تر تولید کند.

علاوه بر این، توسعه‌دهندگان می‌توانند نحوه بیان متن را با استفاده از دستورات زبان طبیعی تنظیم کنند.

به عنوان مثال، می‌توان از این مدل خواست که مانند یک “دانشمند دیوانه” یا با صدایی آرام و شبیه به یک معلم صحبت کند.

هدف این ارتقاء این است که تجربه صوتی و همچنین زمینه‌های مختلف در پاسخ‌ها به دلخواه تنظیم شوند.

OpenAI همچنین دو مدل جدید در زمینه تبدیل گفتار به متن به نام‌های gpt-4o-transcribe و gpt-4o-mini-transcribe معرفی کرده است.

این مدل‌ها جایگزین مدل قدیمی Whisper شده‌اند و قادر به تشخیص صداهای با لهجه‌های مختلف و محیط‌های شلوغ با دقت بالاتری هستند.

همچنین، این مدل‌ها نسبت به Whisper خطاهای کمتری در تشخیص کلمات و جملات اضافی دارند.

مدل‌های جدید OpenAI نسبت به مدل‌های قدیمی‌تر از دقت بالاتری برخوردارند و می‌توانند تجربه‌ای صوتی و متنی قابل اعتماد و دقیق‌تری ارائه دهند.

برخلاف مدل Whisper که گاهی اوقات جملات غیرواقعی به متن اضافه می‌کرد، این مدل‌ها به درستی کلمات را تشخیص می‌دهند و از اضافه کردن جزئیات غیرضروری خودداری می‌کنند.

برخلاف نسخه‌های قبلی Whisper که به‌صورت متن‌باز و عمومی منتشر شده بودند، مدل‌های جدید تبدیل گفتار به متن به دلیل حجم و پیچیدگی بیشتر، برای انتشار عمومی مناسب نیستند.

OpenAI تصمیم گرفته است که این مدل‌ها را به‌صورت عمومی منتشر نکند، زیرا اجرای آن‌ها نیاز به منابع پردازشی بسیار بالایی دارد و تنها برای استفاده‌های خاص مناسب است.

OpenAI با این به‌روزرسانی‌های جدید به دنبال ساخت سیستم‌های خودکار هوش مصنوعی است که بتوانند به‌طور مستقل و با دقت بیشتر وظایف مختلفی را انجام دهند.

این پیشرفت‌ها به توسعه‌دهندگان امکانات بیشتری برای ساخت تجربیات صوتی و متنی دقیق‌تر و طبیعی‌تر می‌دهند.

سوالات متداول:

1. مدل‌های جدید OpenAI برای تبدیل متن به گفتار چیست و چطور کار می‌کنند؟

مدل‌های جدید OpenAI برای تبدیل متن به گفتار، مانند gpt-4o-mini-tts، قادرند صدایی طبیعی‌تر و دقیق‌تر تولید کنند.

این مدل‌ها به توسعه‌دهندگان این امکان را می‌دهند که نحوه بیان متن را با استفاده از دستورات زبان طبیعی کنترل کنند.

مثلاً می‌توانید از مدل بخواهید که مانند یک معلم آرام صحبت کند یا مثل یک دانشمند دیوانه!

2. چطور می‌توانم مدل‌های جدید OpenAI را برای پروژه خود استفاده کنم؟

برای استفاده از مدل‌های جدید OpenAI، باید به API این شرکت دسترسی داشته باشید.

در حال حاضر، این مدل‌ها برای کاربران پولی در دسترس هستند و شما می‌توانید از طریق تنظیمات پروفایل در اپلیکیشن وب کلود، قابلیت جستجو در وب و سایر ویژگی‌های جدید را فعال کنید.

3. مدل‌های جدید OpenAI چه تفاوتی با مدل‌های قبلی دارند؟

مدل‌های جدید OpenAI نسبت به مدل‌های قبلی، به ویژه مدل Whisper، دقت بیشتری دارند.

آنها می‌توانند صداهای مختلف را در محیط‌های شلوغ با دقت بالا تشخیص دهند و به‌طور کلی کمتر خطاهای “توهم” را شامل می‌شوند.

همچنین، مدل‌های جدید می‌توانند متن‌های طبیعی‌تر و دقیق‌تری را از گفتار تولید کنند.

4. آیا این مدل‌های جدید برای استفاده عمومی در دسترس خواهند بود؟

نه، مدل‌های جدید OpenAI به دلیل پیچیدگی و حجم بالای داده‌ها، برای استفاده عمومی منتشر نخواهند شد.

این مدل‌ها به‌طور خاص برای استفاده در پروژه‌های خاص و با منابع پردازشی بالا مناسب هستند.

5. آیا می‌توانم تنظیمات صدای مدل‌های متن به گفتار را تغییر دهم؟

بله، شما می‌توانید تنظیمات صدای مدل‌های متن به گفتار را تغییر دهید.

برای مثال، می‌توانید از مدل بخواهید که مانند یک معلم آرام یا به‌عنوان یک دانشمند دیوانه صحبت کند.

این قابلیت برای تجربه‌های صوتی بسیار شخصی‌سازی‌شده مفید است.

تبلیغ در آناژورنال بنری
فاطمه زاده محمد کارشناس تولید محتوا حدودا 5 سال هست که در حوزه تولید محتوا فعالیت میکنم.