مدل جدید هوش مصنوعی CSM-1B منتشر شد؛ آیا آینده دستیارهای صوتی متحول می‌شود؟

شرکت هوش مصنوعی Sesame مدل پایه CSM-1B را که پشتوانه‌ی دستیار صوتی Maya است، به‌صورت متن‌باز منتشر کرد.

مدل جدید هوش مصنوعی CSM-1B منتشر شد؛ آیا آینده دستیارهای صوتی متحول می‌شود؟
مدل جدید هوش مصنوعی CSM-1B منتشر شد؛ آیا آینده دستیارهای صوتی متحول می‌شود؟
تبلیغات بنری آناژورنال
تبلیغات بنری آناژورنال

به گزارش رسانه تحلیلی خبری آناژورنال شرکت Sesame، استارتاپی که با دستیار صوتی Maya به شهرت رسید، مدل پایه‌ی هوش مصنوعی خود را به‌صورت متن‌باز منتشر کرد.

این مدل که CSM-1B نام دارد، از یک میلیارد پارامتر تشکیل شده و تحت مجوز Apache 2.0 ارائه شده است، به این معنا که کاربران و توسعه‌دهندگان می‌توانند آزادانه از آن استفاده تجاری کنند.

این مدل بر اساس تکنیکی به نام “Residual Vector Quantization” (RVQ) کار می‌کند، که صدای ورودی را به کدهای صوتی دیجیتال تبدیل می‌کند.

این فناوری پیش‌تر در مدل‌های صوتی پیشرفته‌ای مثل SoundStream گوگل و Encodec متا به‌کار رفته است.

CSM-1B بر پایه‌ی یکی از مدل‌های Llama از متا ساخته شده و به یک دیکودر صوتی مجهز شده است.

این مدل قابلیت تولید صداهای مختلف را دارد، اما به‌طور خاص برای تقلید یک صدای خاص آموزش ندیده است.

Sesame به صراحت اعلام کرده که مدل منتشرشده دارای هیچ‌گونه محدودیت یا فیلتر امنیتی برای جلوگیری از سوءاستفاده نیست.

تنها یک سیستم اخلاقی مبتنی بر اعتماد (Honor System) وجود دارد که از کاربران درخواست می‌کند از تقلید صدای افراد بدون رضایت آن‌ها، تولید اخبار جعلی یا هرگونه فعالیت مخرب خودداری کنند.

اما همین موضوع می‌تواند به نگرانی‌های مربوط به کپی‌برداری غیرمجاز از صدا، انتشار اطلاعات جعلی و کلاهبرداری‌های صوتی دامن بزند.

به‌خصوص که طبق گزارش‌های منتشرشده، تکثیر صدای یک شخص با این مدل کمتر از یک دقیقه زمان می‌برد.

Sesame توسط Brendan Iribe، هم‌بنیان‌گذار Oculus، تأسیس شده و تاکنون سرمایه‌گذاری‌های نامشخصی از Andreessen Horowitz، Spark Capital و Matrix Partners دریافت کرده است.

این شرکت، علاوه بر توسعه‌ی دستیارهای صوتی، اعلام کرده که در حال ساخت عینک‌های هوشمند مبتنی بر هوش مصنوعی است که می‌توانند در تمام طول روز مورد استفاده قرار گیرند.

سوالات متداول:

۱. هوش مصنوعی مدل CSM-1B چیست و چه کاربردی دارد؟

CSM-1B یک مدل هوش مصنوعی تولید صوت است که توسط شرکت Sesame توسعه داده شده است.

این مدل می‌تواند متن را به صوت تبدیل کند و قادر است صداهای مختلفی را تولید کند.

از آن در ساخت دستیارهای صوتی، دوبله‌ی خودکار و ابزارهای گفتاری مبتنی بر هوش مصنوعی استفاده می‌شود.

۲. آیا می‌توان از هوش مصنوعی مدل CSM-1B برای تقلید صدا استفاده کرد؟

بله، این مدل می‌تواند صدای افراد را شبیه‌سازی کند، اما به‌طور خاص برای تقلید صدای یک شخص خاص آموزش داده نشده است.

با این حال، امکان استفاده از آن برای تقلید صدا وجود دارد و این موضوع نگرانی‌هایی درباره سوءاستفاده‌های احتمالی ایجاد کرده است.

۳. هوش مصنوعی CSM-1B رایگان است؟ چطور می‌توان آن را دانلود کرد؟

بله، این مدل تحت مجوز Apache 2.0 به‌صورت متن‌باز منتشر شده است، بنابراین توسعه‌دهندگان می‌توانند آن را به‌صورت رایگان دانلود و استفاده کنند.

این مدل از طریق پلتفرم Hugging Face و GitHub قابل دسترسی است.

۴. دستیار صوتی Maya چه تفاوتی با هوش مصنوعی مدل CSM-1B دارد؟

Maya یک دستیار صوتی مبتنی بر هوش مصنوعی است که از نسخه بهینه‌شده‌ی CSM-1B استفاده می‌کند.

در حالی که CSM-1B یک مدل پایه برای تولید صدا است، Maya دارای قابلیت‌های پردازش گفتار پیشرفته‌تری است و می‌تواند به‌طور طبیعی مکالمه کند.

۵. چگونه می‌توان با هوش مصنوعی مدل CSM-1B صدای خود را شبیه‌سازی کرد؟

برای شبیه‌سازی صدا، ابتدا باید مدل CSM-1B را از Hugging Face دریافت کنید.

سپس می‌توان از ورودی صوتی خود برای آموزش مدل استفاده کرد و صدای تولیدی را بر اساس نیاز تغییر داد.

این فرآیند معمولاً کمتر از یک دقیقه زمان می‌برد.

۶. آیا هوش مصنوعی CSM-1B از زبان فارسی پشتیبانی می‌کند؟

Sesame اعلام کرده که این مدل به دلیل آلودگی داده‌های آموزشی ممکن است توانایی محدودی در پردازش زبان‌های غیرانگلیسی از جمله فارسی داشته باشد، اما عملکرد آن در این زبان‌ها بهینه نیست.

تبلیغات آناژورنال
فاطمه زاده محمد کارشناس تولید محتوا حدودا 5 سال هست که در حوزه تولید محتوا فعالیت میکنم.