به گزارش رسانه تحلیلی خبری آناژورنال شرکت Sesame، استارتاپی که با دستیار صوتی Maya به شهرت رسید، مدل پایهی هوش مصنوعی خود را بهصورت متنباز منتشر کرد.
این مدل که CSM-1B نام دارد، از یک میلیارد پارامتر تشکیل شده و تحت مجوز Apache 2.0 ارائه شده است، به این معنا که کاربران و توسعهدهندگان میتوانند آزادانه از آن استفاده تجاری کنند.
این مدل بر اساس تکنیکی به نام “Residual Vector Quantization” (RVQ) کار میکند، که صدای ورودی را به کدهای صوتی دیجیتال تبدیل میکند.
این فناوری پیشتر در مدلهای صوتی پیشرفتهای مثل SoundStream گوگل و Encodec متا بهکار رفته است.
CSM-1B بر پایهی یکی از مدلهای Llama از متا ساخته شده و به یک دیکودر صوتی مجهز شده است.
این مدل قابلیت تولید صداهای مختلف را دارد، اما بهطور خاص برای تقلید یک صدای خاص آموزش ندیده است.
Sesame به صراحت اعلام کرده که مدل منتشرشده دارای هیچگونه محدودیت یا فیلتر امنیتی برای جلوگیری از سوءاستفاده نیست.
تنها یک سیستم اخلاقی مبتنی بر اعتماد (Honor System) وجود دارد که از کاربران درخواست میکند از تقلید صدای افراد بدون رضایت آنها، تولید اخبار جعلی یا هرگونه فعالیت مخرب خودداری کنند.
اما همین موضوع میتواند به نگرانیهای مربوط به کپیبرداری غیرمجاز از صدا، انتشار اطلاعات جعلی و کلاهبرداریهای صوتی دامن بزند.
بهخصوص که طبق گزارشهای منتشرشده، تکثیر صدای یک شخص با این مدل کمتر از یک دقیقه زمان میبرد.
Sesame توسط Brendan Iribe، همبنیانگذار Oculus، تأسیس شده و تاکنون سرمایهگذاریهای نامشخصی از Andreessen Horowitz، Spark Capital و Matrix Partners دریافت کرده است.
این شرکت، علاوه بر توسعهی دستیارهای صوتی، اعلام کرده که در حال ساخت عینکهای هوشمند مبتنی بر هوش مصنوعی است که میتوانند در تمام طول روز مورد استفاده قرار گیرند.
سوالات متداول:
۱. هوش مصنوعی مدل CSM-1B چیست و چه کاربردی دارد؟
CSM-1B یک مدل هوش مصنوعی تولید صوت است که توسط شرکت Sesame توسعه داده شده است.
این مدل میتواند متن را به صوت تبدیل کند و قادر است صداهای مختلفی را تولید کند.
از آن در ساخت دستیارهای صوتی، دوبلهی خودکار و ابزارهای گفتاری مبتنی بر هوش مصنوعی استفاده میشود.
۲. آیا میتوان از هوش مصنوعی مدل CSM-1B برای تقلید صدا استفاده کرد؟
بله، این مدل میتواند صدای افراد را شبیهسازی کند، اما بهطور خاص برای تقلید صدای یک شخص خاص آموزش داده نشده است.
با این حال، امکان استفاده از آن برای تقلید صدا وجود دارد و این موضوع نگرانیهایی درباره سوءاستفادههای احتمالی ایجاد کرده است.
۳. هوش مصنوعی CSM-1B رایگان است؟ چطور میتوان آن را دانلود کرد؟
بله، این مدل تحت مجوز Apache 2.0 بهصورت متنباز منتشر شده است، بنابراین توسعهدهندگان میتوانند آن را بهصورت رایگان دانلود و استفاده کنند.
این مدل از طریق پلتفرم Hugging Face و GitHub قابل دسترسی است.
۴. دستیار صوتی Maya چه تفاوتی با هوش مصنوعی مدل CSM-1B دارد؟
Maya یک دستیار صوتی مبتنی بر هوش مصنوعی است که از نسخه بهینهشدهی CSM-1B استفاده میکند.
در حالی که CSM-1B یک مدل پایه برای تولید صدا است، Maya دارای قابلیتهای پردازش گفتار پیشرفتهتری است و میتواند بهطور طبیعی مکالمه کند.
۵. چگونه میتوان با هوش مصنوعی مدل CSM-1B صدای خود را شبیهسازی کرد؟
برای شبیهسازی صدا، ابتدا باید مدل CSM-1B را از Hugging Face دریافت کنید.
سپس میتوان از ورودی صوتی خود برای آموزش مدل استفاده کرد و صدای تولیدی را بر اساس نیاز تغییر داد.
این فرآیند معمولاً کمتر از یک دقیقه زمان میبرد.
۶. آیا هوش مصنوعی CSM-1B از زبان فارسی پشتیبانی میکند؟
Sesame اعلام کرده که این مدل به دلیل آلودگی دادههای آموزشی ممکن است توانایی محدودی در پردازش زبانهای غیرانگلیسی از جمله فارسی داشته باشد، اما عملکرد آن در این زبانها بهینه نیست.
ارسال پاسخ
نمایش دیدگاه ها