به گزارش رسانه تحلیلی خبری آناژورنال، محققان چینی از یک مدل هوش مصنوعی پیشرفته با نام FantasyTalking رونمایی کردهاند که میتواند تنها با استفاده از یک تصویر پرتره و یک فایل صوتی، ویدیوهایی واقعگرایانه از شخصیتهایی تولید کند که در حال صحبت کردن هستند.
این مدل بر پایهی Video Diffusion Transformer طراحی شده و با الگوریتمهای هماهنگسازی صوتی-تصویری، حرکات دقیق لب، حالات چهره و حتی حرکات بدن را کاملاً با صدای ورودی هماهنگ میسازد.
جدیدترین اخبار هوش مصنوعی در آناژورنال دنبال کنید.
فرایند تولید ویدیو در دو مرحله انجام میشود:
- در مرحله اول، هماهنگی کلی بین صحنه، چهره، پسزمینه و صدا برقرار میشود.
- سپس در مرحله دوم، جزئیات دقیقتر مثل حرکات لب فریمبهفریم تنظیم و اصلاح میشوند.
نکته جالب اینجاست که FantasyTalking برخلاف مدلهای قبلی مانند FLAME یا 3DMM، برای بازسازی چهره از مدلهای سهبعدی میانجی استفاده نمیکند، بلکه مستقیماً از تصویر چهره و تکنیکهای یادگیری عمیق بهره میگیرد تا هویت چهره حفظ شده و حرکات طبیعیتر باشند.
ویژگی منحصربهفرد دیگر این مدل، امکان کنترل میزان شدت حرکات است. یعنی کاربر میتواند تعیین کند که چقدر چهره یا بدن شخصیت در حال حرکت باشد.
همچنین این مدل از تولید ویدیو در زوایای مختلف، حالتهای واقعگرایانه و کارتونی، و حتی متحرکسازی حیوانات پشتیبانی میکند.
بهنظر میرسد FantasyTalking نسبت به بسیاری از مدلهای مطرح فعلی مثل OmniHuman-1، عملکرد دقیقتری در زمینه واقعگرایی، هماهنگی صوت و تصویر و حفظ انسجام چهره دارد.
با این فناوری، تولید محتواهای ویدیویی سخنگو برای کاربردهایی مثل آموزش، تبلیغات، سرگرمی و شبکههای اجتماعی وارد مرحلهای تازه و هیجانانگیز شده است.
سوالات متداول
۱. چجوری میشه فقط با یه عکس و صدا، ویدیو ساخت؟
یه مدل جدید به اسم FantasyTalking اومده که فقط با یه عکس و فایل صوتی، میتونه یه ویدیوی واقعگرایانه تولید کنه که توش طرف داره صحبت میکنه، اونم با لبخوانی و حرکات طبیعی صورت و بدن!
۲. این هوش مصنوعی FantasyTalking واقعیه یا نمایشی؟
کاملاً واقعیه و توسط محققای چینی ساخته شده. حتی نمونه ویدیوهاش هم منتشر شده و نشون میده که چقدر دقیق لب و چهره رو با صدا هماهنگ میکنه.
۳. این مدل فقط چهره نشون میده یا کل بدنم حرکت میکنه؟
نه فقط چهره، بلکه حرکات بدن، زاویه سر، و حتی پسزمینه هم با صدا هماهنگ میشه. انگار واقعا طرف جلوی دوربینه.
۴. با این مدل میشه آواتار کارتونی هم ساخت؟
آره، این مدل از حالتهای مختلف مثل کارتونی، واقعگرایانه، حتی حیوانات پشتیبانی میکنه. یعنی محدود به سبک خاصی نیست.
۵. این مدل برای ساخت محتوا به درد میخوره؟
صد درصد! مخصوصاً برای تولید ویدیوی آموزشی، تبلیغاتی، اینفلوئنسرها یا حتی تولیدکنندههای محتوا که نمیخوان خودشون جلو دوربین باشن.
۶. میشه با این ابزار بدون فیلمبرداری، ویدیو درست کرد؟
آره دیگه، اصلاً فلسفهش همینه. یه عکس میدی، یه صدا میدی، خودش برات ویدیو درست میکنه، بدون نیاز به دوربین یا استودیو!
۷. چه فرقی با ابزارای قبلی مثل Deepfake یا 3D داره؟
فرقش اینه که این مدل نیازی به مدل سهبعدی یا چندتا عکس و زاویه نداره. فقط با یه عکس و یه صدا، یه ویدیوی خیلی واقعی میسازه.
۸. برای استفاده از FantasyTalking باید کد نویسی بلد باشم؟
فعلاً بله، چون تو گیتهاب منتشر شده و بیشتر برای توسعهدهندههاست، ولی احتمالا بهزودی ابزارهای سادهش هم ساخته میشه.
۹. امنیت و حریم خصوصی تو این مدل رعایت میشه؟
از اونجایی که فقط یه عکس استفاده میشه، باید مراقب باشی چون ممکنه از تصاویر بدون اجازه استفاده بشه. هنوز بحثهای اخلاقی روش زیاده.
۱۰. از کجا میتونم نمونه ویدیوهای ساختهشده با FantasyTalking رو ببینم؟
تو گیتهاب پروژه و همینطور بعضی سایتهای خبری تکنولوژی و یوتیوب، نمونههاشو گذاشتن. تو خبر اصلی هم چندتا لینک هست برای تماشا.
ارسال پاسخ
نمایش دیدگاه ها