چین از هوش مصنوعی FantasyTalking رونمایی کرد؛ ساخت آواتارهای سخنگو تنها با یک عکس

محققان چینی مدل هوش مصنوعی FantasyTalking را معرفی کرده‌اند که با یک تصویر و صدا، ویدیوهای سخنگو با حرکات لب، چهره و بدن واقعی تولید می‌کند.

چین از هوش مصنوعی FantasyTalking رونمایی کرد؛ ساخت آواتارهای سخنگو تنها با یک عکس
چین از هوش مصنوعی FantasyTalking رونمایی کرد؛ ساخت آواتارهای سخنگو تنها با یک عکس
کانال تلگرام آناژورنال

به گزارش رسانه تحلیلی خبری آناژورنال، محققان چینی از یک مدل هوش مصنوعی پیشرفته با نام FantasyTalking رونمایی کرده‌اند که می‌تواند تنها با استفاده از یک تصویر پرتره و یک فایل صوتی، ویدیوهایی واقع‌گرایانه از شخصیت‌هایی تولید کند که در حال صحبت کردن هستند.

این مدل بر پایه‌ی Video Diffusion Transformer طراحی شده و با الگوریتم‌های هماهنگ‌سازی صوتی-تصویری، حرکات دقیق لب، حالات چهره و حتی حرکات بدن را کاملاً با صدای ورودی هماهنگ می‌سازد.

جدیدترین اخبار هوش مصنوعی در آناژورنال دنبال کنید.

فرایند تولید ویدیو در دو مرحله انجام می‌شود:

  • در مرحله اول، هماهنگی کلی بین صحنه، چهره، پس‌زمینه و صدا برقرار می‌شود.
  • سپس در مرحله دوم، جزئیات دقیق‌تر مثل حرکات لب فریم‌به‌فریم تنظیم و اصلاح می‌شوند.

نکته جالب اینجاست که FantasyTalking برخلاف مدل‌های قبلی مانند FLAME یا 3DMM، برای بازسازی چهره از مدل‌های سه‌بعدی میانجی استفاده نمی‌کند، بلکه مستقیماً از تصویر چهره و تکنیک‌های یادگیری عمیق بهره می‌گیرد تا هویت چهره حفظ شده و حرکات طبیعی‌تر باشند.

ویژگی منحصربه‌فرد دیگر این مدل، امکان کنترل میزان شدت حرکات است. یعنی کاربر می‌تواند تعیین کند که چقدر چهره یا بدن شخصیت در حال حرکت باشد.

همچنین این مدل از تولید ویدیو در زوایای مختلف، حالت‌های واقع‌گرایانه و کارتونی، و حتی متحرک‌سازی حیوانات پشتیبانی می‌کند.

به‌نظر می‌رسد FantasyTalking نسبت به بسیاری از مدل‌های مطرح فعلی مثل OmniHuman-1، عملکرد دقیق‌تری در زمینه واقع‌گرایی، هماهنگی صوت و تصویر و حفظ انسجام چهره دارد.

با این فناوری، تولید محتواهای ویدیویی سخنگو برای کاربردهایی مثل آموزش، تبلیغات، سرگرمی و شبکه‌های اجتماعی وارد مرحله‌ای تازه و هیجان‌انگیز شده است.

سوالات متداول

۱. چجوری میشه فقط با یه عکس و صدا، ویدیو ساخت؟
یه مدل جدید به اسم FantasyTalking اومده که فقط با یه عکس و فایل صوتی، می‌تونه یه ویدیوی واقع‌گرایانه تولید کنه که توش طرف داره صحبت می‌کنه، اونم با لب‌خوانی و حرکات طبیعی صورت و بدن!

۲. این هوش مصنوعی FantasyTalking واقعیه یا نمایشی؟
کاملاً واقعیه و توسط محققای چینی ساخته شده. حتی نمونه ویدیوهاش هم منتشر شده و نشون میده که چقدر دقیق لب و چهره رو با صدا هماهنگ می‌کنه.

۳. این مدل فقط چهره نشون میده یا کل بدنم حرکت می‌کنه؟
نه فقط چهره، بلکه حرکات بدن، زاویه سر، و حتی پس‌زمینه هم با صدا هماهنگ میشه. انگار واقعا طرف جلوی دوربینه.

۴. با این مدل میشه آواتار کارتونی هم ساخت؟
آره، این مدل از حالت‌های مختلف مثل کارتونی، واقع‌گرایانه، حتی حیوانات پشتیبانی می‌کنه. یعنی محدود به سبک خاصی نیست.

۵. این مدل برای ساخت محتوا به درد می‌خوره؟
صد درصد! مخصوصاً برای تولید ویدیوی آموزشی، تبلیغاتی، اینفلوئنسرها یا حتی تولیدکننده‌های محتوا که نمی‌خوان خودشون جلو دوربین باشن.

۶. میشه با این ابزار بدون فیلمبرداری، ویدیو درست کرد؟
آره دیگه، اصلاً فلسفه‌ش همینه. یه عکس می‌دی، یه صدا می‌دی، خودش برات ویدیو درست می‌کنه، بدون نیاز به دوربین یا استودیو!

۷. چه فرقی با ابزارای قبلی مثل Deepfake یا 3D داره؟
فرقش اینه که این مدل نیازی به مدل سه‌بعدی یا چندتا عکس و زاویه نداره. فقط با یه عکس و یه صدا، یه ویدیوی خیلی واقعی می‌سازه.

۸. برای استفاده از FantasyTalking باید کد نویسی بلد باشم؟
فعلاً بله، چون تو گیت‌هاب منتشر شده و بیشتر برای توسعه‌دهنده‌هاست، ولی احتمالا به‌زودی ابزارهای ساده‌ش هم ساخته میشه.

۹. امنیت و حریم خصوصی تو این مدل رعایت میشه؟
از اونجایی که فقط یه عکس استفاده میشه، باید مراقب باشی چون ممکنه از تصاویر بدون اجازه استفاده بشه. هنوز بحث‌های اخلاقی روش زیاده.

۱۰. از کجا می‌تونم نمونه ویدیوهای ساخته‌شده با FantasyTalking رو ببینم؟
تو گیت‌هاب پروژه و همین‌طور بعضی سایت‌های خبری تکنولوژی و یوتیوب، نمونه‌هاشو گذاشتن. تو خبر اصلی هم چندتا لینک هست برای تماشا.

تبلیغ در آناژورنال بنری
آیدا رادور کارشناس تولید محتوا