محققان شرکت چینی علیبابا (Alibaba)، سیستم هوش مصنوعی جدیدی به نام «EMO» (مخفف Emote Portrait Alive) را گسترش دادهاند که میتواند یک عکس پرتره را به ویدیو تبدیل کند. بهطور خلاصه، این مدل میتواند عکسهای شما را به ویدیوهای واقعی تبدیل کند که در آنها در حال سخن بگوییدکردن یا آوازخواندن هستید.
بر پایه مقاله تحقیقاتی علیبابا، این مدل میتواند حرکات اجزای صورت و حالتهای سر کاربران را بهصورتی تشکیل کند که دقیقا با آهنگ صوتی اراعهشده مطابقت داشته باشد. این چنین از این مدل بهگفتن یک پیشرفت بزرگ در عرصه تشکیل ویدیو بر پایه صدا یاد شده است، حوزهای که محققان هوش مصنوعی سالها آن را به چالش کشیدهاند.
«لینروی تیان»، محقق مهم این سیستم میگوید:
«تکنیکهای سنتی زیاد تر نمی توانند طیف کاملی از حالات انسانی و منحصربهفردبودن سبکهای صورت اشخاص را به تصوی بکشند. برای حل این مشکل، ما EMO را نظر می کنیم، یک چارچوب تازه که از رویکرد مستقیم صوتی به عکس منفعت گیری میکند و به مدلهای سهبعدی متوسط یا نشانههای چهره نیازی ندارد.»
نحوه کار مدل تبدیل عکس به ویدیو علیبابا
مدل تبدیل عکس به ویدیو EMO از یک تکنیک هوش مصنوعی معروف به مدل انتشار کردن منفعت گیری میکند که از نظر تشکیل تصاویر واقعی، پتانسیل زیاد خوبی از خود نشان داده است. محققان این مدل را با مجموعه دادهای متشکل از ۲۵۰ ساعت ویدیوهای مربوط به سخنرانیها، فیلمها، نمایشهای تلویزیونی و اجرای آواز آموزش دادهاند.
برخلاف مدلهای سنتی که بر مدلهای سهبعدی صورت یا ترکیب اشکال برای تقریب حرکات صورت تکیه دارند، EMO میتواند مستقیما شکل موج صوتی را به فریمهای ویدیویی تبدیل کند. این کار به آن اجازه میدهد تا حرکات ظریف و ویژگیهای پیچیده هویتی مرتبط با گفتار طبیعی را نمایش دهد.
مطابق آزمایشهایی که در مقاله توضیح داده شده، EMO به طور قابلتوجهی از راه حلهای پیشرفته حاضر در معیارهای اندازهگیری کیفیت ویدیو، نگه داری هویت و گفتن بهتر منفعت گیری میکند. محققان این چنین یک مطالعه روی کاربران انجام دادند که نشان داد ویدیوهای تشکیل شده توسط EMO طبیعیتر و احساسیتر از ویدیوهای تولیدشده توسط دیگر سیستمها می باشند.
منبع