淺談AI作畫的可能性

最近這影片在歐美動畫圈(或該說動畫獨立製作圈)引起爭論(https://www.youtube.com/watch?v=_9LX9HSQkWo),但與其跟風去吵著作權/倫理道德/人類員工權益,我較想去看這AI作畫可能會對影視圈產生什麼實際影響,和相關的技術瓶頸。(詳文在後續其他圖片上)

AI在此片的主要作用是先丟入參考素材,訓練它統整出一致的風格,再套到正片的人物場景道具上,剩下的部分還是要靠團隊”親自動手”去設計去調整。

現在先檢視該頻道的作品本身(https://www.youtube.com/watch?v=GVT3WUa-48Y),有做到動漫質感的都是團隊親自動手做的(如運鏡,轉場,速度線,風格轉換),而AI作畫的品質就算排除初稿和技術不成熟的因素,仍不能算好。我後面會用不同的圖片做解釋。

以人物臉上的打光為例,他們想模仿動畫單一光源的做法,用簡潔有力的方式去強調特定的氛圍。但真正的動畫在這方面會有效,是因為人物的臉部設計本來就很簡單,透過不複雜的光影對比,也更容易突顯視覺焦點,如用臉上的陰影突顯眼神光和該人物的情緒(如懷疑的眼神),然後再透過小線條去強化情緒的細節(如嘴角或眼袋旁的小線條)。

以該片參考的<吸血鬼獵人D>為例,該人物的臉部設計雖然比一般動漫複雜,但跟真人比起來,還是簡單很多。他在這段落有擠眉頭瞪人的動作,凸顯其殺意。為了凸顯其視覺差異,先用較明顯的部位作變化(眉毛上揚+臉頰肉擠壓)做大方向的點題,同時再用皺紋陰影的變化,賦予更細節的質感。因為其臉部的光影配置很清楚,各區塊要展線的重點也很清楚(中間暗部:魔族灰白空洞的非人眼神;上下亮部:表情變化),所以觀眾也更容易注意到亮部的陰影變化,並藉此感受到該人物的態度轉變。

 
而AI作畫就算有參考動畫風格,但它是拿過來配合真人的臉和真實的打光,而不是針對動畫的本質和特性,去簡化拍攝素材,真正做到去蕪存菁。

所以此短片的光影配置並沒有真正去突顯表情的核心,如4:48呲牙裂嘴的表情,照理說是用陰影來形成該表情的外框(眉毛+皺眉頭的線條,口鼻背光+嘴型),去襯托亮光部分的情緒和反差(露出全白的牙齒+用眼白凸顯眼型變化)。但臉上亮光的分配破壞視覺焦點的引導,讓眼部的變化不夠明顯,額頭多餘的線條也破壞皺眉頭的形狀。到頭來,頂多只能傳達大方向的[他在擺呲牙裂嘴的表情],細節上沒有成功強化[他超級氣噗噗]的喜感。

或許這些問題可歸咎於打燈方向的錯誤,或是演員沒有演好(一開始不應該先擠眉頭),但這也帶到另個諷刺的點,AI作畫的過程剛好跟動畫真正特別的地方[能名正言順地打破常理]背道而馳。花絮中提到動畫因為預算和製程,在打光上用區塊來處理或是直接用單一顏色來呈現臉部,這說法不完全對(或該說對的比例不到一半)。


 因為動畫在視覺上的優先點是把情緒和視覺張力做到極致,並藉此串聯每個畫面和每場戲的情緒,所以不會以視覺的連戲為最優先。如岸邊露伴一動也不動的<the run>(https://youtu.be/PC13YPWGujw?t=110), 在2:00和2:06的臉部陰影並不連戲,但其陰影的更動是以觀影的情緒為主(要換到特寫,就應該要看到更細節的表情和情緒),所以才會沿著顴骨把陰影連起來,就是為了讓臉部更有立體感,去突顯他們拼命的決心和猙獰的誇張喜感。

同時也有用小線條從臉上劃過去(紅圈處),模擬[快到吹風影響到臉皮]的狀況,突顯速度感的同時,也要在細節上,去加強人物的喜感,為了做到這點,其他臉部的陰影在大方向上也要做到平行,如從鼻樑到眼袋用數條細陰影去串連,陰影的末端都會再拉出橫向的尖端(如下唇陰影尖端就特別被彎成橫向),這樣整體的視覺才會更一致,同時有效凸顯速度感/人物決心/表情喜感。

若這種光影不連戲的設定發生在同一顆鏡頭內,那真人轉動作的AI作畫就更不可能做到。如一拳超人撇過頭打歪主意的變化,若真要複製這光影變化,就代表拍攝時就需要”真人”員工去移燈來做配合,這樣就還要多花時間和器材費,然後又要花時間手動在臉的邊邊上補線條,強調他改變心意的陰險。


 這又帶到AI作畫另一個大問題:細節的添加。動畫跟真人片比起來,一般會覺得後者講求更細緻的細節,這樣講是沒錯,但前提是[要讓整體的世界觀看起來有說服力]。而真人片的場景一般會有更多更複雜的細節,所以可以說每一個細節各自承擔的責任相對較小,所以看<銀河飛龍>的時候,整個場景特效服裝妝容一起建立一個完整的視覺,劇情的張力和情緒主要源自演員”連續性”的表演,觀眾看戲時也較不會發現到地毯上有個不該存在的小咖啡漬。

但動畫則是反過來。因為沒有足夠的時間預算來呈現更細緻的連續性動作,所以人物展現情緒的方式不像真人那樣依靠連續性,而是以前後的反差為主。加上動畫的色塊和線條的區塊比真人更簡潔,所以那些小細節承擔的責任就更大。

如0:45露伴被掰斷手指時,除了讓半邊臉上陰影和不同色調,也讓那一半邊的最旁邊呈半透明,陰影裡面則再添加粗細不一致的線條,好去突顯他痛到骨子裡的感受,若這些元素少其中一個,其效果就會差很多。或是他下一個特寫,為了帶出他開始真正感到恐懼,針對這分鏡視覺主焦點(眼睛),在其眼白和和虹彩的地方加線條,去強調其恐懼的情緒。

總結來看,若AI真的要威脅到動畫部門的員工,那也要先等到AI能分辨出更細節的區塊(如臉頰眼袋鼻梁兩側),並對此只執行特定細節的調整,然後依照每個分鏡的需求,去做適當的光影或是乾脆整個臉都同個顏色。然後對於額外的配件(速度線/小線條等),又要能明確辨認這些配件在不同前提下的作用,然後再分辨出要套的那些作品和分鏡,符合哪些前提,這樣才能套上合適的配件。但這就代表要客觀統整出各個作品和各個分鏡和各個細節上的效果,這點連影評甚至主創自己可能都沒有去仔細分析了,更不用說去訓練AI了。


 而目前AI 只能依照拍攝素材的”表面”,一整個畫面全套下去,就算可以快速把真人素材轉化成動畫媒介,但還是要依照場景和分鏡的需求,去慢慢調整光影的分布,整個空間的設計,甚至是人的臉型。那這過程就會像是只收到一張PNG檔,沒有任何原始檔,改之前還要先自己去拉圖層,結果這樣好像也沒省到時間。

就算是以轉換實景著稱的新海誠,應該也不會想用AI,如這花絮中(https://youtu.be/XcRt6F-TVGM?t=317)要調光度的對比,但不可能每個地方調整的比例都一樣,如兩側樹的陰影調整顯然就不一樣,屋頂的陰影也沒有調很多,而AI就沒辦法去拿捏這些局部調整的幅度。其他有同樣顧慮的片廠,既然都有自己常見的風格(迪士尼/皮克斯的3D),那他們應該會直接從自己的資料庫著手,而不是浪費時間再從外面找二手素材和關鍵字。

至於動態的部分,如肢體或環境的變形扭曲,速度線或虛構物件的生成變化(如龜派氣功),就更細節了,我不覺得AI能發展到那麼全面又細緻,若真的可以,那也應該會先發生在更日常的生活層面,因為那邊的商機更大,相關的開發速度和競爭應該會更強。之後再找個時間看corridor crew之前用真人模仿動漫的短片,把動漫的動態感移到真人片也會是另個有趣的議題。

那這樣看來,這種AI動態作畫目前較可能有影響的,應該是YT或抖音那種短影片的市場,因為那種影片著重的是在短時間內快速激發情緒,影像上只要讓觀眾快速辨認出風格就好,加上這市場主要觀眾的品味或是殺時間的心態,對於視覺品質也不會太要求。

我較擔心的走向是,片廠現在就真的用這樣的AI來拍知名IP,無腦觀眾只看IP就進場支持,造就好票房,然後為了在短時間內賺更多錢,快速出更多產品而忽略審美觀(如現在常被吐槽的漫威特效),接著其他片廠也想搶這熱錢,跟著加入破壞審美觀的行列(如阿凡達之後的3D熱潮)。但依照現在漫威的頹勢和電影宇宙這模式的瓶頸,應該還不會那麼快發生。若那些大廠想像當初漫威那樣,在未來的娛樂市場搶得先機,我覺得這種AI動態作畫的主要發展有可能會著重在在VR/AR這種尚未成熟的藝術媒介和市場。

現在我反倒很好奇,想用真人方式拍動畫的魏德聖究竟會不會被這種噱頭騙呢。