影視無照大夫: 淺談AI作畫的可能性

最近這影片在歐美動畫圈（或該說動畫獨立製作圈）引起爭論(https://www.youtube.com/watch?v=_9LX9HSQkWo)，但與其跟風去吵著作權/倫理道德/人類員工權益，我較想去看這AI作畫可能會對影視圈產生什麼實際影響，和相關的技術瓶頸。（詳文在後續其他圖片上）

AI在此片的主要作用是先丟入參考素材，訓練它統整出一致的風格，再套到正片的人物場景道具上，剩下的部分還是要靠團隊”親自動手”去設計去調整。

現在先檢視該頻道的作品本身(https://www.youtube.com/watch?v=GVT3WUa-48Y)，有做到動漫質感的都是團隊親自動手做的（如運鏡，轉場，速度線，風格轉換），而AI作畫的品質就算排除初稿和技術不成熟的因素，仍不能算好。我後面會用不同的圖片做解釋。

以人物臉上的打光為例，他們想模仿動畫單一光源的做法，用簡潔有力的方式去強調特定的氛圍。但真正的動畫在這方面會有效，是因為人物的臉部設計本來就很簡單，透過不複雜的光影對比，也更容易突顯視覺焦點，如用臉上的陰影突顯眼神光和該人物的情緒（如懷疑的眼神），然後再透過小線條去強化情緒的細節（如嘴角或眼袋旁的小線條）。

以該片參考的＜吸血鬼獵人D＞為例，該人物的臉部設計雖然比一般動漫複雜，但跟真人比起來，還是簡單很多。他在這段落有擠眉頭瞪人的動作，凸顯其殺意。為了凸顯其視覺差異，先用較明顯的部位作變化（眉毛上揚＋臉頰肉擠壓）做大方向的點題，同時再用皺紋陰影的變化，賦予更細節的質感。因為其臉部的光影配置很清楚，各區塊要展線的重點也很清楚（中間暗部：魔族灰白空洞的非人眼神；上下亮部：表情變化），所以觀眾也更容易注意到亮部的陰影變化，並藉此感受到該人物的態度轉變。

而AI作畫就算有參考動畫風格，但它是拿過來配合真人的臉和真實的打光，而不是針對動畫的本質和特性，去簡化拍攝素材，真正做到去蕪存菁。

所以此短片的光影配置並沒有真正去突顯表情的核心，如4:48呲牙裂嘴的表情，照理說是用陰影來形成該表情的外框（眉毛+皺眉頭的線條，口鼻背光+嘴型），去襯托亮光部分的情緒和反差（露出全白的牙齒＋用眼白凸顯眼型變化）。但臉上亮光的分配破壞視覺焦點的引導，讓眼部的變化不夠明顯，額頭多餘的線條也破壞皺眉頭的形狀。到頭來，頂多只能傳達大方向的［他在擺呲牙裂嘴的表情］，細節上沒有成功強化［他超級氣噗噗］的喜感。

或許這些問題可歸咎於打燈方向的錯誤，或是演員沒有演好（一開始不應該先擠眉頭），但這也帶到另個諷刺的點，AI作畫的過程剛好跟動畫真正特別的地方［能名正言順地打破常理］背道而馳。花絮中提到動畫因為預算和製程，在打光上用區塊來處理或是直接用單一顏色來呈現臉部，這說法不完全對（或該說對的比例不到一半）。

因為動畫在視覺上的優先點是把情緒和視覺張力做到極致，並藉此串聯每個畫面和每場戲的情緒，所以不會以視覺的連戲為最優先。如岸邊露伴一動也不動的＜the run＞(https://youtu.be/PC13YPWGujw?t=110)，在2:00和2:06的臉部陰影並不連戲，但其陰影的更動是以觀影的情緒為主（要換到特寫，就應該要看到更細節的表情和情緒），所以才會沿著顴骨把陰影連起來，就是為了讓臉部更有立體感，去突顯他們拼命的決心和猙獰的誇張喜感。

同時也有用小線條從臉上劃過去（紅圈處），模擬［快到吹風影響到臉皮］的狀況，突顯速度感的同時，也要在細節上，去加強人物的喜感，為了做到這點，其他臉部的陰影在大方向上也要做到平行，如從鼻樑到眼袋用數條細陰影去串連，陰影的末端都會再拉出橫向的尖端（如下唇陰影尖端就特別被彎成橫向），這樣整體的視覺才會更一致，同時有效凸顯速度感/人物決心/表情喜感。

若這種光影不連戲的設定發生在同一顆鏡頭內，那真人轉動作的AI作畫就更不可能做到。如一拳超人撇過頭打歪主意的變化，若真要複製這光影變化，就代表拍攝時就需要”真人”員工去移燈來做配合，這樣就還要多花時間和器材費，然後又要花時間手動在臉的邊邊上補線條，強調他改變心意的陰險。

這又帶到AI作畫另一個大問題：細節的添加。動畫跟真人片比起來，一般會覺得後者講求更細緻的細節，這樣講是沒錯，但前提是［要讓整體的世界觀看起來有說服力］。而真人片的場景一般會有更多更複雜的細節，所以可以說每一個細節各自承擔的責任相對較小，所以看＜銀河飛龍＞的時候，整個場景特效服裝妝容一起建立一個完整的視覺，劇情的張力和情緒主要源自演員”連續性”的表演，觀眾看戲時也較不會發現到地毯上有個不該存在的小咖啡漬。

但動畫則是反過來。因為沒有足夠的時間預算來呈現更細緻的連續性動作，所以人物展現情緒的方式不像真人那樣依靠連續性，而是以前後的反差為主。加上動畫的色塊和線條的區塊比真人更簡潔，所以那些小細節承擔的責任就更大。

如0:45露伴被掰斷手指時，除了讓半邊臉上陰影和不同色調，也讓那一半邊的最旁邊呈半透明，陰影裡面則再添加粗細不一致的線條，好去突顯他痛到骨子裡的感受，若這些元素少其中一個，其效果就會差很多。或是他下一個特寫，為了帶出他開始真正感到恐懼，針對這分鏡視覺主焦點（眼睛），在其眼白和和虹彩的地方加線條，去強調其恐懼的情緒。

總結來看，若AI真的要威脅到動畫部門的員工，那也要先等到AI能分辨出更細節的區塊（如臉頰眼袋鼻梁兩側），並對此只執行特定細節的調整，然後依照每個分鏡的需求，去做適當的光影或是乾脆整個臉都同個顏色。然後對於額外的配件（速度線/小線條等），又要能明確辨認這些配件在不同前提下的作用，然後再分辨出要套的那些作品和分鏡，符合哪些前提，這樣才能套上合適的配件。但這就代表要客觀統整出各個作品和各個分鏡和各個細節上的效果，這點連影評甚至主創自己可能都沒有去仔細分析了，更不用說去訓練AI了。

而目前AI 只能依照拍攝素材的”表面”，一整個畫面全套下去，就算可以快速把真人素材轉化成動畫媒介，但還是要依照場景和分鏡的需求，去慢慢調整光影的分布，整個空間的設計，甚至是人的臉型。那這過程就會像是只收到一張PNG檔，沒有任何原始檔，改之前還要先自己去拉圖層，結果這樣好像也沒省到時間。

就算是以轉換實景著稱的新海誠，應該也不會想用AI，如這花絮中(https://youtu.be/XcRt6F-TVGM?t=317)要調光度的對比，但不可能每個地方調整的比例都一樣，如兩側樹的陰影調整顯然就不一樣，屋頂的陰影也沒有調很多，而AI就沒辦法去拿捏這些局部調整的幅度。其他有同樣顧慮的片廠，既然都有自己常見的風格（迪士尼/皮克斯的3D），那他們應該會直接從自己的資料庫著手，而不是浪費時間再從外面找二手素材和關鍵字。

至於動態的部分，如肢體或環境的變形扭曲，速度線或虛構物件的生成變化（如龜派氣功），就更細節了，我不覺得AI能發展到那麼全面又細緻，若真的可以，那也應該會先發生在更日常的生活層面，因為那邊的商機更大，相關的開發速度和競爭應該會更強。之後再找個時間看corridor crew之前用真人模仿動漫的短片，把動漫的動態感移到真人片也會是另個有趣的議題。

那這樣看來，這種AI動態作畫目前較可能有影響的，應該是YT或抖音那種短影片的市場，因為那種影片著重的是在短時間內快速激發情緒，影像上只要讓觀眾快速辨認出風格就好，加上這市場主要觀眾的品味或是殺時間的心態，對於視覺品質也不會太要求。

我較擔心的走向是，片廠現在就真的用這樣的AI來拍知名IP，無腦觀眾只看IP就進場支持，造就好票房，然後為了在短時間內賺更多錢，快速出更多產品而忽略審美觀（如現在常被吐槽的漫威特效），接著其他片廠也想搶這熱錢，跟著加入破壞審美觀的行列（如阿凡達之後的3D熱潮）。但依照現在漫威的頹勢和電影宇宙這模式的瓶頸，應該還不會那麼快發生。若那些大廠想像當初漫威那樣，在未來的娛樂市場搶得先機，我覺得這種AI動態作畫的主要發展有可能會著重在在VR/AR這種尚未成熟的藝術媒介和市場。

現在我反倒很好奇，想用真人方式拍動畫的魏德聖究竟會不會被這種噱頭騙呢。