因好奇測試了一下最近網路上討論火熱的ControlNet裝了openpose以及depth，線搞那個還沒測試圖就不放了，想看細節的請爬文ControlNet本身是一種img2img用來輔助SD產圖的外掛，就是要擴充去下載安裝，會出現一個新的區域可以用我以openpose來說，不管在t2I還是I2I，只要給一張圖(最好是真人照片)，就能提取該照片當中人物的骨架，然後根據關鍵字後&#34;結合算出來的骨架圖&#34;一同產生新的AI算圖出來而提供給ControlNet的圖要在i2i那邊提取，也可以在t2i那邊上傳以提取出來的骨架圖來算，就我來看，這就是根本上的i2i了，已經不存在單純咒語算圖了

1 years ago

因好奇測試了一下最近網路上討論火熱的ControlNet
裝了openpose以及depth，線搞那個還沒測試
圖就不放了，想看細節的請爬文
ControlNet本身是一種img2img用來輔助SD產圖的外掛，就是要擴充去下載安裝，會出現一個新的區域可以用
我以openpose來說，不管在t2I還是I2I，只要給一張圖(最好是真人照片)，就能提取該照片當中人物的骨架，然後根據關鍵字後"結合算出來的骨架圖"一同產生新的AI算圖出來
而提供給ControlNet的圖要在i2i那邊提取，也可以在t2i那邊上傳以提取出來的骨架圖來算，就我來看，這就是根本上的i2i了，已經不存在單純咒語算圖了

latest #15

三水－『要畫風走了沒?』

1 years ago

同樣depth深度圖也是用這方式，他會把各種圖當中判斷景深，有做過3D模型都知道渲染那邊可以輸出一個只有白到黑(進到遠)的Alpha深度圖，就是那個
跟上述的使用方法一樣，也能在text2img使用，只是誤判綠會比較高
比較好用的是img2img這部分，要用兩張圖算出新圖來，除了使用原圖片之外，透過ControlNet算出深度圖後，他可以幾乎固定整個構圖，我認為整體上如果有背景的話，depth會比較好用些
以往的AI出圖都用骰的，構圖都是描述詞，時常會變化，要固定透圖就得用種子碼
但是種子碼在同樣設定當中是不會變的，只能一直骰算法或是其他的東西，然後想當然姿勢跟構圖就會跑來跑去，即使是有草圖給它看，它也可能在判斷顏色上錯判內容物
舉例子是，假如我的草圖一個綠頭髮的腳色後面有一棵樹，那麼就會黏在一起

三水－『要畫風走了沒?』

1 years ago

可是depth深度圖能夠區分這兩者，讓AI知道構圖的"空間差異"把上面說的綠頭髮跟後面的樹給分離開來，我發現ControlNet本身對於深度的判斷稍微模糊，單人的構圖可以用但是多人包刮背景物件一多，就會讓背景全黑，變成深度只有在人物身上，以至於人物可能是準確的，背景又亂掉
還是建議在草圖階段做一張深度圖，對就還是要親自動筆
AI就是一個給外行人可以做點什麼，但是最後能善用工具的還是繪師
目前還沒時間驗證親自重繪depth深度圖能夠讓草稿固定構圖到什麼程度(是否連背景構圖都能)
這對於"心中已經有答案，靠AI實現心中想法"來說蠻有用的
但缺點也很明顯，絕大多數人是把AI當作卡持來抽，對於自己想要什麼並不清楚，以至於這個功能可能給他們帶來的幫助並不多

三水－『要畫風走了沒?』

1 years ago

就以目前模型被MIX出各種東西來看，只是要"好看"而已的話，TEXT2IMG遲早能骰出想要的樣子，只要能接受，抽卡就算是結束了
對於繪師來說就不是這樣，他們被要求(尤其商用)整張圖的內容物所有細節都是被刻意規劃的，但這一點AI完全不懂，而目前的AI只不過是給你一千個答案，你在當中選出一個你自由心證的最佳解而已，事實上就跟手機選號差不多
繪師的需求反而是"我有一組密碼"給AI提示後叫它猜出答案，就是暴力破解的概念
差別在精度的要求，猜四位數字跟猜20位包含大小寫字母+數字這兩者顯然難度不同
在AI無法把它算出來的圖拆出圖層之前，繪師只能接受AI給出的"所有答案"
當然也能把圖當作"概念"，親自再重畫一遍，我會比較建議這樣，把AI當作網路上找到的圖，只是非常接近你要的而已

立即下載

三水－『要畫風走了沒?』

1 years ago

我也只用ControlNet一兩小時，給我的感覺是，有比較實用一些，大概從AI可以輔助發想的20-40%提升到50-70%，但是剩下的部分AI還是辦不到
那就是根據圖本身需求的歷史文化參考，我是直接把圖案全部都無視掉，只參考"配色"，剩下的繼續找資料去看歷史，舉例來說鳥有千百萬種，但是AI最多最多只能畫出那幾種，最多就是構圖看看鳥放在哪邊比較有戲劇性，然後沒了
打開繪圖軟體把參考放旁邊，自己去改構圖

三水－『要畫風走了沒?』

1 years ago

繪圖AI在產圖當中對於細節的表現真的越來越好，但是人在學畫的過程卻是先從構圖>臨摹實物>透視結構>光影質感
因此能夠畫出好的光影質感的人構圖一定是了解透視結構的，AI直接跳過這一步
很像AlphaGO下圍棋的那種思路，人類下棋是一種與對方預判的交互博弈，電腦對於下棋的想法是算機率，對於什麼套路電腦根本不在乎
繪畫AI也是，它就是會在學習素材當中挑一張你應該比較能接受的構圖，我認為AI只是單方面的給答案，並無法通靈
可能某一張構圖很正確，那也是剛好碰撞出來的，關鍵點就是人類事實上並沒有參與跟AI的互動
理論上只要AI吸收了你這輩子所有生活點滴後，就能理解你的喜好，不過AI只能在有限的資訊當中找到大家普遍喜歡的，個人的喜好只能靠其他手段，ControlNet算是一個

三水－『要畫風走了沒?』

1 years ago

之前就覺得繪畫AI最終還是要自己畫圖出來的，img2img才是能幫助到創作的根本，手的問題真的是小問題，手會崩只是因為AI的算圖邏輯是從顏色開始，模糊到清晰，這過程當中，手部屬於整張當中比較細節且沒有規律的部分，才會算不出來，可是3D輔助老早就解決手的問題，就算手不會畫也有3D手模型可以參考，這些都已經克服問題了，只是整合方面能否達到
現在openpose只有肢體，未來就應該會出現導入骨架模型等等的，意義上的變成3D軟體配上AI套濾鏡，AI可能會成為一種Render的方式
但不管怎樣，AI要進入可商用的程度門檻都頗高，重點在於創作彈性有多大決定這工具能走多遠
很多人看AI產圖看到審美疲勞就是因為AI剛出來看似很驚豔，但是彈性空間真的蠻小的
我還是會把SD這樣的AI當作發想用而已

三水－『要畫風走了沒?』

1 years ago

至於有些人說ControlNet會終結繪師行業這件事，我不知道是怎麼去思考
除非AI本身跟人一樣會自己跑過來給我圖，不然工具就是得操作才能得到答案
而"操作"這件事本身就有門檻，就跟開車跟開飛機的難度，更何況飛機有飛控電腦而汽車沒有，但是因為環境差異，開車反而比開飛機還簡單
完全是要先以"使用目的"為前提下去討論工具能做什麼，在腦波輸入成熟之前，任何工具都要學習並且了解極限在哪裡，可以幫助到自己什麼，取所需這樣

三水－『要畫風走了沒?』

1 years ago

總歸一句話，彈性空間越大的工具才保有創作的能力，電腦繪圖直接把畫布切割成無數的點，你完全可以自定義哪邊要有什麼顏色，這就是彈性空間，但也因為空間太大，能做得越多就越需要有目標以及技巧
AI算圖看似好像讓不會畫圖的人會畫圖了?實際上只是AI丟了一張無主的圖給他們認領而已，不會畫圖的人還是不會畫圖，或者說他們也不知道認領的這張圖代表什麼

2.5次元的伏葉

1 years ago

好深奧

三水－『要畫風走了沒?』

1 years ago

s7324678:
1.ControlNet是一個額外的模組
2. text或img都可以用
3.額外給AI一個圖片作為輔助
4.提升AI目前骰子遊戲的可控性，或是說可操作的彈性空間
5.目前提供的ControlNET模型還不算好用，尤其是openpose，提取要用照片
6.depth模型針對有透視背景構圖有進步，但是提取出來精度不高，自己畫的話會更好
7.ControlNet出現的同時也限制了AI骰出創意的寬度，對於拿圖提取換色就跟濾鏡一樣，很像換皮

三水－『要畫風走了沒?』

1 years ago

至於那個演示把線稿算出上色彷彿是Clip studio自動上色的究極版那個，我還沒試過
如果真的可行，那真的能拯救很多上色苦手的人，但是我認為上色的風格一樣會被模型綁定
但換個角度來看，模型是繪師拿自己的創作來訓練出來的Lora的話，線稿丟下去能夠針對自己訓練的模型跑出"穩定且一致"的上色，那就是一種上色工藝的突破

三水－『要畫風走了沒?』

1 years ago

上面更正一下，精確的說是上色量產工藝的突破，畢竟該上色風格的第一批圖你還是要自己畫的
要比喻的話有點類似繪畫圈的一種再製印刷技術

Eji

1 years ago

其實還是回到那句直接看近似解對用戶自己沒有幫助

神無 kei

1 years ago

關於AI繪圖，最近是還有看到ADE20K的添加方案來控制物件擺設
不過目前應該還是有點複雜，看看未來能不能再簡化

https://images.plurk.com/7KHdV1SFM2AJIW2nazU7ml.jpg

https://images.plurk.com/M0FQKDBrLWtv1PHnT9n9g.jpg

toyxyz on Twitter

三水－『要畫風走了沒?』

1 years ago

多人的構圖不如人物跟背景分開單獨算之後再合成
不然光是關鍵字描述誰就會出問題了