【StableDiffusion】AIｴﾛ画像情報交換31

[過去ﾛｸﾞ] 【StableDiffusion】AIｴﾛ画像情報交換31 (1002ﾚｽ)
上下前次1-新
抽出解除必死ﾁｪｯｶｰ(本家) (べ) 自ID ﾚｽ栞あぼーん

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

845(4): (ﾜｯﾁｮｲ 678a-R73r) 2023/09/28(木) 00:58:47.55 ID:ASnAVs3S0(1/6)調 AAS
ちょっと時間あったので簡単な調査してみたよ
SDのタグやキャプションはあくまでただのラベルあって言語的な意味を期待して文章書くのは無駄なんじゃないかな
ということを改めて確認するためのもの
画像ﾘﾝｸ

846(1): (ﾜｯﾁｮｲ 678a-R73r) 2023/09/28(木) 01:11:30.61 ID:ASnAVs3S0(2/6)調 AAS
>>844
nvidiaの仕様だと10900K+3080で750Wありゃいいみたいよ

854(1): (ﾜｯﾁｮｲ 678a-R73r) 2023/09/28(木) 03:09:21.86 ID:ASnAVs3S0(3/6)調 AAS
>>847
ベースモデルの既存概念の学習データと組み合わせにくい新語とか造語に関してはそういうことになる

>>848
LoRAもDBも入力データ同じだしモデルも規模が違うだけで基本的にやってることは同じなんでないの
タグやキャプションをCLIPに通してできたベクトルに画像全体のピクセル配置傾向を関連付けて格納するという
んで学習データ量が大規模になればCLIPによる語間のベクトル傾向補完と教師画像データの数のおかげで
部分的に意味を捉えてるようなふるまいをするけれど
本質的には言語的な意味を理解して処理しているわけではないみたいな

例えばlong skirtみたいに組み合わされた場合、処理としては「long skirtの絵のピクセル傾向を学習データから引き出す」であって
「skirtの絵のピクセル配置傾向を学習データから引き出してlongで長く変形させる」ではない　と自分は捉えている

855: (ﾜｯﾁｮｲ 678a-R73r) 2023/09/28(木) 03:14:31.06 ID:ASnAVs3S0(4/6)調 AAS
まあ何が言いたいかというと、SDは本質的に言葉の意味を理解していないから
SDに特殊なふるまいを期待して英文で語りかけるみたいなことやっても
プロンプトにノイズ増えて生成されるベクトルが変化しただけで
語りかけた英文の言語的な意味を理解してその通りに動いたわけではないだろうなということ

865: (ﾜｯﾁｮｲ 678a-R73r) 2023/09/28(木) 12:04:58.78 ID:ASnAVs3S0(5/6)調 AAS
>>856
わざわざっていうか普通に学習で皆やってることでは
taggerみたいな自動タグ付けの仕組みもあるし
モデル作る時なんかはものすごい量のデータ食わせるから色んな方面で語の分類・関連付けが自動発生する感じで

>>859
色に関してはベースモデルの学習量の賜物で
例えばred hair,red shirt,red tree,red bakground…等あらゆる分野の画像につけられたredの情報を総合して
「redというトークンにはキャンバスの一部・あるいは全体においてR値が高くなる作用がある」のような感じの動作をしていると思ってる
概念を獲得するってやつか
形状に関しても同じように統計的情報から概念を獲得みたいな感じ

ちなみに白パンツ画像ばかり用意してwhite pantiesてタグつけてlora作ったらパンツ色を変えるのは難しくなるよ
追加学習部分でpantiesに白ピクセル配置を関連付ける影響が強くなるから

867(1): (ﾜｯﾁｮｲ 678a-R73r) 2023/09/28(木) 12:20:43.83 ID:ASnAVs3S0(6/6)調 AAS
>>863
また時間取れたらやってみるよ

>>864
なんかその辺学ぶのにオススメのサイトとかありますかね
今んとこのイメージって物量で殴って概念を獲得、ベクトル演算で疑似的にそれらしく振る舞うけど
タグ付け・キャプショニングが性善説的に"正しく"運用される前提があってのもので
本質的には人間の理解してる言語とは全く別の体系で動いているという感じなんだけども

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 1.620s*