画像生成AIを作る

画像生成AIを作る (23ﾚｽ)
上下前次 1-新

1: 01/19(日)13:52 ID:dMmOXYWM(1/4) AAS
Pytorchなどの既存の機械学習用ライブラリを使わずにC++とCUDAを使ってゼロから画像生成AIを作っている
画像生成モデルにはGAN、VAE、拡散モデルなどがあるが
巷で話題のStable DiffusionというのはVEAと拡散モデルを両方取り入れたもの
ただし、Stable Diffusionにはprompt embeddingというユーザーの入力であるテキストプロンプトをニューラルネットワークに埋め込む構造が存在しているが
自分が作ろうとしているのは単純に正規分布の乱数列を入力すると任意の画像が生成されるという改造版のStable Diffusionなので
prompt embeddingを使わない方向で行こうと思う

2: ◆FEfDUERNdI 01/19(日)14:34 ID:dMmOXYWM(2/4) AAS
学習データはエロ画像ということもあり
もともとはPINK板にスレ建てたが
プログラム板住民ほど賢い人がいないのと、60レス目からグロ画像荒らしが来るようになったため
ここに来た次第である

2chｽﾚ:hgame

3(1): 01/19(日)18:17 ID:I92SXWAZ(1) AAS
尾行ついてるぞ
余計なもん連れて来やがって

4: ◆FEfDUERNdI 01/19(日)20:56 ID:dMmOXYWM(3/4) AAS
>>3
よくわからないですが、尾行とは誰のことでしょうか?

5: ◆FEfDUERNdI 01/19(日)20:59 ID:dMmOXYWM(4/4) AAS
あ、もしかして2レス目からハンドルネームがついてるのに違和感を覚えたのか
それならIDが同じであることからもわかるけど、同じ人ですよ
ただし、前に使っていたネームと違うものにしました

6: 01/19(日)23:33 ID:xePVZNJy(1) AAS
AI構築って企業が金を積んで教師データ量でバトルする領域だと思ってたけど、今さら個人でどうにかなるもんなの
勉強ついでなら好きにすればいいけどさ

7: 01/20(月)13:40 ID:G+ryJ45G(1) AAS
企業は馬鹿を対象に馬鹿なデータも大量に集めるから馬鹿なAIにしかならんよ

8: ◆FEfDUERNdI 01/20(月)18:13 ID:OQDgsUSb(1/3) AAS
そこそこ知名度のある企業だと公衆の目を浴びなければいけないので
公序良俗に反するエロに進出することもできなくなるのでしょう

9: ◆FEfDUERNdI 01/20(月)22:14 ID:OQDgsUSb(2/3) AAS
Stable Diffsionのトレーニング手順としては
VAEのトレーニングと拡散モデルのトレーニングの二つの段階に分けられる
VAEはエンコーダとデコーダを持つモデルで、画像を低次元の潜在空間に圧縮し、その表現を使って元の画像を再構築する
拡散モデルのトレーニングはVAEで学習された潜在空間上で行われる
つまり、VAEが正しく画像を圧縮と再構築できなければ、次の段階である拡散モデルのトレーニングに進むこともできない

10(1): ◆FEfDUERNdI 01/20(月)22:28 ID:OQDgsUSb(3/3) AAS
VAEのトレーニングは先週から始めた
自分のPCのGPUのVRAMは16GBしかないため
もともとのstable diffusionで使われたいた512×512サイズの画像で学習することはできず、128×128で学習している

MSE lossは今では0.02なんだけど
再構築された画像はまだ微妙な感じ

画像ﾘﾝｸ[png]:i.imgur.com
画像ﾘﾝｸ[png]:i.imgur.com

11(1): 01/21(火)08:30 ID:yRL5l1cZ(1) AAS
QRコードの質問此処で良い？

12: ◆FEfDUERNdI 01/21(火)17:31 ID:7ESsCguq(1/2) AAS
>>11
QRコードに関しては自分は全く詳しくないが
QRコードに使う誤り訂正とか数学的な話なら興味あるので調べてわかったなら答えるかもしれない

13: ◆FEfDUERNdI 01/21(火)17:41 ID:7ESsCguq(2/2) AAS
stable diffusionの構造に関してネットいろんな記事を見てきたけど
自分が見つけた実装レベルまで詳しく解説してくれているのは以下です

外部ﾘﾝｸ:blog.csdn.net

14: ◆FEfDUERNdI 01/22(水)19:22 ID:3QEENyMF(1/2) AAS
数日VAEをトレーニングしてみたが
最構築された画像はどれも>>10のようなぼやけているものばかり
ChatGPTに聞いてみたところ、どうやらMSEの短所らしい
MSEはピクセル単位で誤差を判断するため、キャラクターの輪郭など全体的な特徴を評価するのが苦手
全体的な誤差を評価するために、画像の類似度を示せるSSIMがいいらしい
合っているかどうかわからないが、とりあえずMSEとSSIMを組み合わせて使おうと思う

15(1): 01/22(水)21:27 ID:Ggey4yUO(1) AAS
stable diffusionの画像生成プロセスを観てると、夢ん中で作られていく感じに似てるとおもた

16: ◆FEfDUERNdI 01/22(水)22:07 ID:3QEENyMF(2/2) AAS
>>15
画像に一歩ずつノイズを加えていくと、最終的には画像自体が完全にノイズになる
その逆過程を実現するのが拡散モデルです
ランダムなノイズから認識できる画像になっていくのは
確かに夢に似ているね

17(1): 01/24(金)11:01 ID:BC4ZbKEp(1) AAS
VAEから作ってんのか
なかなか真面目じゃん

18: ◆FEfDUERNdI 01/24(金)18:06 ID:AlhjyAq6(1/3) AAS
>>17
ありがとうございます
一応C++標準ライブラリとCUDA以外のライブラリは使わないつまりなので
VAEを作る前の段階として
tensorや主要なニューラルネットワークの層も自作しています
ただ、png画像の読み込みと出力はopencvを使い、グラフのプロットはgnuplotを使っています
どちらも複数のＯＳに対応しているので、環境構築は非常に簡単です

19: 01/24(金)18:36 ID:NBK/ONYA(1) AAS
ソース公開する気ないならただの日記だよ？

20: ◆FEfDUERNdI 01/24(金)20:03 ID:AlhjyAq6(2/3) AAS
ソースは完成したら公開する予定です
readme.mdはまだ書いていないのと、ライセンス関係はまだよくわからないので
今は公開できないです

21: 01/24(金)21:58 ID:5i0pdKkE(1) AAS
ただの統失の日記スレ

22: ◆FEfDUERNdI 01/24(金)23:22 ID:AlhjyAq6(3/3) AAS
そうですね
個人日記なら別にスレを建てる必要はないですね
お騒がせしてすいませんでした

23: 04/29(火)00:25 ID:/Qf//3PH(1) AAS
どう？開発進んだ？

上下前次 1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.189s*