画像生成AIを作る (23レス)
画像生成AIを作る http://mevius.5ch.net/test/read.cgi/tech/1737262341/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
1: デフォルトの名無しさん [sage] 2025/01/19(日) 13:52:21.32 ID:dMmOXYWM Pytorchなどの既存の機械学習用ライブラリを使わずにC++とCUDAを使ってゼロから画像生成AIを作っている 画像生成モデルにはGAN、VAE、拡散モデルなどがあるが 巷で話題のStable DiffusionというのはVEAと拡散モデルを両方取り入れたもの ただし、Stable Diffusionにはprompt embeddingというユーザーの入力であるテキストプロンプトをニューラルネットワークに埋め込む構造が存在しているが 自分が作ろうとしているのは単純に正規分布の乱数列を入力すると任意の画像が生成されるという改造版のStable Diffusionなので prompt embeddingを使わない方向で行こうと思う http://mevius.5ch.net/test/read.cgi/tech/1737262341/1
2: ◆FEfDUERNdI [sage] 2025/01/19(日) 14:34:14.09 ID:dMmOXYWM 学習データはエロ画像ということもあり もともとはPINK板にスレ建てたが プログラム板住民ほど賢い人がいないのと、60レス目からグロ画像荒らしが来るようになったため ここに来た次第である https://phoebe.bbspink.com/test/read.cgi/hgame/1724853336/ http://mevius.5ch.net/test/read.cgi/tech/1737262341/2
3: デフォルトの名無しさん [] 2025/01/19(日) 18:17:28.14 ID:I92SXWAZ 尾行ついてるぞ 余計なもん連れて来やがって http://mevius.5ch.net/test/read.cgi/tech/1737262341/3
4: ◆FEfDUERNdI [sage] 2025/01/19(日) 20:56:10.51 ID:dMmOXYWM >>3 よくわからないですが、尾行とは誰のことでしょうか? http://mevius.5ch.net/test/read.cgi/tech/1737262341/4
5: ◆FEfDUERNdI [sage] 2025/01/19(日) 20:59:58.30 ID:dMmOXYWM あ、もしかして2レス目からハンドルネームがついてるのに違和感を覚えたのか それならIDが同じであることからもわかるけど、同じ人ですよ ただし、前に使っていたネームと違うものにしました http://mevius.5ch.net/test/read.cgi/tech/1737262341/5
6: デフォルトの名無しさん [sage] 2025/01/19(日) 23:33:04.94 ID:xePVZNJy AI構築って企業が金を積んで教師データ量でバトルする領域だと思ってたけど、今さら個人でどうにかなるもんなの 勉強ついでなら好きにすればいいけどさ http://mevius.5ch.net/test/read.cgi/tech/1737262341/6
7: デフォルトの名無しさん [] 2025/01/20(月) 13:40:51.06 ID:G+ryJ45G 企業は馬鹿を対象に馬鹿なデータも大量に集めるから馬鹿なAIにしかならんよ http://mevius.5ch.net/test/read.cgi/tech/1737262341/7
8: ◆FEfDUERNdI [sage] 2025/01/20(月) 18:13:35.96 ID:OQDgsUSb そこそこ知名度のある企業だと公衆の目を浴びなければいけないので 公序良俗に反するエロに進出することもできなくなるのでしょう http://mevius.5ch.net/test/read.cgi/tech/1737262341/8
9: ◆FEfDUERNdI [sage] 2025/01/20(月) 22:14:43.77 ID:OQDgsUSb Stable Diffsionのトレーニング手順としては VAEのトレーニングと拡散モデルのトレーニングの二つの段階に分けられる VAEはエンコーダとデコーダを持つモデルで、画像を低次元の潜在空間に圧縮し、その表現を使って元の画像を再構築する 拡散モデルのトレーニングはVAEで学習された潜在空間上で行われる つまり、VAEが正しく画像を圧縮と再構築できなければ、次の段階である拡散モデルのトレーニングに進むこともできない http://mevius.5ch.net/test/read.cgi/tech/1737262341/9
10: ◆FEfDUERNdI [sage] 2025/01/20(月) 22:28:21.53 ID:OQDgsUSb VAEのトレーニングは先週から始めた 自分のPCのGPUのVRAMは16GBしかないため もともとのstable diffusionで使われたいた512×512サイズの画像で学習することはできず、128×128で学習している MSE lossは今では0.02なんだけど 再構築された画像はまだ微妙な感じ https://i.imgur.com/nxwODSu.png https://i.imgur.com/Vv32Cf2.png http://mevius.5ch.net/test/read.cgi/tech/1737262341/10
11: デフォルトの名無しさん [] 2025/01/21(火) 08:30:55.42 ID:yRL5l1cZ QRコードの質問此処で良い? http://mevius.5ch.net/test/read.cgi/tech/1737262341/11
12: ◆FEfDUERNdI [sage] 2025/01/21(火) 17:31:17.12 ID:7ESsCguq >>11 QRコードに関しては自分は全く詳しくないが QRコードに使う誤り訂正とか数学的な話なら興味あるので調べてわかったなら答えるかもしれない http://mevius.5ch.net/test/read.cgi/tech/1737262341/12
13: ◆FEfDUERNdI [sage] 2025/01/21(火) 17:41:37.93 ID:7ESsCguq stable diffusionの構造に関してネットいろんな記事を見てきたけど 自分が見つけた実装レベルまで詳しく解説してくれているのは以下です https://blog.csdn.net/xd_wjc/article/details/134441396 http://mevius.5ch.net/test/read.cgi/tech/1737262341/13
14: ◆FEfDUERNdI [sage] 2025/01/22(水) 19:22:28.21 ID:3QEENyMF 数日VAEをトレーニングしてみたが 最構築された画像はどれも>>10のようなぼやけているものばかり ChatGPTに聞いてみたところ、どうやらMSEの短所らしい MSEはピクセル単位で誤差を判断するため、キャラクターの輪郭など全体的な特徴を評価するのが苦手 全体的な誤差を評価するために、画像の類似度を示せるSSIMがいいらしい 合っているかどうかわからないが、とりあえずMSEとSSIMを組み合わせて使おうと思う http://mevius.5ch.net/test/read.cgi/tech/1737262341/14
15: デフォルトの名無しさん [sage] 2025/01/22(水) 21:27:34.18 ID:Ggey4yUO stable diffusionの画像生成プロセスを観てると、夢ん中で作られていく感じに似てるとおもた http://mevius.5ch.net/test/read.cgi/tech/1737262341/15
16: ◆FEfDUERNdI [sage] 2025/01/22(水) 22:07:43.80 ID:3QEENyMF >>15 画像に一歩ずつノイズを加えていくと、最終的には画像自体が完全にノイズになる その逆過程を実現するのが拡散モデルです ランダムなノイズから認識できる画像になっていくのは 確かに夢に似ているね http://mevius.5ch.net/test/read.cgi/tech/1737262341/16
17: デフォルトの名無しさん [] 2025/01/24(金) 11:01:44.72 ID:BC4ZbKEp VAEから作ってんのか なかなか真面目じゃん http://mevius.5ch.net/test/read.cgi/tech/1737262341/17
18: ◆FEfDUERNdI [sage] 2025/01/24(金) 18:06:04.80 ID:AlhjyAq6 >>17 ありがとうございます 一応C++標準ライブラリとCUDA以外のライブラリは使わないつまりなので VAEを作る前の段階として tensorや主要なニューラルネットワークの層も自作しています ただ、png画像の読み込みと出力はopencvを使い、グラフのプロットはgnuplotを使っています どちらも複数のOSに対応しているので、環境構築は非常に簡単です http://mevius.5ch.net/test/read.cgi/tech/1737262341/18
19: デフォルトの名無しさん [sage] 2025/01/24(金) 18:36:35.48 ID:NBK/ONYA ソース公開する気ないならただの日記だよ? http://mevius.5ch.net/test/read.cgi/tech/1737262341/19
20: ◆FEfDUERNdI [sage] 2025/01/24(金) 20:03:37.86 ID:AlhjyAq6 ソースは完成したら公開する予定です readme.mdはまだ書いていないのと、ライセンス関係はまだよくわからないので 今は公開できないです http://mevius.5ch.net/test/read.cgi/tech/1737262341/20
21: デフォルトの名無しさん [sage] 2025/01/24(金) 21:58:30.76 ID:5i0pdKkE ただの統失の日記スレ http://mevius.5ch.net/test/read.cgi/tech/1737262341/21
22: ◆FEfDUERNdI [sage] 2025/01/24(金) 23:22:56.22 ID:AlhjyAq6 そうですね 個人日記なら別にスレを建てる必要はないですね お騒がせしてすいませんでした http://mevius.5ch.net/test/read.cgi/tech/1737262341/22
23: デフォルトの名無しさん [] 2025/04/29(火) 00:25:24.70 ID:/Qf//3PH どう?開発進んだ? http://mevius.5ch.net/test/read.cgi/tech/1737262341/23
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.183s*