【GPGPU】くだすれCUDAスレ part8【NVIDIA】 [無断転載禁止]©2ch.net

【GPGPU】くだすれCUDAスレ part8【NVIDIA】 [無断転載禁止]©2ch.net (407ﾚｽ)
上下前次1-新
抽出解除ﾚｽ栞

ﾘﾛｰﾄﾞ規制です｡10分ほどで解除するので､他のﾌﾞﾗｳｻﾞへ避難してください｡

374(4): デフォルトの名無しさん [sage] 2023/06/10(土) 08:16:47.35 ID:gJM3u8Zc(1/3) AAS
cudaDeviceSynchronizeはこんなときに使う. Ki=1024, Mi = Ki*Ki, Gi = Ki*Miとでもして
__global__ void
cuda_main(){
　double *idata = new [Mi]; 　double *odata1 = new [Mi]; 　double *odata2 = new [Mi];

　body1<<< Ki, Ki >>> ( idata, odata1 ); //マルチスレッド実体
　cudaDeviceSynchronize();
　body2<<< Ki, Ki >>> ( odata1, odara2 ); //マルチスレッド実体
　cudaDeviceSynchronize();　
　for( int i = 0; i < Mi; i++ ){
　　cudaDeviceSynchronize(); // *** こいつは毎回要ったと思う
　　printf(" %d %e\n", i, odata2[i]); //計算結果表示
　}
　cudaDeviceSynchronize(); // 上の***だけでこいつはなくても構わなかったと思う

　delete[] odata2; 　delete[] odata1; 　delete[] idata;
}

main(){
　//cuda 内newで確保するメモリが8MBを超える場合は設定要
　cudaDeviceSetLimit(cudaLimitMallocHeapSize, size_t(Gi + Gi));
　//printf fifoを16Miにしてみた
　cudaDeviceSetLimit(cudaLimitPrintfFifoSize, 16 * Mi);　
　
　cuda_main<<<1、1>>>();
}

377(1): デフォルトの名無しさん [sage] 2023/06/10(土) 10:12:15.01 ID:5lxShvGN(1) AAS
>>374
同じstream使ってんのにいちいちそんなところで同期してたら効率悪くね？

385: デフォルトの名無しさん [sage] 2023/06/30(金) 07:16:01.83 ID:HGq0NS3h(3/6) AAS
>>382
誰も聞いてないunique_ptrて
CPU側でGPUのマルチスレッド実体を起動しようとすると,
GPU内部でしか利用しないローカルメモリまでCPUから管理する羽目になる
そのときcudamalloc/cudafreeなんか使ってたんじゃメモリ管理が大変で,
gpu::unique_ptrでも作らないとCコード書いてるのと変わらんことになるから言ってる
そんなことせずとも__global__でnew/deleteがデフォで使えるんだからメモリ管理はC++03並には書ける
__global__でnew/deleteを使ってGPUだけで完結処理するには
親スレッドの__global__内で子スレッドの待ち合わせ処理がどうしても必要になる場合があるから言ってる

できるもんなら>>374のcudaDeviceSynchronize(); を同等処理に置き換えてみ
あ, すでに cudaのユーザーサイトに投稿してる人が居るんで探せばしまいだけどねww

387: デフォルトの名無しさん [sage] 2023/06/30(金) 11:03:40.92 ID:HGq0NS3h(4/6) AAS
>>386
作ったことないんだろww
こっちは書いてるから言ってる.

>>374を見ろ
この構成の場合がそれに該当する
CPUはgpu内でnew/deleteに使う最大値のみ設定する.デフォルトは小さいんでな
例えば
1.GPUで用意してる数学関数だけでできる数値計算
2.信号もノイズも乱数から作るモンテカルロ・シミュレーション

要はファイルやなんらかのデバイス,ネットから読み込んでその処理をGPUに転送する場合は
CPUは無関係じゃいられないが, 上のような場合はGPUだけで計算可能だ.
具体例として
1. f(x) = ∫_0^x sin(t)/t dt 0<= x <= 10 を計算して計算結果をファイルにセーブする
2. ある変調方式のエラーレートをシミュレーションで計算し. ファイルにセーブする.

これらならCPUとほぼ無関係に計算できるファイルや外部デバイスからデータを読み込んでくる必要がないんでね.
あと__global__でのprintfはふつーにリダイレクトが有効. GPU内でファイルオープンとかの必要もなくファイルに落とせる
ま,これらは極端な例だが, 最低限, 初期値とか処理データ, GPUで計算終了後の
GPU-CPU間のインターフェース用メモリのみcudamalloc/dudafreeで管理してやればよくて
GPU内部だけで使うようなメモリはCPU側で一切管理する必要がなくなる.
gpu内ではC++03レベルのnew/deleteしか使えないけどな.

388: デフォルトの名無しさん [sage] 2023/06/30(金) 11:07:50.35 ID:HGq0NS3h(5/6) AAS
>>386
ウソだと思うなら,>>374のコードを実際cudaでコンパイルして確認してみろや
実際__global__内でnew/malloc使えて__global__から__global__を起動できることだけがポイントなんだから
ちなみに, dynamic parallelismサポートしてないような古いグラボは使用禁止な.

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.025s