[過去ログ]
Qiita 2 - キータぞ、来たぞ、キータだぞー (1002レス)
Qiita 2 - キータぞ、来たぞ、キータだぞー http://mevius.5ch.net/test/read.cgi/tech/1658762410/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
812: デフォルトの名無しさん [] 2023/03/25(土) 05:45:02.74 ID:g6eb42ch 元編 https://qiita.com/kankikou/items/311328b36ff5a60ab19a 続編 https://qiita.com/Nabetani/items/4827584857cb1c584647 高々10Mの足し算で1秒掛かってるのが異常に遅いなと思って 試しに手動アンロールしたら3桁早くなった 主題の分岐予測を気にかけてる人は自動ベクトル化も興味あるだろうし 元編でコメント連投してた藤田望氏は5chで叩かれてもQiita頑張って欲しい shuffled simple: duration= 1.4129s sum=957487744000 simple_unroll4: duration= 0.0016s sum=957487744000 foreach: duration= 1.4307s sum=957487744000 opt-simple: duration= 1.4238s sum=957487744000 opt-foreach: duration= 1.4369s sum=957487744000 sorted simple: duration= 1.4214s sum=957487744000 simple_unroll4: duration= 0.0016s sum=957487744000 foreach: duration= 1.4228s sum=957487744000 opt-simple: duration= 1.4297s sum=957487744000 opt-foreach: duration= 1.4318s sum=957487744000 http://mevius.5ch.net/test/read.cgi/tech/1658762410/812
813: 812 [sage] 2023/03/25(土) 06:46:24.02 ID:kHu8aUGB 失礼、measure関数で1000回ループしてたので、高々10G回の足し算になってた でもO3最適化が何かをやっているようだ g++ -O2 -mavx2 shuffled simple: duration= 4.3088s sum=957487744000 simple_unroll4: duration= 1.5359s sum=957487744000 foreach: duration= 4.3084s sum=957487744000 opt-simple: duration= 4.7163s sum=957487744000 opt-foreach: duration= 5.5201s sum=957487744000 g++ -O3 -mavx2 shuffled simple: duration= 1.4113s sum=957487744000 simple_unroll4: duration= 0.0016s sum=957487744000 foreach: duration= 1.4264s sum=957487744000 opt-simple: duration= 1.4410s sum=957487744000 opt-foreach: duration= 1.4378s sum=957487744000 int64_t __attribute__ ((noinline)) simple_unroll4(std::vector<uint> const &data) { int64_t sum[4]{}; for (size_t i = 0, size = data.size(); i < size; i+=4) { if (128 <= data[i+0]) sum[0] += data[i+0]; if (128 <= data[i+1]) sum[1] += data[i+1]; if (128 <= data[i+2]) sum[2] += data[i+2]; if (128 <= data[i+3]) sum[3] += data[i+3]; } return sum[0]+sum[1]+sum[2]+sum[3]; } http://mevius.5ch.net/test/read.cgi/tech/1658762410/813
814: 812 [sage] 2023/03/25(土) 06:53:15.92 ID:kHu8aUGB measure関数に __attribute__ ((noinline)) を付けたら正しく動きました 失礼しました http://mevius.5ch.net/test/read.cgi/tech/1658762410/814
815: 812 [sage] 2023/03/25(土) 17:13:39.86 ID:hUI94gGa uint16_tにしたら続編のAVX512と似通ったレベルが出た(続編のsumがmacとwindowsで違うのは何故?) g++ -O3 (avx2を明示しない方が速かった) shuffled simple: duration= 1.0470s sum=957487744000 simple_unroll4: duration= 0.7678s sum=957487744000 ★ foreach: duration= 1.0765s sum=957487744000 opt-simple: duration= 1.3134s sum=957487744000 opt-foreach: duration= 1.3262s sum=957487744000 sorted simple: duration= 1.0430s sum=957487744000 simple_unroll4: duration= 0.7652s sum=957487744000 ★ foreach: duration= 1.0726s sum=957487744000 opt-simple: duration= 1.3084s sum=957487744000 opt-foreach: duration= 1.3201s sum=957487744000 clang++ -O3 -mavx2 (avx2を明示) shuffled simple: duration= 0.8695s sum=957487744000 simple_unroll4: duration= 1.3842s sum=957487744000 foreach: duration= 0.8715s sum=957487744000 opt-simple: duration= 0.8683s sum=957487744000 opt-foreach: duration= 0.8636s sum=957487744000 ★ sorted simple: duration= 0.8812s sum=957487744000 simple_unroll4: duration= 1.3900s sum=957487744000 foreach: duration= 0.8701s sum=957487744000 opt-simple: duration= 0.8691s sum=957487744000 opt-foreach: duration= 0.8682s sum=957487744000 ★ http://mevius.5ch.net/test/read.cgi/tech/1658762410/815
816: 812 [sage] 2023/03/25(土) 17:24:06.36 ID:hUI94gGa 合わせて手動アンロールも少し修正 int64_t __attribute__ ((noinline)) simple_unroll4(std::vector<uint> const &data) { int64_t sum = 0; size_t const size = data.size(); size_t i = 0; size_t const overflow_safe_chunk_size = (1ULL<< (8*sizeof(uint)))/(1ULL<<8); // 0xff = (1<<8)-1 for(size_t ichunk = 0; ichunk < size ; ichunk += overflow_safe_chunk_size){ uint sub[4]{}; for ( ; i < ichunk; i+=4) { if (128 <= data[i+0]) sub[0] += data[i+0]; if (128 <= data[i+1]) sub[1] += data[i+1]; if (128 <= data[i+2]) sub[2] += data[i+2]; if (128 <= data[i+3]) sub[3] += data[i+3]; } sum += sub[0]+sub[1]+sub[2]+sub[3]; } for ( ; i < size; i+=1) { if (128 <= data[i]) sum += data[i]; } return sum; } gccとclangでかなりの違いが出てるのでSIMD intrinsicsで書くべきなんだろうけど そこまでするとM1/M2で使えなくなるのでこの辺が落としどころ? http://mevius.5ch.net/test/read.cgi/tech/1658762410/816
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.031s