[過去ログ] 【トリップ検索】MERIKEN's Tripcode Finder その5 (995レス)
上下前次1-新
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
49: やんやん ◆yanyan/Pails 2013/09/19(木)13:04 ID:yhS2wnZ30(1) AAS
アセンブラまで手を出していたのですね。おつかれさまです。
50: ◆Meriken//XXX 2013/09/19(木)14:09 ID:sTJqqQfeP(7/12) AAS
アセンブラでないと限界まで速度を出せないですからね〜
10桁は書き換えたので次は12桁というわけです。
51: ◆Meriken//XXX 2013/09/19(木)15:17 ID:sTJqqQfeP(8/12) AAS
ご飯を食べて元気が出たので、素のSHA-1のルーチンを一気にAVXで書き換えてしまいました。
結果は上々で、2割ほど速度が上がっています。もうちょっといじれば3割まで行きそうな
感じです。
ここまではわりとすんなりと行きましたが問題はこれからで、今度は特殊な最適化を施してある
SHA-1のルーチンを書き換えなければなりません。これは1から書くしかないので、
少しづつ進めていくことにします。
52: ◆Meriken//XXX 2013/09/19(木)18:40 ID:sTJqqQfeP(9/12) AAS
あれから素のSHA-1のルーチンの関数呼び出しのオーバーヘッドを
削って、合わせて27%の速度向上となりました。
VecTripperのルーチンは命令を削れるだけ削ってあるという印象です。
素晴らしいです。
最適化済みのルーチンもこんなふうに自分で書き直せればいいけど、
どうでしょうねえ〜
53(1): ◆JouJaku.IYSv 2013/09/19(木)19:10 ID:SvlqUu4y0(1) AAS
>>39
AVX2対応キターーー! ヽ(´Д`)ノ
AVX2が目的でHaswellを選ぶなら、高いK付きを選ぶ必要は無いと思います。
HaswellはAVXを使うと極端にOC耐性が落ちます。更に殻割り+液体金属必須です。
K無しを定格で使うのが良い、とK付きで殻割りOCまで試した私は思います。
54(1): ◆Meriken//XXX 2013/09/19(木)19:52 ID:sTJqqQfeP(10/12) AAS
>>53
確かにK付きはいらないですねえ。開発機の3770KもOC切っちゃったし…
その代わりにマザボを奮発してQuad CrossFireが出来るのにしようかな。
AVX-512がコンシューマー市場に下りてくるのは当分先でしょうしね。
55: ◆Meriken//XXX 2013/09/19(木)19:53 ID:sTJqqQfeP(11/12) AAS
最適化されたルーチンをじっと眺めてたらなんだか出来そうな気がしてきたぞ。
56: ◆Meriken//XXX 2013/09/19(木)22:14 ID:sTJqqQfeP(12/12) AAS
おもむろに少し書き換えてみたらうまくいきましたw
こりゃ思ったよりずっと簡単かも。
57: ◆Urotsuki/1Ca 2013/09/19(木)22:45 ID:Ywt2cZ170(2/2) AAS
開発が進んでいるようで何よりです
自分はPCの計算力を提供するぐらいしかできませんけど…
58: ◆Meriken//XXX 2013/09/20(金)04:43 ID:PXGklweqP(1/6) AAS
いやいや、それだけで十分すぎですw
うろつきさん、めちゃ速いですしね。
59: ◆Meriken//XXX 2013/09/20(金)04:50 ID:PXGklweqP(2/6) AAS
最適化済みのSHA-1のルーチンのアセンブラでの書き換えは
半分終わりました。既に元のSSE2 Intrinsicsでの実装より大分速くなっています。
思い切って手を付けてみて正解でした。
60: ◆Meriken//XXX 2013/09/20(金)11:51 ID:PXGklweqP(3/6) AAS
x64版のAVXでの書き換えは一応終了。
最適化されたルーチンは15%ほど速くなりました。
もうちょっと命令を削れそうな感じです。
61(2): 2013/09/20(金)12:28 ID:rdeXteVM0(1) AAS
>>54
Z87のマザーだと、ASUS MAXIMUS VI EXTREMEがPCIe 3.0(x8/x16/x8/x8)駆動で最大だからQuad CrossFireするには勿体無さそうに思うけどな。
外部リンク:www.asus.com
Quad CrossFireがPCIe 3.0(x16/x16/x16/x16)で動作保障してくれるマザーってあるんだっけ?
62(1): ◆Meriken//XXX 2013/09/20(金)12:39 ID:PXGklweqP(4/6) AAS
>>61
MTFでつかうぶんにはPCIeの帯域はほとんど関係ないので問題なしです。
買うとしたら検索君1号用なので他の用途には使わないですしね。
もうちょっと安いのでもいいんですけど、スロットの配置がいいのが
ないんですよね〜
63: ◆Meriken//XXX 2013/09/20(金)12:52 ID:PXGklweqP(5/6) AAS
命令を2つばかり削ってちょびっと速くなりました。
さすがに疲れたのこのへんにしときます。
後はこれをSSE2に移植して、32bit版を作らなきゃいけないんだよなあ。
まあのんびりやろうっと。
とりあえずAVX2対応の準備はできたので十分でしょう。
CPUだけで250M TPS出せるかもしれません。ぐへへへへ…
64: ◆Meriken//XXX 2013/09/20(金)17:44 ID:PXGklweqP(6/6) AAS
SSE2版を作って命令を2オペランド化してみたらかえって元のより遅くなったぞorz
たくさん作ってもメンテするの大変だし、アセンブラのルーチンは
64bit AVX/AVX2専用にしちゃおうかなあ。
…と、ここまで考えてから試しにVecTripperの真似をしてvmovdqaをmovaps に
変えたら、それだけでもとより速くなりましたw なぜだ…
65(1): ◆JouJaku.IYSv 2013/09/20(金)20:53 ID:BxgeVqsj0(1) AAS
>>61
ブリッジ挟んだなんちゃって仕様ならコレ。Haswellではありませんが。
外部リンク:www.asus.com
なんちゃってなので、グラフィック用です。
大量のデータ転送を同時に行うGPGPU用途には使えません。
Nativeならこれくらい逝かないと無理です。
外部リンク[cfm]:www.supermicro.com
66: ◆Meriken//XXX 2013/09/21(土)01:51 ID:axiLYME3P(1/5) AAS
>>65
今回の購入のメインはHaswellなので、やっぱりASUSのM6Eですかね〜
いやあ、楽しみだなあ。
67(3): ◆Meriken//XXX 2013/09/21(土)02:05 ID:axiLYME3P(2/5) AAS
最適化されたルーチンのSSE2への移植は完了しました。かなり速いです。
今まで58M TPSしか出ていなかったPhenom II X6で92M TPSでました。
Visual C++、効率が悪すぎだろう…
68: ◆Meriken//XXX 2013/09/21(土)02:41 ID:axiLYME3P(3/5) AAS
というわけで、64bit版は最適化されたルーチンに
一本化することにしました。これで大分すっきりとしました。
あと32bitだとxmmレジスタの数が足りなさすぎなので、
アセンブラで書きなおすのはやめにしました。
これで後は念の為にもう一回テストするだけです。
上下前次1-新書関写板覧索設栞歴
あと 927 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.196s*