[過去ログ] 【トリップ検索】MERIKEN's Tripcode Finder その5 (995レス)
前次1-
抽出解除 レス栞

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
151
(2): ◆Meriken//XXX 2013/09/25(水)20:56 ID:Q0OWgfvvP(7/9) AAS
定格のi7-3770Kだと10桁トリップのCPU検索の速度はこんなんです。

mty_win_x64_20071012: 21.72M TPS
MTF (AVX): 25.56M TPS

大分速くなったけど、もうちょっといけそうなんだよなあ…
171
(3): ◆znjnB.IJwZLU 2013/09/26(木)23:28 ID:6DsB6fP10(1) AAS
>>151
お久しぶりです。
日々の仕事をこなしつつトリップ検索のための正規表現エンジンのためのJITコンパイラを作るという作業にエタってました。

DESのS-Boxですがmovdqaが2個あるくらいなら速度差は出ないでしょう。
AVXでターゲットをSandy以降とする場合、ベクタ整数Logicは3op/cycleです。
従って速度を稼ぐには常に3命令を供給できるようにコードを書かなければなりません。
命令フェッチが16Byte/cycle、デコードが4op/cycleなので2ByteVEX(レジスタ間で4Byte)、3ByteVEX(レジスタ間で5Byte)
のどちらでも達成可能ですし、数個のメモリオペレーションはOoOのキューで隠蔽されます。
ただし、メモリオペレーションを含む場合はLodeポートが2本、Storeポートが1本で命令長が多くの場合4Byteほど長くなることを意識する必要があります。
これはメモリオペレーションを含む論理演算は2ByteVEXの場合で2op/cycle、3ByteVEXの場合は1op/cycleしか命令を供給できないということですので、
省6
226: 忍法帖【Lv=2,xxxP】(2+0:8) ◆Meriken//XXX 2013/10/04(金)07:43 ID:iHUDZBAdP(9/10) AAS
>>180の続きですが、STFのS-Boxを使わせていただいた結果、
速度は26.05M TPSまで上がりました。>>151の数字より確実に
良くなっていますが、key scheduleを命令のほうに展開してやれば
更に速くなりそうです。取りあえずMTFのルーチンで展開を試してみてから
送っていただいたSTFのルーチンを移植してみることにします。
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.147s*