10GBのCSVファイルのソートが遅いのはなぜですか? (49レス)
1-

1
(5): 2023/06/12(月)21:20 ID:F1HJC183(1) AAS
CSVファイルは検索が速いって聞きました
ではなぜソートが遅いのでしょうか?
20
(1): 2023/08/10(木)01:20 ID:lIBN6+0k(1) AAS
>>18
レコード数を3とする、ソートせよ
21: 2023/08/10(木)02:07 ID:ljCEt4I+(1) AAS
ソートのキーだけでいい
22: 2023/08/10(木)10:55 ID:AypbHuiV(1) AAS
メモリーに乗りそうな大きさに分割してソートして
それをマージソートするのが一番早いんじゃね?
23: 2023/08/10(木)11:29 ID:YYBOmFjO(1/2) AAS
>>20
レコード数が1でソートの必要がないかも知れない。
24: 2023/08/10(木)11:33 ID:YYBOmFjO(2/2) AAS
>>1
検索早くないのでは?要するにただのテキストの塊なので grep コマンドとか使って検索できるってだけのことで、その状態ではインデックスなしの全検索だから遅くなると思う。
25: 2023/08/10(木)20:54 ID:TWiH3Zx3(1) AAS
10GBのファイルを書き換えながらソートしているのかな?
26: 2023/08/13(日)12:14 ID:mxfdwtiA(1) AAS
Diskのデフラグ並みだな
27: 2023/08/16(水)10:29 ID:g5j2pEtW(1) AAS
ゲッ!!(/||| ̄▽)y-ξ⌒◇ヾ( ̄  ̄;)ジュッ
28: 2023/08/27(日)20:18 ID:m39XqcII(1) AAS
(  Д ) ゚ ゚
29: 2023/09/01(金)20:23 ID:MSzaVfqT(1) AAS
どないやねん、意味がわからん
30
(1): 2023/09/12(火)12:29 ID:QOX8wfhQ(1) AAS
何行何列か示せと
31
(2): 2023/09/12(火)12:38 ID:A3YXlMvb(1/2) AAS
>>30
1億行、125列
32: 2023/09/12(火)12:46 ID:DJD1APYm(1) AAS
こんな頭の悪いスレ上げるのはなぜですか?
33: 2023/09/12(火)14:42 ID:A3YXlMvb(2/2) AAS
なぜ下げるんだい?
34: 2023/09/12(火)14:59 ID:BQ9Iu4K/(1/2) AAS
なんで10GBもあるデータをCSVで管理しようと思ったんだろうな
35: 2023/09/12(火)17:11 ID:zmLL4dpk(1) AAS
10GBもあるデータをCSVにしようとした訳ではなく
何も考えずにCSVで管理してたらいつの間にか10GBになったんだろう
36: 2023/09/12(火)18:09 ID:BQ9Iu4K/(2/2) AAS
そっかw
37: 2023/09/14(木)15:11 ID:Ur1UGoF9(1) AAS
>>31
俺だったらなんでも良いからまずRDBに入れちゃうかも。
内容にもよるだろうが、とりあえずSQLiteとかな。
38: 2023/09/15(金)19:50 ID:V4ggyvBY(1) AAS
巨大なデータをSQLiteで処理するためのメモ
外部リンク:fanぶろぐs.jp/scripts/archive/11/0
39: 2023/09/15(金)20:30 ID:mLRMgWkC(1) AAS
やさいい
40: 2023/09/27(水)20:16 ID:PKUrAitV(1) AAS
まず各ブロック当たり1000行とかに分ける。ブロック単位でソートする。
1.ブロックA/B を連結してAB間でソート。  B=全体の数/2
2.ブロックA+1, B+1 で連結してソート
3. ブロックA+全体の数/2- 1(前半最後まで)、ブロックB+前半最後までを連結してソート
4.今度は全体の前半で1-3 風にブロックソート。後半〜最後までで1-3 風にブロックソート
5. 前半〜前半+3/4 でブロックソート、前半+2/4〜前半+4/4 でブロックソート、
 ......
・・・・

ってのを大昔 BASIC で作ったのですが、なぜかデータがゼロに
なってしまうバグが出て作るのを止めてしまいました。ちゃんちゃん。駄目じゃん俺。
41: 2023/10/04(水)21:29 ID:ja1//dn8(1) AAS
だいたいデータの入れ替えに時間が掛かるんだよな
メディアがHDDとかだと尚更
普通はインデックスで実データを間接参照させるんだが
まあ、やって無いんだろうなぁ
42: 2023/10/05(木)11:43 ID:AvBTKCCq(1) AAS
速度を優先するなら固定長CSVの採用をオススメする
各行へのランダムシークが出来るし並び替えに必要な行の入れ替えも可能になる
最近のutf-8などを使いたい場合は文字数での管理が難しくなるがあくまでもストレージ上でのサイズを基準にして
クラスタサイズも考慮し列サイズを決めていこう
検索性能を上げるには外部インデックスを作るしかないだろう
ファイルサイズは100倍ぐらいに増えるかもしれないが単純なファイルキャッシュだけで下手なDBでは敵わない速度が出せるだろう
43: 2023/10/08(日)19:41 ID:Unktq8Si(1) AAS
>>31
125列のレコードが1億行あったらカンマだけで10GB超えるんだが
44: 2023/10/12(木)21:43 ID:5lP2cmIF(1) AAS
ひとつが100MBくらいのファイルになるように
ディレクトリ構造でB木をつくって(アンバランスでもOK)
個々にソートしたものを最後に結合
45: 2024/11/08(金)00:13 ID:0/QV09gu(1) AAS
csvだから遅いとかはない、デシリアライズして云々するよりそのままテキスト(あるいはその部分文字列、フィールド)として比較するならむしろ有利
単にサイズの問題、メモリより十分小さいサイズに分割(今どきなら数GBなんで100MBあたり)して個別にソート、マージ
むしろテキストにシリアライズされたデータにおいて、最も実用的な類のフォーマットに入る
46: 05/10(土)00:23 ID:Fj2J3+nY(1) AAS
とすと
47: 05/10(土)14:35 ID:7IHH6CUB(1) AAS
クソスレかとおもったら想像以上に真面目に考察してるスレだったw
48: 05/10(土)20:02 ID:ij0zz7My(1) AAS
マジレスはあるかもしれんが別に真面目な考察はないだろ
実は良スレだったんだと雰囲気で既成事実にするな
49: 05/12(月)11:20 ID:Zw0HuL6G(1) AAS
DBをエクスポートしたら数GB出てきたとか普通だけど
1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ

ぬこの手 ぬこTOP 0.018s