10GBのCSVファイルのソートが遅いのはなぜですか? (49レス)
1-

17: デフォルトの名無しさん [sage] 2023/08/09(水) 16:22:02.52 ID:coMLMuQp(1) AAS
jsonやmessagepackよりは速いかも知れないな
18
(1): デフォルトの名無しさん [] 2023/08/10(木) 00:02:20.56 ID:gjwqjVE1(1) AAS
10GBはファイルの大きさであって、データの件数ではないんだよな
19: デフォルトの名無しさん [sage] 2023/08/10(木) 01:18:52.99 ID:qMn8aig+(1) AAS
10GB のデータをソートするには、
並べ替えた途中経過のデータも持っておく必要があるから、
100GBぐらいのメモリが必要なのでは?

メモリが少ないと、途中経過のデータをハードディスクに保存して、
メモリを空けないといけない。スワップ
20
(1): デフォルトの名無しさん [] 2023/08/10(木) 01:20:23.88 ID:lIBN6+0k(1) AAS
>>18
レコード数を3とする、ソートせよ
21: デフォルトの名無しさん [] 2023/08/10(木) 02:07:49.13 ID:ljCEt4I+(1) AAS
ソートのキーだけでいい
22: デフォルトの名無しさん [sage] 2023/08/10(木) 10:55:32.60 ID:AypbHuiV(1) AAS
メモリーに乗りそうな大きさに分割してソートして
それをマージソートするのが一番早いんじゃね?
23: デフォルトの名無しさん [] 2023/08/10(木) 11:29:41.03 ID:YYBOmFjO(1/2) AAS
>>20
レコード数が1でソートの必要がないかも知れない。
24: デフォルトの名無しさん [] 2023/08/10(木) 11:33:16.87 ID:YYBOmFjO(2/2) AAS
>>1
1(5): デフォルトの名無しさん [sage] 2023/06/12(月) 21:20:45.91 ID:F1HJC183(1) AAS
CSVファイルは検索が速いって聞きました
ではなぜソートが遅いのでしょうか?
検索早くないのでは?要するにただのテキストの塊なので grep コマンドとか使って検索できるってだけのことで、その状態ではインデックスなしの全検索だから遅くなると思う。
25: デフォルトの名無しさん [] 2023/08/10(木) 20:54:16.43 ID:TWiH3Zx3(1) AAS
10GBのファイルを書き換えながらソートしているのかな?
26: デフォルトの名無しさん [sage] 2023/08/13(日) 12:14:40.57 ID:mxfdwtiA(1) AAS
Diskのデフラグ並みだな
27: デフォルトの名無しさん [sage] 2023/08/16(水) 10:29:29.77 ID:g5j2pEtW(1) AAS
ゲッ!!(/||| ̄▽)y-ξ⌒◇ヾ( ̄  ̄;)ジュッ
28: デフォルトの名無しさん [sage] 2023/08/27(日) 20:18:09.89 ID:m39XqcII(1) AAS
(  Д ) ゚ ゚
29: デフォルトの名無しさん [sage] 2023/09/01(金) 20:23:04.85 ID:MSzaVfqT(1) AAS
どないやねん、意味がわからん
30
(1): デフォルトの名無しさん [] 2023/09/12(火) 12:29:39.47 ID:QOX8wfhQ(1) AAS
何行何列か示せと
31
(2): デフォルトの名無しさん [] 2023/09/12(火) 12:38:34.37 ID:A3YXlMvb(1/2) AAS
>>30
1億行、125列
32: デフォルトの名無しさん [sage] 2023/09/12(火) 12:46:05.28 ID:DJD1APYm(1) AAS
こんな頭の悪いスレ上げるのはなぜですか?
33: デフォルトの名無しさん [] 2023/09/12(火) 14:42:44.77 ID:A3YXlMvb(2/2) AAS
なぜ下げるんだい?
34: デフォルトの名無しさん [sage] 2023/09/12(火) 14:59:33.38 ID:BQ9Iu4K/(1/2) AAS
なんで10GBもあるデータをCSVで管理しようと思ったんだろうな
35: デフォルトの名無しさん [] 2023/09/12(火) 17:11:08.62 ID:zmLL4dpk(1) AAS
10GBもあるデータをCSVにしようとした訳ではなく
何も考えずにCSVで管理してたらいつの間にか10GBになったんだろう
36: デフォルトの名無しさん [sage] 2023/09/12(火) 18:09:26.28 ID:BQ9Iu4K/(2/2) AAS
そっかw
37: デフォルトの名無しさん [] 2023/09/14(木) 15:11:27.86 ID:Ur1UGoF9(1) AAS
>>31
俺だったらなんでも良いからまずRDBに入れちゃうかも。
内容にもよるだろうが、とりあえずSQLiteとかな。
38: デフォルトの名無しさん [] 2023/09/15(金) 19:50:24.13 ID:V4ggyvBY(1) AAS
巨大なデータをSQLiteで処理するためのメモ
外部リンク:fanぶろぐs.jp/scripts/archive/11/0
39: デフォルトの名無しさん [sage] 2023/09/15(金) 20:30:51.52 ID:mLRMgWkC(1) AAS
やさいい
40: デフォルトの名無しさん [sage] 2023/09/27(水) 20:16:21.16 ID:PKUrAitV(1) AAS
まず各ブロック当たり1000行とかに分ける。ブロック単位でソートする。
1.ブロックA/B を連結してAB間でソート。  B=全体の数/2
2.ブロックA+1, B+1 で連結してソート
3. ブロックA+全体の数/2- 1(前半最後まで)、ブロックB+前半最後までを連結してソート
4.今度は全体の前半で1-3 風にブロックソート。後半〜最後までで1-3 風にブロックソート
5. 前半〜前半+3/4 でブロックソート、前半+2/4〜前半+4/4 でブロックソート、
 ......
・・・・

ってのを大昔 BASIC で作ったのですが、なぜかデータがゼロに
なってしまうバグが出て作るのを止めてしまいました。ちゃんちゃん。駄目じゃん俺。
41: デフォルトの名無しさん [] 2023/10/04(水) 21:29:03.45 ID:ja1//dn8(1) AAS
だいたいデータの入れ替えに時間が掛かるんだよな
メディアがHDDとかだと尚更
普通はインデックスで実データを間接参照させるんだが
まあ、やって無いんだろうなぁ
1-
あと 8 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.013s