CSVファイルのスレ (296レス)
CSVファイルのスレ http://mevius.5ch.net/test/read.cgi/db/1057136328/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
1: 名無しさん@お腹いっぱい。 [sage] 03/07/02 17:58 ID:??? おそらく一番簡単なデータベースと思われるCSVファイルについていろいろ語りましょう。 http://mevius.5ch.net/test/read.cgi/db/1057136328/1
267: NAME IS NULL [] 2016/05/23(月) 12:53:53.53 ID:WNFQzXcv 初めて業務でcsvファイルを扱うことになり(ちょっとした雑務程度ですが) open officeを今使っているのですが、 ある列(縦)のデータ(Aとします)と、 ある列のデータ(Bとします)の二つを抽出して、 そのデータを両方とも降順を昇順にして Aのデータ(x1,x2,x3...)に、Bのデータ(y1,y2,y3...)を加えて ABのデータ(x1,y1,x12,y2,x3,y3...)にして、 そのデータを他のデータに追加したいです。 事務作業をやったことがこれまでにないので、 どうか心優しい方教えて下さいましたらありがたいです。 http://mevius.5ch.net/test/read.cgi/db/1057136328/267
268: NAME IS NULL [sage] 2016/05/23(月) 12:54:42.48 ID:??? >>267 教えてほしいのはやり方です。 宜しく御願いいたします。 http://mevius.5ch.net/test/read.cgi/db/1057136328/268
269: NAME IS NULL [] 2016/05/23(月) 13:33:25.16 ID:UP9ZYRKE 何を言ってるのがわからないうえに、Excelの操作ならExcelのスレッドで聞いた方がいい。 http://mevius.5ch.net/test/read.cgi/db/1057136328/269
270: NAME IS NULL [sage] 2016/07/10(日) 01:29:16.99 ID:??? オッペンオフィスを使っているのか、 (会社がせこくて無料の)オッペンオフィスを使わされているのか。 http://mevius.5ch.net/test/read.cgi/db/1057136328/270
271: NAME IS NULL [sage] 2016/07/17(日) 20:38:00.70 ID:??? Now, I am become Death, the destroyer of world http://mevius.5ch.net/test/read.cgi/db/1057136328/271
272: NAME IS NULL [] 2017/12/29(金) 11:38:51.81 ID:dtNZwIie 誰でも簡単にパソコン1台で稼げる方法など 参考までに、 ⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。 グーグル検索⇒『宮本のゴウリエセレレ』 L1WOEFDH6U http://mevius.5ch.net/test/read.cgi/db/1057136328/272
273: NAME IS NULL [sage] 2019/08/18(日) 01:01:50.14 ID:??? Cassava Editorっていまもまだ更新続いてるのか・・・ 現在進行形で10年以上、更新が続いているってすごいな 作者尊敬するわ http://mevius.5ch.net/test/read.cgi/db/1057136328/273
274: NAME IS NULL [] 2019/09/05(木) 20:35:26.00 ID:DlL3ZhYX >>273 あすかぜさんは神 あすかぜさん無しでは生きていけない http://mevius.5ch.net/test/read.cgi/db/1057136328/274
275: NAME IS NULL [] 2019/09/13(金) 00:27:52.13 ID:JsZ81e/N Cassava Editorが存在することで日本の生産性が向上していることは間違いない http://mevius.5ch.net/test/read.cgi/db/1057136328/275
276: NAME IS NULL [sage] 2020/05/13(水) 11:02:45.60 ID:??? 幾度ものタピオカブームの浮き沈みも関係なく cassava editorは進歩する http://mevius.5ch.net/test/read.cgi/db/1057136328/276
277: NAME IS NULL [sage] 2020/05/14(木) 13:55:32.06 ID:??? SUMとかAVERAGEとかの基本的な関数だけでも実装してくれたらなぁ。。 http://mevius.5ch.net/test/read.cgi/db/1057136328/277
278: NAME IS NULL [] 2020/07/04(土) 23:14:10.34 ID:pcZg9qmx 「Cassava Editor」https://www.asukaze.net/soft/cassava/ v2.2.0 (2020/07/04) 64 bit 版を追加。 マクロファイルの文字コードを Shift-JIS から UTF-8 に変更。 ただし、UTF-8 として読み込めない場合は Shift-JIS として解釈される。 これぞ最強・最速・最高性能 http://mevius.5ch.net/test/read.cgi/db/1057136328/278
279: NAME IS NULL [] 2020/07/09(木) 10:48:02.22 ID:IGkzCBkT >>278 あざーす! http://mevius.5ch.net/test/read.cgi/db/1057136328/279
280: NAME IS NULL [sage] 2020/12/23(水) 01:22:06.12 ID:??? CSVはRFCに従うよりエンマークでエスケープした方がLinuxで使いやすい RFCとは別にPOSIXのCSVとしてエンマークエスケープのCSVが普及して欲しいと思う今日この頃 http://mevius.5ch.net/test/read.cgi/db/1057136328/280
281: NAME IS NULL [sage] 2021/10/08(金) 19:00:11.25 ID:??? ASCIIセパレータのことも思い出してあげてください http://mevius.5ch.net/test/read.cgi/db/1057136328/281
282: NAME IS NULL [] 2022/07/17(日) 23:11:42.70 ID:/HVWy/+u 制御文字は人間に優しくないのがつらいんよねー システマチックに使うだけなら良いかも http://mevius.5ch.net/test/read.cgi/db/1057136328/282
283: NAME IS NULL [] 2022/09/03(土) 22:15:45.24 ID:euVNIg62 Twitterで100GBのCSVを10GBのメモリのPCでソートするにはどうすればよいかって話題になってた どうやればよいのだろうね http://mevius.5ch.net/test/read.cgi/db/1057136328/283
284: NAME IS NULL [sage] 2022/09/05(月) 13:23:03.79 ID:??? 死ねばいいんじゃないんですかね そういうシステムを作っちゃうやつは必ず同じ失敗を繰り返す http://mevius.5ch.net/test/read.cgi/db/1057136328/284
285: NAME IS NULL [] 2022/09/05(月) 13:49:58.15 ID:Tc12+IoI システムの良し悪しじゃなくてDBに入れるとかそういう具体的なやり方の話をしたかった http://mevius.5ch.net/test/read.cgi/db/1057136328/285
286: NAME IS NULL [sage] 2022/09/05(月) 22:33:25.90 ID:??? CSVは基本可変長レコードだから、ファイルへのランダムアクセスでデータが取り出せない それだけでソート行うのに不適ってわからない時点でもうダメ データの入れ替えもとんでもなく困難 ファイルを固定長にするという発想があれば ソートも入れ替えも比較的容易に出来るんですがねぇ… あとはメモリ使用量の少ないソートアルゴリズムを選べばいい http://mevius.5ch.net/test/read.cgi/db/1057136328/286
287: NAME IS NULL [] 2022/09/08(木) 13:59:49.98 ID:ZUZFeHFR だめだこりゃ http://mevius.5ch.net/test/read.cgi/db/1057136328/287
288: NAME IS NULL [] 2022/09/08(木) 14:00:37.37 ID:ZUZFeHFR イキりマンがいるとダメだ http://mevius.5ch.net/test/read.cgi/db/1057136328/288
289: NAME IS NULL [sage] 2022/09/08(木) 23:42:26.53 ID:??? まさかcsvのソートができないなんて上から目線で言うやつがいるとは思わんかった。 http://mevius.5ch.net/test/read.cgi/db/1057136328/289
290: NAME IS NULL [sage] 2022/09/09(金) 10:39:32.97 ID:??? ではイキリマンとは違う事を 正解を示すことで証明していただきたい http://mevius.5ch.net/test/read.cgi/db/1057136328/290
291: NAME IS NULL [sage] 2022/09/09(金) 21:39:53.42 ID:??? ふふふそうはいかない お前に利は与えぬ http://mevius.5ch.net/test/read.cgi/db/1057136328/291
292: NAME IS NULL [] 2022/09/09(金) 23:06:48.13 ID:ybJikvqo ふふふ http://mevius.5ch.net/test/read.cgi/db/1057136328/292
293: NAME IS NULL [] 2022/09/11(日) 01:48:03.55 ID:Mo970C1D ソートするだけならマージソートでやれば良い マージソートはレコードをシーケンシャルに読み書きしていくだけで良い CSVが100GBで、1レコードが1KBだと仮定するとレコード数は1億 log2(1億) = 26.5 27回はスプリットとマージを繰り返さないといけない 100GB * 27 * 2(読みと書き) = 5400GB ストレージの読み書き速度が500MB/sだとして3時間 性能要件的に3時間が是か非か SQLiteやPostgreSQLにデータを入れてSQLでソートするにしても DBではデータがノーマライズされるうえにインデックスも構築されるから なんだかんだで同じくらい時間がかかりそう RedshiftやBigQueryといった分散処理ができるDBを使えば速いだろうけど ネットワークの速度が100MB/sだと仮定するとデータを転送するだけで16分かかるから なんだかんだで20分前後かなあ ストレージのIOがボトルネックになるとしてそれを改善するには CSVを1回読んでレコードの(sortkey, offset, length)の組を抜き出してその組をソートして最後にレコードを抜き出すのが良い 1つの(sortkey, offset, length)が40バイトだとしてそれが1億あると4GB、PCのメモリが10GBならオンメモリでソートできそう RFC4180に従う汎用的なCSVを入力として受け付けるならoffset, lengthの計算がちと面倒かもね 入力の生データを保持してCSVをパースできるならレコードをパースして生データからoffset, lengthを計算すればよいけれども 対応してるライブラリがあるかはわからない、CSVのパーサを自作する必要があるかも http://mevius.5ch.net/test/read.cgi/db/1057136328/293
294: NAME IS NULL [] 2022/09/11(日) 02:08:10.54 ID:Mo970C1D 10GBに収まるギリギリまでメモリ上でソートすればいいので27回も繰り返す必要はないのか ストレージ上のデータがメモリ上では10倍になるとしてメモリ上でソートできるのは100万レコードくらいかな 100万レコードが100個できるとして log2(100) = 6.6 100GB * 7 * 2(読みと書き) = 1400GB ストレージの読み書き速度が500MB/sだとして47分 結構速いな http://mevius.5ch.net/test/read.cgi/db/1057136328/294
295: NAME IS NULL [sage] 2023/05/24(水) 21:48:12.59 ID:??? Excel365で開くと、最初は問題なく開けるのに、 しばらく使ってから開くと文字化けするのはなに? 文字化けするファイルもしないファイルも文字コードは同じ PC再起動すれば一時的に直るけど、またしばらく使ってると再発する http://mevius.5ch.net/test/read.cgi/db/1057136328/295
296: NAME IS NULL [] 2023/06/03(土) 19:09:16.93 ID:WlpZXlkv BOMが消されてるんじゃない? http://mevius.5ch.net/test/read.cgi/db/1057136328/296
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.022s