[過去ログ] 文字コード総合スレ Part11 (1002レス)
前次1-
抽出解除 レス栞

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
490: デフォルトの名無しさん [] 2018/07/05(木) 01:32:31.02 ID:Iw1yLrzA(1) AAS
>>488
488(1): デフォルトの名無しさん [] 2018/07/04(水) 23:49:15.94 ID:s7W39adb(1/2) AAS
昔、Unicodeもない時代に全文検索エンジン作ったことがあるが
インデックス作るのにもマッチング用に符号圧縮したデータ作るのにも
設計がめんどいわ処理時間がかかるわだろうから
Shift_JISデータから16bitのデータに一旦変換してからそういったデータを作成するようにしてたわ

要件が検索漏れゼロ、ノイズゼロ、なおかつメディアは超トロイCD-ROMという
ありえない滅茶苦茶な内容だったからな

インデクサは大富豪な設計でないとやってられなかった
インデックス作成にリアルタイム性が要求されなかったからまだ救いがあったともいえる

その全文検索エンジンはインデックスを大きくすればするほどインデックスが大きくなるかわりに
最悪のケースの速度が速くなるという仕様にした(最低限必要な性能の要求水準に応えるため)
インデックスを大きくするということはインデックスを作るのに当然時間がかかるということになる
いまはそれもとてつもなくデータが増えてDVDになってる
インデックスもものすごい大きくなってる

で、その最悪のケースというのは、
符号圧縮されたデータをマッチングする回数が増えることを意味する

マッチングの条件はマッチングキーワードから生成するインデックスに含まれる符号圧縮された符号の組み合わせになる
そのマッチングアルゴリズムにBMHを使うことになる
> インデックスを大きくすればするほどインデックスが大きくなる

髪を長くすればするほどロングになる
553: デフォルトの名無しさん [] 2018/07/27(金) 02:29:56.02 ID:27BaLAkY(1/3) AAS
そもそも漢字や象形文字は、一種の絵文字だけどね。
586: デフォルトの名無しさん [sage] 2018/08/04(土) 22:35:16.02 ID:sXotmGKy(1) AAS
WindowsのAPIがUTF-16ベースなのに廃止とか無理でしょ
594: デフォルトの名無しさん [sage] 2018/08/05(日) 10:13:37.02 ID:lHG7kQYc(2/2) AAS
仕分けしたからモリカケだけで済んでるんじゃないの?
600
(1): デフォルトの名無しさん [sage] 2018/08/06(月) 11:54:02.02 ID:wAAey1Ev(1) AAS
win32->win64のタイミングで変えとけばよかったのに
631: デフォルトの名無しさん [] 2018/08/09(木) 01:20:56.02 ID:BtZU6oOJ(1) AAS
CPUひとつあたりの処理速度は10年前とあまり変わってないけど、搭載できるメモリの量は劇的に増えた。
内部実装がUTF32になって文字列リソースが2〜4倍になったとしても利用できるメモリはそれ以上に激増しているのでまったく問題なし。
むしろUTF16やUTF32のほうが頭打ちのCPUにも優しい、ということがわかるはず。
697: デフォルトの名無しさん [sage] 2018/08/16(木) 02:36:38.02 ID:agaekNdO(1/3) AAS
>>696
696(1): デフォルトの名無しさん [sage] 2018/08/15(水) 22:23:06.07 ID:URD+Lz/b(2/2) AAS
アホか、アホしか居ないか?
それともわざとボケてんのか?
なんで wchar_t の話と printf の話を一緒に語ってるんだ?

wprintf 🤔
だからprintfで実装されているものをwprintfに修正するのが大変だって話
またwopenfなどワイド文字対応の関数が存在しない場合も存在する。

それに単純に置き換えてしまうと、今度はASCII環境で動かなくなってしまう
なぜならwchar_tは16bit または 32bitという固定サイズなので
8bitのASCIIは扱えない(当然可変長バイトのUTF-8もwchar_tでは扱えない)

だからwchart_tというものが作られたけど、Linux/Unixはそれを使用して
ワイド文字列対応にするのは現実的に不可能と判断し、
printfで扱えるASCII互換のUTF-8を使うことにした
762
(1): デフォルトの名無しさん [sage] 2018/08/24(金) 19:24:24.02 ID:wXpFbMeR(2/2) AAS
Unicodeはもはや文字コードじゃない
文字シーケンスというべきだろう
複数の文字を使って1文字を表している
782
(1): デフォルトの名無しさん [] 2018/09/13(木) 09:56:12.02 ID:l9KSlvFS(2/3) AAS
>電気の流れもマイナスからプラスへだ

これいつかやっても良いと思うけど
どこにどんな影響が出るんやろね
数学の外積の定義とかも変えたくなりそう
803
(1): デフォルトの名無しさん [sage] 2018/09/15(土) 00:35:10.02 ID:RLWLi0Yo(1/2) AAS
多コードポイント文字(←?)なのでビット数関係ない
むしろ、16bitに詰め込むために合成やVS、ZWJのような小細工が作られてしまって
それが乱用されてる
940: デフォルトの名無しさん [sage] 2018/12/01(土) 02:33:51.02 ID:LH+8CiFR(1) AAS
えぇ…
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.048s