なんJLLM部 避難所 ★9 (504レス)
なんJLLM部 避難所 ★9 http://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
リロード規制
です。10分ほどで解除するので、
他のブラウザ
へ避難してください。
117: 名無しさん@ピンキー (ワッチョイ bfb7-ZghJ) [] 2025/09/03(水) 17:24:55.24 ID:a88ca2F/0 >>113 プロンプト投入後10分、ってのはどのぐらいのサイズのモデルとコンテクストの長さの時の話なんやろか? 100BぐらいのモデルのGGUFのQ4_K_MとかQ5_K_M? ワイが使いたいのはその辺のモデルやが確かに10分は実用とは言えんな http://mercury.bbspink.com/test/read.cgi/onatech/1755924738/117
123: 名無しさん@ピンキー (ワッチョイ 4302-Mlxs) [sage] 2025/09/03(水) 21:38:00.94 ID:+f82752F0 >>117 70Bとか100Bあたり 量子化は基本的にモデル圧縮の話であってQ1でもQ8でもFPに変換されるから推論速度はあまり変わらない (エンジンごとに変換の得て不得手はある。KVキャッシュも流行り) 真面目に利用するならコンテキスト長は50Kはないと途中を忘れて使い物にならない でも100Kもあると最初は6tk/sでも、会話が進むと0.1tk/sとかになるんよ。これが「10分かかる」の意味 GoogleみたいにQ4をターゲットとしてファインチューンしたモデルじゃない限りQ6以下はバカすぎてダメ http://mercury.bbspink.com/test/read.cgi/onatech/1755924738/123
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.025s