なんJLLM部 避難所 ★9 (503レス)
上下前次1-新
抽出解除 レス栞
117(1): 名無しさん@ピンキー (ワッチョイ bfb7-ZghJ) [] 09/03(水)17:24 ID:a88ca2F/0(1)
>>113
プロンプト投入後10分、ってのはどのぐらいのサイズのモデルとコンテクストの長さの時の話なんやろか?
100BぐらいのモデルのGGUFのQ4_K_MとかQ5_K_M?
ワイが使いたいのはその辺のモデルやが確かに10分は実用とは言えんな
123: 名無しさん@ピンキー (ワッチョイ 4302-Mlxs) [sage] 09/03(水)21:38 ID:+f82752F0(1)
>>117 70Bとか100Bあたり
量子化は基本的にモデル圧縮の話であってQ1でもQ8でもFPに変換されるから推論速度はあまり変わらない
(エンジンごとに変換の得て不得手はある。KVキャッシュも流行り)
真面目に利用するならコンテキスト長は50Kはないと途中を忘れて使い物にならない
でも100Kもあると最初は6tk/sでも、会話が進むと0.1tk/sとかになるんよ。これが「10分かかる」の意味
GoogleみたいにQ4をターゲットとしてファインチューンしたモデルじゃない限りQ6以下はバカすぎてダメ
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.014s