なんJLLM部避難所 ★9

なんJLLM部避難所 ★9 (503ﾚｽ)
上下前次1-新
抽出解除ﾚｽ栞

117(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ bfb7-ZghJ) [] 09/03(水)17:24 ID:a88ca2F/0(1)
>>113
プロンプト投入後10分、ってのはどのぐらいのサイズのモデルとコンテクストの長さの時の話なんやろか？
100BぐらいのモデルのGGUFのQ4_K_MとかQ5_K_M?
ワイが使いたいのはその辺のモデルやが確かに10分は実用とは言えんな

123: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 4302-Mlxs) [sage] 09/03(水)21:38 ID:+f82752F0(1)
>>117 70Bとか100Bあたり
量子化は基本的にモデル圧縮の話であってQ1でもQ8でもFPに変換されるから推論速度はあまり変わらない
(エンジンごとに変換の得て不得手はある。KVキャッシュも流行り)

真面目に利用するならコンテキスト長は50Kはないと途中を忘れて使い物にならない
でも100Kもあると最初は6tk/sでも、会話が進むと0.1tk/sとかになるんよ。これが「10分かかる」の意味
GoogleみたいにQ4をターゲットとしてファインチューンしたモデルじゃない限りQ6以下はバカすぎてダメ

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.014s