なんJLLM部避難所 ★9

なんJLLM部避難所 ★9 (516ﾚｽ)
上下前次 1-新

ﾘﾛｰﾄﾞ規制です｡10分ほどで解除するので､他のﾌﾞﾗｳｻﾞへ避難してください｡

1: 名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ fec0-xVEZ) [] 08/23(土)13:52 ID:5lw7ZcNF0(1/10)
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
2chｽﾚ:liveuranus
前スレ(実質本スレ)
なんJLLM部避難所 ★8
2chｽﾚ:onatech VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured

417: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 7389-lzKx) [sage] 09/19(金)17:21 ID:3v9lWFVo0(2/2)
$10チャージしたらいくつかのモデルが無料で使えるってだけで有料モデルはファーストパーティー繋げばいいしな

418(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f03-tCvQ) [sage] 09/19(金)18:50 ID:6ywWgI9i0(1)
小説が読みたいんやなくて「会話」でエロいことしたいだけなんやが脱獄したgeminiやgptとローカルでやるのどっちがいいの？　gptにはggufでQ4_K_Mくらいしか動かないですねって苦笑された低スペやけど・・・

419: 名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sddf-jiGm) [sage] 09/19(金)19:36 ID:0vG+dwO9d(1/2)
>>418
ローカルは出力が遅すぎるという理由で会話は成り立たない
オナスレの作り込まれたエロゲなら待ち前提でローカルでもそこそこ楽しめる

420(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ c320-vFl8) [sage] 09/19(金)20:43 ID:86mQsRdB0(1)
ふつうのひとがローカルLLM使うメリットって全くない
個人が持てる程度のPCで動くLLMなら、open routerで無料か無料に等しいコストで使えてしまうので

421(1): 名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sddf-jiGm) [sage] 09/19(金)20:52 ID:0vG+dwO9d(2/2)
>>420
ファインチューン目当てで環境構築したが
画像生成と違ってGGUFに手軽にLoRAを当てる環境が整ってないのよな

まだまだソフトが発展途上だわ

422: 名無しさん＠ピンキー (ﾜｯﾁｮｲ c720-GsOJ) [sage] 09/20(土)01:23 ID:ExnGmMsF0(1/2)
ローカルである程度のサイズのLLM動くPCに何十万円もかかってそれで性能有料サービス以下だからなあ
サブスク何年分よ
ゲームの趣味とか他に使い道あるならまあええけども

423: 名無しさん＠ピンキー (ﾜｯﾁｮｲ f70b-5nxf) [] 09/20(土)01:32 ID:hrmH+Mjd0(1)
GPT-ossみたいな単一言語ガチガチにしたMoEモデル+翻訳専用SLMで組めるようになるのがローカルの終着点だと思っとるから数百BパラメータのLLM動かせるような環境はやりすぎな気はするわね

424(2): 名無しさん＠ピンキー (ﾜｯﾁｮｲ bf70-XlN9) [sage] 09/20(土)08:00 ID:p/li7AZa0(1)
大手IT企業とか大学の研究機関ですらLLMの学習コストが高すぎるって言ってるからこれから量子化とかtransformersに代わる計算コストの低いアーキテクチャの研究が進むかもな
そもそも人間は絵描いたりするより文章書く方が簡単なはずなのにAIは画像生成の方が必要リソースが少なくて言語モデルは倍近くのリソースが必要なのはなんでや

425: 名無しさん＠ピンキー (ﾜｯﾁｮｲ a36a-3wxO) [] 09/20(土)08:06 ID:+jVh25Pi0(1)
既に色々されてるが

426(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ 7732-kQ/7) [sage] 09/20(土)08:48 ID:xy79eLcb0(1/2)
>>424
人間が絵より文章を書く方が得意なのは、文章が生きる上での必須技能でより多くの時間を費やすからだろ
人生で絵と文章どっちに多くの時間をかけてるのか考えてみるんだ

427: 名無しさん＠ピンキー (ﾜｯﾁｮｲ dbb2-XlN9) [] 09/20(土)09:57 ID:KQrWb2+N0(1)
>>426
簡単/難しいと得意/不得意は別の論な気もするのだが
ワイは、絵は全てのピクセルに明確な意図を込める必要はなく、なんなら単なるノイズですら魅力的な絵の一部と見なされうるけど、文章において文字はそれが許容されるケースが極めて限定的ってあたりがよりリソースが必要になる原因の一つやないか、と思うんやで

428: 名無しさん＠ピンキー (ﾜｯﾁｮｲ f390-gFLl) [sage] 09/20(土)09:59 ID:qDJ0IAj30(1)
>>421
普通に追加学習でファインチューンできると思うんだけど、上手くいかない感じ？
まぁVRAMが量子化前のモデルサイズ×4倍くらいは要るのが環境面では大変よね

429(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ c720-GsOJ) [sage] 09/20(土)10:13 ID:ExnGmMsF0(2/2)
視覚は莫大な情報の中から必要な物だけを抜き出す作業をしている
見たい部分が正しければ他は間違っていても気にならない

文章は伝えたい情報を全て文章化して相手に渡しており原則として相手は全てに目を通す
最初から最後まで確認するから間違いがあれば気づきやすい

430: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 7732-kQ/7) [sage] 09/20(土)10:56 ID:xy79eLcb0(2/2)
>>429
もちろんそういう問題もあるけど知識や技術の差も大きいで

アホな小学生は文章の良し悪しや文法の間違いに気付くことが出来ない
絵も同じで画力が無い奴は絵のおかしな部分に気付くことが出来ないし、単に下手なのかわざと崩しているのかの区別もつかない
画力があると絵を見た瞬間に多くの情報を正しく拾っておかしな部分に気付いてしまう
んで人類のほとんどはアホな小学生の文章力と同レベルの稚拙な画力しか持っていないから間違いが気になるはずもない

英語苦手な奴が英文読んだときにその良し悪しに気付かないのも同じことやで

431: 名無しさん＠ピンキー (ﾜｯﾁｮｲ be35-/zn3) [] 09/20(土)12:42 ID:JqUlC67e0(1)
OpenRouterにGrok 4 Fastが来た。
しかもフリー。なんだこれ最高かよ。

432: 名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MMa2-tQaT) [] 09/21(日)10:00 ID:TZGwxDCYM(1)
CPU推論ってシングルスレッドが有効？
スリッパだとシングルが弱い上にメモリアクセスにワンクッション挟むからRyzen 8000シリーズより遅くなる印象

ThreadripperならGPU複数枚構成かなぁ

433: 名無しさん＠ピンキー (ﾜｯﾁｮｲ e6c8-vRSx) [sage] 09/21(日)19:57 ID:ewooSzNA0(1)
CPUよりメモリ速度が問題なんじゃないの

434: 名無しさん＠ピンキー (ﾜｯﾁｮｲ f2d3-OtDG) [sage] 09/21(日)20:42 ID:UQ+WCB620(1/2)
epycで良くないか?
SP5ソケットなら最大12ch動作やから500GB/sくらい出たはず
それにデュアルcpuにすれば理論帯域幅も倍になるから1000GB/s超えも狙える(ソフト側の問題で実際の速度向上は30%程度らしい)
まあCCDの数で実際の帯域幅は律速されるから12chフルで使えるCPUにすると数百万コースやけど

435: 名無しさん＠ピンキー (ﾜｯﾁｮｲ f2d3-OtDG) [sage] 09/21(日)21:01 ID:UQ+WCB620(2/2)
調べたら9B45とか128core DDR5 12channel で50万くらいなので組み方次第で100万以下も狙えそう
MoEならGPUも載せて一部オフロードすればさらに高速化狙えるし

436: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 7232-QENU) [sage] 09/21(日)21:30 ID:cNbiFHnF0(1)
pcie4.0でいいやと思ってsp3マザーとzen2epyc狙い

437: 名無しさん＠ピンキー (ﾜｯﾁｮｲ bffd-XlN9) [sage] 09/22(月)00:16 ID:oEFIPp9o0(1)
magistral 1.2推論ってやつ使ってないけど普通に楽しいや

438: 名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a9-HCKT) [sage] 09/22(月)00:26 ID:b0NiJC3J0(1)
epycはxeonのAMXより速いってベンチマーク出してきてるけどほんまなんかな
llmのcpu推論は第三者のベンチマークがほとんどないんよなぁ

439: 名無しさん＠ピンキー (ﾜｯﾁｮｲ f2c7-yPTp) [sage] 09/22(月)05:29 ID:acG4VmK/0(1)
Threadripper Proやepyc買うなら24コア以上推奨
16コア以下だとCCD数の関係で、例えば8chのメモリ帯域をフルに活かせない
chが増えるほど必要なCCD数がいるはず

440: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 2f32-vRSx) [sage] 09/22(月)23:57 ID:VRVV12LZ0(1)
jukofyork/command-a-03-2025-uncut

command-aの規制解除版（lora統合かな？）
規制強かった３月版が、エロエロになったわｗ

441: 名無しさん＠ピンキー (ﾜｯﾁｮｲ f2b0-gFLl) [sage] 09/23(火)04:37 ID:zbNZTUaY0(1)
qwen3 omniは純粋に面白そう
日本語での音声入出力が可能らしい

442: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a0-vRSx) [sage] 09/23(火)07:19 ID:SJavagWE0(1)
まもなく10月だが、Windows11とかCPUとかどうでもいい

TPMなんか無くても何ら問題ない

443: 名無しさん＠ピンキー (ﾜｯﾁｮｲ fb07-XBLx) [sage] 09/23(火)07:46 ID:Wf25WXgH0(1)
Sandyおじさん「まだ・・・・・・戦える」

444: 名無しさん＠ピンキー (ﾜｯﾁｮｲ f7fb-5nxf) [] 09/23(火)09:25 ID:bSvVK3GU0(1)
Qwen明日またモデル出るっぽいな
ミニサイズで性能良かったら嬉しいが、

445: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 2249-YdyK) [] 09/23(火)14:14 ID:J/x1dQw60(1)
Qwenのリリース速度はすごいな
さすがアリババ
クラウドサービス持ってるところは強い

446: 名無しさん＠ピンキー (ﾜｯﾁｮｲ f3a4-KxXW) [sage] 09/24(水)06:28 ID:Tg8zlyhV0(1)
>>424
人類が意味と価値を見出せるパターンが文章より圧倒的に少ない
ローカルで動いてる画像生成なんて裸の女の子ドーン！みたいな似たような絵しか出ないやろ
それに自然言語で色々出せるモデルはそろそろローカルじゃキツくなってきてるころや

447(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ db8e-fBkI) [] 09/24(水)12:35 ID:PYQ60cU40(1/2)
エロ小説をLMstudio君に生成させてみたいんだけどどのモデルがいいのかね？
さすがにgptモデルじゃ無理でした…

448(1): 名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdb2-0UjF) [sage] 09/24(水)12:42 ID:l8hRk/lgd(1/2)
>>447
https://huggingface.co/huihui-ai/models?sort=downloads#repos

449: 名無しさん＠ピンキー (ﾜｯﾁｮｲ db8e-fBkI) [] 09/24(水)17:44 ID:PYQ60cU40(2/2)
>>448
おほーサンクス
家に帰ってみたら早速実装してみます

450(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ 72ec-iuAP) [sage] 09/24(水)17:49 ID:q/lnB44d0(1/3)
オナテク板で真面目なLLM性能も議論してるから教えて欲しいんやが
コード添付して色々教えてもらうのってどのモデルがええんや？
GPTやと1つのphpコードであれこれ入門的な説明してもらってるときに
「添付があるからこれ以上続行すらさせへんで」になるからLLMでやりたいんや

451(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ 7232-QENU) [sage] 09/24(水)17:54 ID:gl5NAfdi0(1/2)
codingとか名前付いてるやつかgpt-ossでいいんじゃない
でもクラウドモデルのが圧倒的にいいからgpt以外も試してみるべきかな

452(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ f26b-YdyK) [] 09/24(水)18:06 ID:EqE2QH2E0(1)
codex使えば？

453(1): 名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM92-QGC9) [sage] 09/24(水)18:08 ID:wQMvlyu2M(1)
コーディングだとclaudeが強いって前に評判だったけど最新の情勢は違うのかもしれん
ローカルだとそもそもコンテキストサイズ的に満足行く回答が得られるか怪しいと思うで

454: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 7232-QENU) [sage] 09/24(水)18:11 ID:gl5NAfdi0(2/2)
claude安定なのはそうだけど添付で怒られるってので勝手に無料想定して外してたわ

455: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 72ec-iuAP) [sage] 09/24(水)18:17 ID:q/lnB44d0(2/3)
>>451-453
サンガツ
添付が無かったらワイのつたない質問でも永遠に相手してくれるんやが
100行のPHPコードだけでもすぐに「このスレッドには添付があるからこれ以上は質問すらさせへんで」になるのが無料やから仕方ないんよな

456(1): 名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdb2-0UjF) [sage] 09/24(水)18:22 ID:l8hRk/lgd(2/2)
コーディングはエロ小説と違って間違いが一つでもあると動かないからローカルLLMではまだ厳しい
Qwen3-Coder-480B-A35B-Instructでも微妙だった

457(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f81-gFLl) [sage] 09/24(水)18:55 ID:ARkRWnqL0(1/3)
どうしてもローカルがいいならgpt-oss 20B/120Bかqwen3 coder試してみて、ダメだったらcodexとかclaude codeにいくしかないと思うで
強めのグラボ積んでるならLM StudioでGPU offloadを最大にしてflash attensionを有効にすればワイの環境ならgpt-oss 120Bで140tok/sec出てるで
長めの文章読み込めるようにcontext lengthをそのモデルの最大(gpt-ossなら13万)にするか、遅くならない程度の値にしておくんやで

458(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ bffd-pB+b) [sage] 09/24(水)18:56 ID:gh85Ul4x0(1)
コードを扱うならどこのAIでも良いので大人しく課金した方が良い
仕事でバリバリ使ってない限り20$の一番安いプランで、
チャットでもCLIでもまず制限には当たらない

459: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f81-gFLl) [sage] 09/24(水)18:56 ID:ARkRWnqL0(2/3)
↑gpt-oss 20Bで140tok/sec出てるでの間違いや
120Bで140tok/sec出るモンスターPCほしいわ

460: 名無しさん＠ピンキー (ﾜｯﾁｮｲ d2bb-gFLl) [sage] 09/24(水)18:58 ID:/Sudpaw60(1)
ai studioでいいのでは？
あそこ制限ないぞ

461: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 72ec-iuAP) [sage] 09/24(水)19:03 ID:q/lnB44d0(3/3)
>>456-458
それでご飯食べてるわけではなくて初学者で
まれにファイル添付して全体的な質問をする時があるくらいやからその時はローカルでと思ったんやが
codeがついているモデルで添付OKなモデルでやってみるやで

462: 名無しさん＠ピンキー (ﾜｯﾁｮｲ bf06-/zn3) [] 09/24(水)19:09 ID:w2HZ4JhN0(1)
動かなかったら直せばええ

463: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 9320-VUrW) [sage] 09/24(水)19:44 ID:ZtGaaXzi0(1/2)
試行錯誤の時間のほうがコスト高い
ノールックでChatGPT契約して

464: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 9320-VUrW) [sage] 09/24(水)19:47 ID:ZtGaaXzi0(2/2)
なんも考えずにChatGPT契約して使い倒してから続けるか止めるか考えればいい
ローカルLLMは日本語でやりとりすることによる性能ロスが大きすぎるから殆どの用途で使い物にならん
英語ネイティブですというなら違う可能性はあるけど

465: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f81-gFLl) [sage] 09/24(水)22:16 ID:ARkRWnqL0(3/3)
ChatGPTの契約はもう必須と捉えてるからコストとして考えてないわ

466: 名無しさん＠ピンキー (ﾜｯﾁｮｲ c74a-QGC9) [sage] 09/25(木)00:14 ID:s66GNXV70(1)
確かにガソリン代みたいなとこはある

467: 名無しさん＠ピンキー (ﾜｯﾁｮｲ f7b6-/zn3) [sage] 09/25(木)06:53 ID:Z3kA1xHf0(1)
ワイも必須になりつつある
毎日の食事カロリー計算から運動のリマインダー、
あとマイコンボードでのデバイス制作とめちゃ助かってる
（肝心な部分はredditの海外ニキらのコメントだが）

でもローカルLLMはロマンはあるンゴね

468(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ be05-AIfB) [sage] 09/25(木)21:49 ID:d920FlUw0(1)
日本語が下手なので使いこなすのも何気にエネルギー要るのはワイだけか

469: 名無しさん＠ピンキー (JP 0H6e-MM1T) [sage] 09/25(木)21:55 ID:apj1zCrgH(1)
カロリーは脳ミソでもかなり消費するはずだから
エネルギーが要るというのは間違ってはないと思う
お堅い文面でもLLMにぶち込むモノでも頭はけっこう使うし

470: 名無しさん＠ピンキー (ﾜｯﾁｮｲ f3f5-h6sN) [sage] 09/25(木)21:55 ID:XUPSdIh90(1)
>>468
プロンプトの書き方も使いこなし方もAIに聞いてお勉強するんや

471: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 4fa3-mwor) [] 09/26(金)09:41 ID:D5GOUI0s0(1)
【朗報】さくらインターネットのAI、「さくらのAI Engine」の一般提供開始！！国策AIがついに動き出す！ [673057929]
2chｽﾚ:poverty
　
これ一から自前で作ってる国産？

472: 名無しさん＠ピンキー (ﾜｯﾁｮｲ e6c8-vRSx) [sage] 09/26(金)10:03 ID:3oIDKL/g0(1)
ただのインフラ屋のさくらがそんなもん自前で出来るわけないやん

473: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a0-vRSx) [sage] 09/26(金)10:28 ID:LgalYGqC0(1/3)
大体国産のりんなとかクソだし

474: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 7232-QENU) [sage] 09/26(金)10:40 ID:ew8oCKRT0(1)
さくら最近gpu鯖そこそこ用意してたし良し悪し問わなきゃモデル作るのも難しくはないから
オリジナルの可能性もなくはないな

475: 名無しさん＠ピンキー (ﾜｯﾁｮｲ bf37-pB+b) [sage] 09/26(金)10:43 ID:3MPCfvV80(1)
https://www.sakura.ad.jp/aipf/ai-engine/

OSSのモデルをAPIから使えるようにしましたレベルじゃね？

476: 名無しさん＠ピンキー (ﾜｯﾁｮｲ bec4-fBkI) [sage] 09/26(金)11:12 ID:ooNX2+Db0(1)
スレのソースにすら自作なんて書いてないやん

477: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a0-vRSx) [sage] 09/26(金)12:01 ID:LgalYGqC0(2/3)
Qwen3だって書いてるやん
https://x.com/ogasahara/status/1970779595516637430

478(1): 名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd92-0UjF) [sage] 09/26(金)16:22 ID:+QY55fpBd(1/3)
QwenとかのMoEモデルを誰か日本語ファインチューニングしてくれないかな
主力モデルが日本語を捨ててるからレスポンスに謎言語が混ざりすぎる

479(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ f227-YdyK) [] 09/26(金)17:23 ID:f/GM/BxQ0(1/2)
>>478
数ヶ月前までRinnaがやってたけどな最近は更新されてないか

480: 名無しさん＠ピンキー (ﾄﾞｺｸﾞﾛ MMca-YdyK) [] 09/26(金)17:23 ID:vox1d4RkM(1)
日本語はGLMが優秀だぞ

481: 名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd92-0UjF) [sage] 09/26(金)17:30 ID:+QY55fpBd(2/3)
>>479
rinnaはdenseモデルしかFT実績がないな
MoEのFTは海外ではチラホラ見かけるが技術的に壁があるのかも知らん

482(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a0-vRSx) [sage] 09/26(金)20:36 ID:LgalYGqC0(3/3)
クソ真面目な話をすると仕事で売上予測とかやりたい場合にLLMのモデルって使うの？

483: 名無しさん＠ピンキー (ﾜｯﾁｮｲ efd8-gFLl) [] 09/26(金)20:43 ID:3B4su3U20(1)
予測はLLM使わんでも線形回帰でええやん

484: 名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd92-0UjF) [sage] 09/26(金)20:46 ID:+QY55fpBd(3/3)
>>482
アフィカス記事を量産するためにLLMが使われている

485: 名無しさん＠ピンキー (ﾜｯﾁｮｲ bf38-/zn3) [] 09/26(金)20:47 ID:EP60vsIo0(1)
詐欺メールもだな

486: 名無しさん＠ピンキー (ﾜｯﾁｮｲ be1c-XBLx) [sage] 09/26(金)21:31 ID:ZBmkLOHp0(1/2)
予測はboosting木とかの古典的機械学習とかDLのクラス分類とかじゃろ
メディア通すとまとめてAIやが

487: 名無しさん＠ピンキー (ｵｯﾍﾟｹ Srd7-l4qr) [] 09/26(金)22:16 ID:UNdtCLMYr(1)
ROCm 6.4.4リリースでようやっとRyzen AI Max+ 395.がサポートされたみたいね
これからローカルLLMて進展が出てくるの期待だわ

488: 名無しさん＠ピンキー (ﾜｯﾁｮｲ f227-YdyK) [] 09/26(金)23:14 ID:f/GM/BxQ0(2/2)
llama.cppでもうすぐQwen3 Nextがサポートされそう

489: 名無しさん＠ピンキー (ﾜｯﾁｮｲ c78f-gFLl) [sage] 09/26(金)23:17 ID:Q0uc5QEE0(1)
朗報やね。っていうか対応させるまで数ヶ月かかりそうとか言ってたはずなのに、技術者さんたち凄すぎんか

490: 名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a9-HCKT) [sage] 09/26(金)23:22 ID:IPM/731m0(1)
nextの時点でだいぶ性能いいから3.5楽しみなんだよなぁ
そういう意味でnext対応しといてくれると3.5出たときに対応スムーズに行きそうやね

491: 名無しさん＠ピンキー (ﾜｯﾁｮｲ a36a-3wxO) [] 09/26(金)23:31 ID:Gt003hUg0(1)
jpxがなんか予測に使ってたな

492: 名無しさん＠ピンキー (ﾜｯﾁｮｲ be9f-XBLx) [sage] 09/26(金)23:35 ID:ZBmkLOHp0(2/2)
Qwenのthinkingモデルはローカルでこれ使っていいのかって性能で驚くけど長考癖が不満やなあ

493(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b0f-mOlO) [sage] 09/27(土)00:43 ID:FxwLTfep0(1)
日本語エロ性能の更新が無くてすっかり真面目スレになってしまっているのが悲しい😭

494: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fc3-dRFZ) [sage] 09/27(土)02:48 ID:siCyTYpR0(1)
https://github.com/MoonshotAI/K2-Vendor-Verfier
kimi K2がホスティングサービス毎のツール呼び出し成功率測ってたけどfp8とfp4で30%以上成功率下がるらしい
もしかして世間で言われてる以上に4bit量子化による性能低下って大きいのか?

495: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-k09M) [sage] 09/27(土)07:51 ID:0L5nCDDl0(1)
4bitは結構性能下がるよ
あとtool coolingはコーディングみたいに1文字間違ったら動かない事が多いから量子化には元々厳しいと思うし
だからはじめから4bitしか公開されてないgptossがあの性能出てるのがすごい

496: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b8a-mDdK) [] 09/27(土)14:01 ID:wwGJW0Qw0(1)
冷やすの？

497: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 8bc7-2yqi) [] 09/27(土)23:25 ID:LUN7vlE20(1)
>>450
とりあえずclaudeのmaxプランに加入するとええで
レートリミット限界まで使わんと損した気になるから開発も学習も捗る
mcpがチャット版でも使えるのも大きい
特に今見てるブラウザのタブを読めるようにするmcpを使うと「今見てるこれって〜」みたいな質問ができるからドキュメント漁りがメッチャ楽
まぁ何より頭がええんやけどな
よく言われるコンテキスト圧縮問題もserena使えばそんなに問題にならん

498: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 8b85-ah/d) [] 09/28(日)09:50 ID:nL1wk7TI0(1)
>>493
新参者の面白AI出てきてないからしゃあない

499: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f7a-wHYv) [sage] 09/28(日)11:51 ID:LtpdYNKa0(1)
なるほど

500: 名無しさん＠ピンキー (ﾜｯﾁｮｲ ef27-dUNe) [sage] 09/28(日)12:57 ID:6EZ3OtYY0(1)
初期はChatGPTがエロ厳しいからローカルでみたいなモチベーションあったけど
今は色んなサービス増えて規制ゆるくなってるし何なら無料枠でも結構遊べるからな

501(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fd0-mDdK) [] 09/28(日)20:50 ID:RcruL3Dv0(1)
無知ですいません。おしえてください。EasyNovelAssistantを導入しライトノベルを書かせたいのですが、APIなどで料金が発生するのでしょうか？

502(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b00-mOlO) [sage] 09/28(日)22:31 ID:Ic/L9Cef0(1)
>>501
ローカル=自分のPC内で全て完結するシステムなので料金は一切発生しないよ
ただしPCの性能が求められるので使ってるものによってはPCパーツ交換代がかかる

503: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fd0-mDdK) [] 09/29(月)00:02 ID:W6AEx9QY0(1)
>>502
返答ありがとうございます。2060spなので不安ですが試してみます

504: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f2a-83xT) [sage] 09/29(月)11:07 ID:fgNrT5iD0(1)
中華がCUDA互換のVRAM112GBグラボ出すらしいがこれいくらになるんだ？

505(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ 8b64-yVYr) [sage] 09/29(月)18:35 ID:o2F/d5is0(1/2)
Qwen3-Next-80B-A3B-Instruct、これ総量160Gくらいあるやんけ
ワイの24Gなどアリンコやった
試せてるニキらはもう選ばれし者すぎなんよ

506(1): 名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd3f-H6CU) [sage] 09/29(月)19:17 ID:Rnc8/N8gd(1)
>>505
ツールのGGUF対応を待ってメインメモリへのオフロードを前提にすれば必要なメモリはだいぶ減るで

ワイのメモリ128GB&VRAM24GB環境でもいつかは動くと信じて口開けて待っとるで

507: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 8b64-yVYr) [sage] 09/29(月)19:37 ID:o2F/d5is0(2/2)
>>506
サンガツやで
ワイDDR4で上限いっぱい128G搭載済みなんやが総量が足らンゴ
ニキと同じく待つことにする……

508: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b8f-L54C) [sage] 09/29(月)19:53 ID:Mrcfa+Ng0(1)
ほとんどの人はツール側が対応してくれるの待ちやで。128GBもあればQ8_0でも動かせるやろ
ワイ64GB環境やと高望みしてQ6、実際問題Q4がええとこやろなぁ……

509: 名無しさん＠ピンキー (JP 0H6f-L54C) [] 09/29(月)21:22 ID:Pe/CSr+TH(1)
動画生成用に増設したDRAMがここでも役に立つとは嬉しいンゴ

510: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b00-3WT3) [] 09/29(月)23:28 ID:OuKsRs/I0(1)
推論中にタスクマネージャ見てるとCPUもGPUも使用率そこまで上がらないんですね
読み込むのに容量が必要なだけで推論自体はそこまでリソース使わないって認識で合ってますか？

511: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 6bdc-foQI) [sage] 09/29(月)23:37 ID:euHBUb+W0(1)
LLMは計算量そのものよりもとにかく高速なメモリアクセスがいるって感じ

512: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fba-4W0+) [] 09/29(月)23:46 ID:7xZP8KOK0(1)
やってる計算はすげー単純だからなLLM

513(2): 名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b00-3WT3) [] 09/30(火)01:14 ID:z5KqAsk90(1)
command-a-03-2025とqwen3-235b-a22b
近いサイズまで量子化してあるやつを読み込んで推論したら
command-aの方は0.8t/sぐらいなのに
qwen3は5.0t/s出るんですけど
なんでこんなに差があってqwen3の方は早いんですか？
LMstudioでやってます、ロード時のパラメータでcommand-aには無いもの（エキスパート数とか）がqwen3にはありますがこれが影響してるのでしょうか
ローカルLLMに最近手を出したにわかですがご教示お願いします🙏

514: 名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd3f-H6CU) [sage] 09/30(火)01:24 ID:tCAkB5and(1)
>>513
LLMに聞け

515: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f32-ypyi) [sage] 09/30(火)03:48 ID:qQvZqTY80(1)
gpuが上がりきらないのは無茶なモデルサイズとかでcpu-gpu間の転送やらメモリ速度やらのボトルネック

516: 名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-dUNe) [sage] 09/30(火)13:04 ID:9yGzL4/o0(1)
>>513
モデル名に答え書いてある
Qwenの方は"a22b"だから、計算量は22b

上下前次 1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.029s