なんJLLM部 避難所 ★9 (503レス)
なんJLLM部 避難所 ★9 http://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
リロード規制
です。10分ほどで解除するので、
他のブラウザ
へ避難してください。
7: 名無しさん@ピンキー (ワッチョイ fec0-xVEZ) [] 2025/08/23(土) 13:54:14.74 ID:5lw7ZcNF0 ●多くのモデルには「base」と「instruct」の2種類があるで baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで ⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで ⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで 量子化モデルにはGGUFやGPTQなどの種類があるで 基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで 量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで ⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで 画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで ●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで 例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで 基本的にはBが大きいほど性能が高いで http://mercury.bbspink.com/test/read.cgi/onatech/1755924738/7
70: 名無しさん@ピンキー (ワッチョイ c22a-TnY8) [] 2025/08/28(木) 14:27:10.74 ID:MOCeri5p0 >>69 Q5_k_m.ggufが00001〜00006まであるんだけど、1と2だけを結合すればいいの? http://mercury.bbspink.com/test/read.cgi/onatech/1755924738/70
149: 名無しさん@ピンキー (ワッチョイ ff3d-ZP/9) [] 2025/09/05(金) 22:45:39.74 ID:pJWH9cgL0 >>146 ConnectX7搭載されてるのか!? AIではなくファイルサーバーとして使いたくなってくるな http://mercury.bbspink.com/test/read.cgi/onatech/1755924738/149
182: 名無しさん@ピンキー (ワッチョイ aa66-o23O) [sage] 2025/09/08(月) 16:37:51.74 ID:zBwTMHsf0 BitNetちゃんはどうなったんですか? http://mercury.bbspink.com/test/read.cgi/onatech/1755924738/182
260: 名無しさん@ピンキー (ワッチョイ 7ea9-sTI1) [sage] 2025/09/12(金) 20:59:11.74 ID:bbVyCkTC0 qwen3-nextは名前に反してゼロから設計しているからかGGUFもすぐ出てこんね この辺技術もってそうなunslothにまずは期待したいところやが http://mercury.bbspink.com/test/read.cgi/onatech/1755924738/260
270: 名無しさん@ピンキー (ワッチョイ bfec-jGdL) [sage] 2025/09/13(土) 07:51:53.74 ID:joLGzCV70 LM Studioでmagnum-v4 9.5GBモデルなんだけどmistralよりちょっと遅いので タスクマネージャーを見ると 4070のVRAMで、オフロード40/40で12GB中 10GBでcudaが35%でcpuが85%ぐらい 1秒で5文字ぐらいでポロポロ出る感じ mistralは高速でcudaが95%、cpuが15%ぐらいとこれはモデルの差? 完全にGPUのVRAMに入っているとmistralぐらい速度が出るかなと思ったけど cpuにかなり負荷をかけて遅く不思議なのでもし何か改善策があれば教えて欲しいです http://mercury.bbspink.com/test/read.cgi/onatech/1755924738/270
356: 名無しさん@ピンキー (ワッチョイ bfde-RQ5/) [sage] 2025/09/17(水) 10:26:08.74 ID:BlbfS2ub0 ググれksもID変える方法も知ってるし初心者のフリしてんじゃん 絵文字きも http://mercury.bbspink.com/test/read.cgi/onatech/1755924738/356
379: 名無しさん@ピンキー (ワッチョイ 93fb-rla9) [sage] 2025/09/18(木) 10:33:15.74 ID:WYOqUmlv0 Llamaを色んなシステムに導入させてライセンスビジネスしたかったんだろうけど ライセンスが自己中すぎる上に他のオープンなモデルに性能で負けてるから見向きもされない 自社のサービスで活用する予定も無いからいつ損切りするかって話が出てると思う iPhoneに載せたいアップルであっても自社開発を諦めたって報道あるし LLM開発って金食い虫なんやろな http://mercury.bbspink.com/test/read.cgi/onatech/1755924738/379
420: 名無しさん@ピンキー (ワッチョイ c320-vFl8) [sage] 2025/09/19(金) 20:43:05.74 ID:86mQsRdB0 ふつうのひとがローカルLLM使うメリットって全くない 個人が持てる程度のPCで動くLLMなら、open routerで無料か無料に等しいコストで使えてしまうので http://mercury.bbspink.com/test/read.cgi/onatech/1755924738/420
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.026s