なんJLLM部避難所 ★9

なんJLLM部避難所 ★9 (503ﾚｽ)
上下前次1-新
抽出解除必死ﾁｪｯｶｰ(本家) (べ) 自ID ﾚｽ栞あぼーん

ﾘﾛｰﾄﾞ規制です｡10分ほどで解除するので､他のﾌﾞﾗｳｻﾞへ避難してください｡

163(1): 名無しさん＠ピンキー (ﾜｯﾁｮｲ aac7-19mR) [sage] 09/06(土)09:09 ID:vrI8nwc30(1/3)
>>145
LM StudioでInternVL3.5動かしてみた
MoEなので、メモリがあれば動くな
小説書かせてみたけど、英語やハングルが混じることがあるし、日本語が怪しいなあ
このモデル優秀みたいだけど、小説には向いてないんかね

166: 名無しさん＠ピンキー (ﾜｯﾁｮｲ aac7-19mR) [sage] 09/06(土)13:39 ID:vrI8nwc30(2/3)
>>164
画像認識は飛びっきりという訳じゃないけど、いい感じよ
文字認識はそこそこいけてる感じ
あとでレポするわ

168(2): 名無しさん＠ピンキー (ﾜｯﾁｮｲ aac7-19mR) [sage] 09/06(土)19:48 ID:vrI8nwc30(3/3)
ジブリのフリー素材を元にInternVL3.5の画像認識してみた。
ついでに別のモデルと比較してみた。

比較対照画像
https://i.imgur.com/qsieYr7.jpeg

プロンプト
あなたは画像解析エンジニアです。
被写体、物体、文字（OCR）、レイアウト、リスク（個人情報・著作権）、
推論（何が起きているか）を日本語で返してください。

画像解析レポート比較（InternVL3.5 / GLM-4.5V / ChatGPT-5）
https://rentry.org/gb3zddft

使用したモデル
InternVL3.5 Q5_K_M(166.9GB)
GLM-4.5V GLM-4.5V AWQ-4bit(56.1GB)
ChatGPT-5

総合比較所見
InternVL3.5：全体像を捉えるが、OCRで誤認（「釧路」→「金路」）。記述は簡潔。
GLM-4.5V：服装や小物を非常に細かく描写。OCR精度が高く「釧路」を正しく認識。
ChatGPT-5：人物の感情（慌てている・落ち着いている）など解釈を加えた推論が強み。

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.024s