[過去ログ] 【統計分析】機械学習・データマイニング29 (1002レス)
前次1-
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
97
(2): デフォルトの名無しさん (ワッチョイ 0502-biH0 [118.154.96.7]) [sage] 2020/09/05(土) 10:16:29.80 ID:Az39CCC60(1/8) AAS
GeForce RTX 3090はFP32性能が36TFLOPSか、すげーな
しかしせっかくTensorCoreが載ってるのに、これって学習には使えないのね
FP16しか対応してないからかな? 確かにFP16じゃBPがうまく進まなそうだが
性能半分でいいから、FP32対応してくれればいいのに
せっかくの汎用マトリクス演算ユニットなのにもったいない
104
(1): デフォルトの名無しさん (ワッチョイ 0502-biH0 [118.154.96.7]) [sage] 2020/09/05(土) 12:26:15.00 ID:Az39CCC60(2/8) AAS
nVidiaのTensorCoreはFP32には対応していない
いちおう、TensorflowなんかでもFP16設定にすればTensorCoreも学習に使ってくれるみたいね
もっとも試してみた人のブログとか見てるとやっぱFP16じゃ精度が悲惨なことになるらしい
外部リンク:qiita.com
そういう意味じゃやっぱ推論専用という捉え方でいいんじゃないかな
71Tflopsとか夢があるけどなあ
105: デフォルトの名無しさん (ワッチョイ 0502-biH0 [118.154.96.7]) [sage] 2020/09/05(土) 12:45:27.03 ID:Az39CCC60(3/8) AAS
× nVidiaのTensorCoreはFP32には対応していない
〇 GTX/RTXのTensorCoreはFP32には対応していない

A100とかだとFP32/64も対応してる。学習アクセラレータなんだからそりゃそうだ
グラボに載ってるTensorCoreは対応してなくて推論専用って話ね
107: デフォルトの名無しさん (ワッチョイ 0502-biH0 [118.154.96.7]) [] 2020/09/05(土) 13:09:00.94 ID:Az39CCC60(4/8) AAS
RTX 30シリーズはSSDから直接グラフィックデータを読み込めるらしいが
たぶんDLの学習データ転送にも使えるよね
flopsもメモリ帯域も上がってるしDL用途にも別次元の速さが実感できそうだ
109
(1): デフォルトの名無しさん (ワッチョイ 0502-biH0 [118.154.96.7]) [sage] 2020/09/05(土) 15:57:37.62 ID:Az39CCC60(5/8) AAS
>>108
108(1): デフォルトの名無しさん (ワッチョイ 05da-n8ne [118.19.223.94]) [sage] 2020/09/05(土) 15:27:22.54 ID:71ZWev/Z0(1/2) AAS
>>103
例えばどれ?
103じゃないが、↓によると238Tensor-TFLOPSとなってるな
外部リンク[html]:pc.watch.impress.co.jp
Tensor-TFLOPSってのがよくわからんがFP16の性能かな?

FP16までしか対応してないソースは↓
外部リンク:www.nvidia.com
「サポートされている Tensor コア精度」に書いてある
Turingまでしか記載がないが、AmpereもFP32に対応したなんて発表はないし、
推論専用という位置づけは変わらないので一緒だろう
111: デフォルトの名無しさん (ワッチョイ 0502-biH0 [118.154.96.7]) [sage] 2020/09/05(土) 16:33:54.61 ID:Az39CCC60(6/8) AAS
Tensor-TFlopsについて自己レス
Tflopsは普通ベクトル演算性能を指すが、TensorCoreは固定サイズのマトリクス演算なので
こういう書き方をしてるらしい
ピーク性能は238Tflopsなんだろうけど(FP16)、計算粒度が大きいんでよほどタスクが都合のいい
サイズでないと無駄が大きくなってしまう、と。
113: デフォルトの名無しさん (ワッチョイ 0502-biH0 [118.154.96.7]) [sage] 2020/09/05(土) 17:09:43.08 ID:Az39CCC60(7/8) AAS
17万円のThreadripper 3960Xで5Tflops
11万円のRTX 3080で30Tflops

DL専用ならやっぱRTXでは
まあCPUの汎用性も捨てがたいけど
昔よりCPUの並列化が進んで差が縮まってるから悩むな
114: デフォルトの名無しさん (ワッチョイ 0502-biH0 [118.154.96.7]) [sage] 2020/09/05(土) 18:13:07.70 ID:Az39CCC60(8/8) AAS
[RTX3090]
CUDA Core : 35.7Tflops
TensorCore : 285Tflops
RT Core : 69Tflops

これだけポテンシャルがあるのにDLで使えるのはCUDAの35.7Tflopsだけ
なんか虚しくなってくるな
ゲーム用に売れてるおかげで安く買えるわけだから仕方ないと思わんといかんのか
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.030s