ゲーマーLV90 人工知能編 (25レス)
ゲーマーLV90 人工知能編 http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
必死チェッカー(本家)
(べ)
自ID
レス栞
あぼーん
1: ゲーマーLV90 ◆YYqXz1t7YA [] 2018/05/03(木) 17:27:04.30 ID:aC7LfhT5 皆さんお久しぶりです 第三弾は人工知能 ゲームに使えるかもしれない単純な人工知能について良さそうな構想を思いついたのでぼちぼちやっていこうと思います http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/1
2: ゲーマーLV90 ◆YYqXz1t7YA [sage] 2018/05/03(木) 17:31:54.94 ID:aC7LfhT5 簡単に言えば 学習データの作成後 学習データを使用し 行動 学習データとモードで行動に偏りを 表が完成すれば目的行動を取らせられる こんな感じの人工知能ですね それでは要素書いていきます http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/2
3: ゲーマーLV90 ◆YYqXz1t7YA [sage] 2018/05/03(木) 17:38:18.36 ID:aC7LfhT5 状態=報酬 01=07 02=08 03=09 04=10 05=11 06=12 07=13 08=14 09=15 10=16 11=17 12=18 13=19 行動=効果 01=+1 02=+2 03=+3 04=+4 05=+5 06=+6 07=−1 08=−2 09=−3 10=−4 11=−5 12=−6 13=±0 http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/3
4: ゲーマーLV90 ◆YYqXz1t7YA [sage] 2018/05/03(木) 17:39:00.19 ID:aC7LfhT5 報酬=報酬量 01=−500 02=−500 03=−500 04=−500 05=−500 06=−500 07=−3 08=−2 09=−1 10=±0 11=+1 12=+2 13=+3 14=+2 15=+1 16=±0 17=−1 18=−2 19=−3 20=−500 21=−500 22=−500 23=−500 24=−500 25=−500 http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/4
5: ゲーマーLV90 ◆YYqXz1t7YA [sage] 2018/05/03(木) 17:40:32.43 ID:aC7LfhT5 状態 行動 効果 報酬 報酬量? 00 00 000 01 □ −500 00 00 000 02 □ −500 00 00 000 03 □ −500 00 00 000 04 □ −500 00 00 000 05 □ −500 00 00 000 06 □ −500 07 □ 01 □ +1 07 □ −3 08 □ 02 □ +2 08 □ −2 09 □ 03 □ +3 09 □ −1 10 □ 04 □ +4 10 □ ±0 11 □ 05 □ +5 11 □ +1 12 □ 06 □ +6 12 ■ +2 13 ■ 07 ■ −1 13 □ +3 14 □ 08 □ −2 14 □ +2 15 □ 09 □ −3 15 □ +1 16 □ 10 □ −4 16 □ ±0 17 □ 11 □ −5 17 □ −1 18 □ 12 □ −6 18 □ −2 19 □ 13 □ ±0 19 □ −3 00 00 000 20 □ −500 00 00 000 21 □ −500 00 00 000 22 □ −500 00 00 000 23 □ −500 00 00 000 24 □ −500 00 00 000 25 □ −500 http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/5
6: ゲーマーLV90 ◆YYqXz1t7YA [sage] 2018/05/03(木) 17:42:32.91 ID:aC7LfhT5 横=行動 縦=状態 ?=報酬 01020304050607080910111213 07????????????? 08????????????? 09????????????? 10????????????? 11????????????? 12????????????? 13????????????? 14????????????? 15????????????? 16????????????? 17????????????? 18????????????? 19????????????? http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/6
7: ゲーマーLV90 ◆YYqXz1t7YA [sage] 2018/05/03(木) 17:44:02.68 ID:aC7LfhT5 ずれてる(笑) 01 02 03 04 05 06 07 08 09 10 11 12 13 07 08 09 10 11 12 13 06 05 04 03 02 01 07 08 09 10 11 12 13 14 07 06 05 04 03 02 08 09 10 11 12 13 14 15 08 07 06 05 04 03 09 10 11 12 13 14 15 16 09 08 07 06 05 04 10 11 12 13 14 15 16 17 10 09 08 07 06 05 11 12 13 14 15 16 17 18 11 10 09 08 07 06 12 13 14 15 16 17 18 19 12 11 10 09 08 07 13 14 15 16 17 18 19 20 13 12 11 10 09 08 14 15 16 17 18 19 20 21 14 13 12 11 10 09 15 16 17 18 19 20 21 22 15 14 13 12 11 10 16 17 18 19 20 21 22 23 16 15 14 13 12 11 17 18 19 20 21 22 23 24 17 16 15 14 13 12 18 19 20 21 22 23 24 25 18 17 16 15 14 13 19 http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/7
8: ゲーマーLV90 ◆YYqXz1t7YA [sage] 2018/05/03(木) 17:52:34.25 ID:aC7LfhT5 説明が失敗しそうな予感がする 状態+行動=報酬 状態 行動 効果 報酬 報酬量 状態13 行動13 効果13 報酬25 報酬量8 記憶 状態 行動 報酬量? 回数 上限 状態 認識 参照 行動 報酬 記憶 状態nの時に行動nをしたら報酬nが得られた http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/8
9: ゲーマーLV90 ◆YYqXz1t7YA [sage] 2018/05/03(木) 17:53:29.36 ID:aC7LfhT5 モード 学習データ作成モード 状態に対して学習データを参照して 回数が少ない行動を取る 回数が同じ場合は 行動変数小さい順 や 行動01から順に など 学習データ使用モード 状態に対して学習データを参照して 報酬が一番高く確率が高い行動を選択 確率が同じ場合新しいのを選択 や スコアがn点になるように行動 n点になったらその点数を維持 など http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/9
10: ゲーマーLV90 ◆YYqXz1t7YA [sage] 2018/05/03(木) 17:54:23.34 ID:aC7LfhT5 記憶上限 報酬複数や報酬変化に対応 など 上限超えた記憶を消すのが重要 上限少ない方が適応が速い 状態 行動 結果 回数=% 上限 回数=報酬を得た回数 古いのから消えていく 例 報酬複数 状態01+行動01=報酬01 50 100 状態01+行動01=報酬02 30 100 状態01+行動01=報酬03 20 100 状態+行動=報酬 の表の作成と使用 表の作成=学習 表の使用=予測 状態ランダムテーブルシャッフル 09 08 07 04 05 06 03 02 01 10 13 12 11 など 13回状態変えたらシャッフル 一応確率式でも可能だけど確率式だと学習漏れする可能性がある 100÷13=約7.69% 01から13まで各状態7.69%とかだと学習漏れの可能性 学習率 学習率100%=表の完成? 確率的な場合 表が完成しない場合もある 記憶上限も関係? http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/10
11: ゲーマーLV90 ◆YYqXz1t7YA [sage] 2018/05/03(木) 17:56:08.21 ID:aC7LfhT5 フェーズ 学習データ作成モード ざっくり モード=状態に対して学習データを参照して 回数が少ない行動を取る 回数が同じ場合は 行動変数小さい順 や 行動01から順に 状態ランダムテーブルシャッフル 状態 テーブルの1番 状態認識 モード参照 行動 報酬獲得 記憶 状態 テーブルの2番 状態認識 モード参照 行動 報酬獲得 記憶 テーブル13まで終わったら 状態ランダムテーブルシャッフル 状態 テーブルの1番 状態認識 モード参照 行動 報酬獲得 記憶 13×13=169 で表完成 フェーズ 学習データ使用モード ざっくり モード=状態に対して学習データを参照して 報酬が一番高く確率が高い行動を選択 確率が同じ場合新しいのを選択 状態nに対して作成した表の行動13を選択でモードの表現 http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/11
12: ゲーマーLV90 ◆YYqXz1t7YA [sage] 2018/05/03(木) 17:58:49.65 ID:aC7LfhT5 とりあえず要素はこんな感じです 説明なしでも伝わるか時間置いてみようと思います http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/12
14: ゲーマーLV90 ◆YYqXz1t7YA [sage] 2018/05/03(木) 19:42:11.21 ID:aC7LfhT5 >>13 状態+行動=報酬です あと>>4を見てもらえれば http://mevius.5ch.net/test/read.cgi/gamedev/1525336024/14
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.439s*