麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 編程 > Python > 正文

使用50行Python代碼從零開始實現一個AI平衡小游戲

2020-02-15 23:46:49
字體:
來源:轉載
供稿:網友

 

集智導讀:

本文會為大家展示機器學習專家 Mike Shi 如何用 50 行 Python 代碼創建一個 AI,使用增強學習技術,玩耍一個保持桿子平衡的小游戲。所用環境為標準的 OpenAI Gym,只使用 Numpy 來創建 agent。

各位看官好,我(作者 Mike Shi——譯者注)將在本文教大家如何用 50 行 Python 代碼,教會 AI 玩一個簡單的平衡游戲。我們會用到標準的 OpenAI Gym 作為測試環境,僅用 Numpy 創建我們的 AI,別的不用。

這個小游戲就是經典的 Cart Pole 任務,它是 OpenAI Gym 中一個經典的傳統增強學習任務。游戲玩法如下方動圖所示,就是盡力保持這根桿子始終豎直向上。桿子由于重力原因,會出現傾斜,到了一定程度就會倒下,AI 的任務就是在此時向左或向右移動桿子,不讓它倒下。這就跟我們在手指尖上樹立一支鉛筆玩“金雞獨立”一樣,只不過我們這里是個一維的簡單游戲(但是還是很有挑戰性的)。

你可能好奇最終實現怎樣的結果,可以在repl.it 上查看 demo:

 https:// repl.it/@MikeShi42/Cart Pole 

增強學習速覽

如果這是你第一次接觸機器學習或增強學習,別擔心,我下面介紹一些基礎知識,這樣你就可以了解本文使用的術語了:)。如果已經熟悉了,大可跳過這部分,直接看看編寫 AI 的部分。

增強學習(RL)是一個研究領域:教 agent(我們的算法/機器)執行某些任務/動作,但明確告訴它該怎樣做。把它想象成一個嬰兒,以隨機的方式伸腿,如果寶寶偶然間走運站立起來,我們會給它一個糖果作為獎勵。同樣,Agent 的目標就是在其生命周期內得到最多的獎勵,而且我們會根據是否和要完成的任務相符來決定獎勵的類型。對于嬰兒站立的例子,站立時獎勵 1,否則為0。

增強學習 agent 的一個著名例子是 AlphaGo,其中的 agent 已經學會了如何玩圍棋以最大化其獎勵(贏得游戲)。在本教程中,我們將創建一個 agent,或者說 AI,可以向左或向右移動小車,讓桿子保持平衡。

狀態

狀態是目前游戲的樣子。我們通常處理游戲的多種數字表示。在乒乓球比賽中,它可能是每個球拍的垂直位置和 x,y 坐標和球的速度。在我們這個游戲中,我們的狀態由 4 個數字組成:底部小車的位置,小車的速度,桿的位置(以角度表示)和桿的角速度。這 4 個數字都是給定的數組(或向量)。這個很重要,理解狀態是一個數字數組意味著我們可以對它進行一些數學運算來決定我們根據狀態采取什么行動。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 综合网日日天干夜夜久久 | 永久免费av在线 | 欧美日韩免费一区 | 欧美 videos粗暴 | 国产pron| 亚洲欧美不卡视频 | 韩国一级免费视频 | 国产精品91在线 | 国产羞羞视频在线观看 | 日本娇小videos高潮 | 日日狠狠久久偷偷四色综合免费 | 91嫩草丨国产丨精品入口 | 日日草日日干 | 国产电影精品久久 | a免费视频| 狼人狠狠干 | 精品爱爱 | 黄视频免费在线观看 | 欧美视频国产 | 91久久精品一区二区 | 成人毛片网站 | 成人免费网站在线观看视频 | 97人人草 | 日韩视频1 | 精品国产一区三区 | 色婷婷a v | 久久久久国产成人精品亚洲午夜 | 精品国产一区二区亚洲人成毛片 | 12av电影 | 国产精品成人久久久久a级 av电影在线免费 | 久久精品国产99国产精品亚洲 | 91成人久久| 青青草成人免费视频在线 | 成人福利免费在线观看 | 午夜精品福利视频 | 日本aⅴ在线 | 久久草草亚洲蜜桃臀 | 免费激情视频网站 | wwwxxx免费视频 | 国产在线观看免费视频软件 | 成人午夜视频免费看 |