機(jī)器學(xué)習(xí)中強(qiáng)化學(xué)習(xí)是什么?人工智能機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)需要通過(guò)建立模型進(jìn)行自我學(xué)習(xí),那么學(xué)習(xí)方法有哪些呢?本篇來(lái)給大家介紹一下機(jī)器學(xué)習(xí)中的強(qiáng)化學(xué)習(xí)。如果還不了解什么是機(jī)器學(xué)習(xí)的,先瀏覽下這篇內(nèi)容:
強(qiáng)化學(xué)習(xí)是一種比較復(fù)雜的機(jī)器學(xué)習(xí)方法,強(qiáng)調(diào)系統(tǒng)與外界不斷的交互反饋,它主要是針對(duì)流程中不斷需要推理的場(chǎng)景,比如無(wú)人汽車(chē)駕駛,它更多關(guān)注性能。它是機(jī)器學(xué)習(xí)中的熱點(diǎn)學(xué)習(xí)方法。
強(qiáng)化學(xué)習(xí)主要由智能體(Agent)、環(huán)境(Environment)、狀態(tài)(State)、動(dòng)作(Action)、獎(jiǎng)勵(lì)(Reward)組成。智能體執(zhí)行了某個(gè)動(dòng)作后,環(huán)境將會(huì)轉(zhuǎn)換到一個(gè)新的狀態(tài),對(duì)于該新的狀態(tài)環(huán)境會(huì)給出獎(jiǎng)勵(lì)信號(hào)(正獎(jiǎng)勵(lì)或者負(fù)獎(jiǎng)勵(lì))。隨后,智能體根據(jù)新的狀態(tài)和環(huán)境反饋的獎(jiǎng)勵(lì),按照一定的策略執(zhí)行新的動(dòng)作。上述過(guò)程為智能體和環(huán)境通過(guò)狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)進(jìn)行交互的方式。
智能體通過(guò)強(qiáng)化學(xué)習(xí),可以知道自己在什么狀態(tài)下,應(yīng)該采取什么樣的動(dòng)作使得自身獲得最大獎(jiǎng)勵(lì)。由于智能體與環(huán)境的交互方式與人類(lèi)與環(huán)境的交互方式類(lèi)似,可以認(rèn)為強(qiáng)化學(xué)習(xí)是一套通用的學(xué)習(xí)框架,可用來(lái)解決通用人工智能的問(wèn)題。因此強(qiáng)化學(xué)習(xí)也被稱為通用人工智能的機(jī)器學(xué)習(xí)方法。
組成元素
智能體
強(qiáng)化學(xué)習(xí)的本體,作為學(xué)習(xí)者或者決策者。
環(huán)境
強(qiáng)化學(xué)習(xí)智能體以外的一切,主要由狀態(tài)集合組成。
狀態(tài)
一個(gè)表示環(huán)境的數(shù)據(jù),狀態(tài)集則是環(huán)境中所有可能的狀態(tài)。
動(dòng)作
智能體可以做出的動(dòng)作,動(dòng)作集則是智能體可以做出的所有動(dòng)作。
獎(jiǎng)勵(lì)
智能體在執(zhí)行一個(gè)動(dòng)作后,獲得的正/負(fù)反饋信號(hào),獎(jiǎng)勵(lì)集則是智能體可以獲得的所有反饋信息。
策略
強(qiáng)化學(xué)習(xí)是從環(huán)境狀態(tài)到動(dòng)作的映射學(xué)習(xí),稱該映射關(guān)系為策略。通俗的理解,即智能體如何選擇動(dòng)作的思考過(guò)程稱為策略。
目標(biāo)
智能體自動(dòng)尋找在連續(xù)時(shí)間序列里的最優(yōu)策略,而最優(yōu)策略通常指最大化長(zhǎng)期累積獎(jiǎng)勵(lì)。
因此,強(qiáng)化學(xué)習(xí)實(shí)際上是智能體在與環(huán)境進(jìn)行交互的過(guò)程中,學(xué)會(huì)最佳決策序列。
基本框架
強(qiáng)化學(xué)習(xí)主要由智能體和環(huán)境組成。由于智能體與環(huán)境的交互方式與生物跟環(huán)境的交互方式類(lèi)似,因此可以認(rèn)為強(qiáng)化學(xué)習(xí)是一套通用的學(xué)習(xí)框架,是通用人工智能算法的未來(lái)。
免費(fèi)分享一些我整理的人工智能學(xué)習(xí)資料給大家,整理了很久,非常全面。包括一些人工智能基礎(chǔ)入門(mén)視頻+AI常用框架實(shí)戰(zhàn)視頻、圖像識(shí)別、OpenCV、NLP、YOLO、機(jī)器學(xué)習(xí)、pytorch、計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)等視頻、課件源碼、國(guó)內(nèi)外知名精華資源、AI熱門(mén)論文等。
下面是部分截圖,文末掃碼加我免費(fèi)領(lǐng)?。?a class="external" href="http://www.xmqqs.cn/tag/ai%e6%8a%80%e6%9c%af" title="查看與 AI技術(shù) 相關(guān)的文章" target="_blank">AI技術(shù)問(wèn)題我也可解答一二)
目錄
一、人工智能免費(fèi)視頻課程和項(xiàng)目
二、人工智能必讀書(shū)籍
三、人工智能論文合集
四、機(jī)器學(xué)習(xí)+計(jì)算機(jī)視覺(jué)基礎(chǔ)算法教程
?五、深度學(xué)習(xí)機(jī)器學(xué)習(xí)速查表(共26張)
學(xué)好人工智能,要多看書(shū),多動(dòng)手,多實(shí)踐,要想提高自己的水平,一定要學(xué)會(huì)沉下心來(lái)慢慢的系統(tǒng)學(xué)習(xí),最終才能有所收獲。