设为首页收藏本站language→→ 语言切换

鸿鹄论坛

 找回密码
 论坛注册

QQ登录

先注册再绑定QQ

查看: 665|回复: 5
收起左侧

人工智能-强化学习01|“蛋蛋”是什么?

[复制链接]
发表于 2018-6-27 21:18:01 | 显示全部楼层 |阅读模式
本帖最后由 yeslab官方 于 2018-6-27 21:20 编辑

我有一只可爱的小狗狗。它叫蛋蛋,很听话但也有些调皮,每当我感到沮丧或失落,它总会有办法让我再度开心,生活就是如此富有弹性。伴随着它一天天长大,我总会教会它新的技能,这种技能可以是一些新的动作,或能听懂你新的指令。回忆起蛋蛋小时候的日子,那时我想教会它蹲下,这个动作花费了很长的时间,主要问题在于它总会把蹲下的指令错误理解为趴下,于是它对于相同的指令,有时会蹲下,有时会趴下。在遇到这样的困难后,我陷入了沉思,思考问题的源头是否并不在于蛋蛋本身,而和我的训练方法有关。



                               
登录/注册后可看大图


记得我最心急的时候,甚至自己蹲下与趴下做示范,但其实这对蛋蛋理解我的指令并没有什么帮助,而这种直接学习带标签目标属性(也就是我本人)的方式,我们在人工智能机器学习中称为监督学习。


后来我也懒得教了,带着蛋蛋去外面与其他小狗多打交道,因为我期望蛋蛋能看到其他小狗是怎样蹲下的,然后自己默默学会那些动作与指令。但是外面的世界太精彩了,太多类型的主人导致了不统一的指令格式,比如对于蹲下就有中文、英文和“喝”的一声。不过最吸引蛋蛋的并不是那些指令与小狗的动作,而是异性小狗,所以这样的方法似乎不能在短时间内凑效。这样的学习方法在人工智能机器学习中称为非监督学习,即只是把受训对象(也就是蛋蛋)置身于环境中,而不需要告诉它需要学会什么。这样的学习方法并不能让蛋蛋很快学会蹲下这个动作。



                               
登录/注册后可看大图


最终我还是从朋友那里得到了启示,因为他说奖励对于小动物胜过一切。这句话启发了我,于是我马上开始了奖励训练,每当蛋蛋准确完成了蹲下而不是趴下,我就给予食物的奖励,没过几天就产生了效果。我统计了一周内蛋蛋对蹲下指令完成的准确率,发现竟然达到了 70%。不过我还不满足,因为“蹲下”确实是一项很简单的指令,小狗应该可以每次都很准确地完成。于是我阅读了一些关于学习的书籍,看到了一种长期奖励机制,即更大的奖励应该在长期正确学习后才能给予,这给我下一步的训练提供了很好的思路,此外我还购买了一种更好吃的狗粮,我称为超级狗粮。每当蛋蛋正确完成蹲下指令的动作,仍给予一粒一般狗粮的奖励,如果可以连续5次正确完成蹲下指令的动作,则给予一粒超级狗粮作为奖励。很快蛋蛋就可以如我所愿,正确识别蹲下这个指令了。



                               
登录/注册后可看大图


重新审视上面蛋蛋的学习过程,它并没有得到与蹲下对应的标签动作的示范,所以它不是按着标签来学习的,即学习过程并不属于监督学习过程。它拥有学会蹲下这个指令适配的环境——生存,一个能够生存的正常小狗,都有机会学会蹲下这样的指令。不过,要想让它很快学会蹲下,不能仅仅依靠环境,还得有人教它,所以这个过程也不属于非监督学习过程。这种既给予环境,让学习者与环境互动,还给予奖励机制,刺激学习者向正确方向前进的学习过程,通常我们在人工智能机器学习中称为强化学习(Reinforcement Learning),这是一种半监督学习过程。


强化学习,是一种源于试错方式,遵循马尔科夫决策过程的机器学习方法。目前强化学习已广泛的出现在人工智能的应用中,国内各互联网公司从 2016 年开始均开始关注强化学习,目前已经公布了许多基于强化学习的研究与应用。当然最出名的还是 DeepMind 当年使用强化学习训练 AI 玩雅利达 2600 游戏的实验,这让 Google 迅速收购了 DeepMind,也把强化学习再度推上人工智能技术顶峰,同时为后来的 AlphaGo, AlphaZero 奠定了技术基础。



                               
登录/注册后可看大图


如今,强化学习已经出现在自动驾驶、机器人导航与复杂设备操作等应用领域中,越来越多的论文声称使用强化学习技术来代替传统技术,能给 AI 带来更好的学习效果,让 AI 完成更多复杂与灵活的事情,AI 会更接近于人类的思维方式。这个系列的文章也会逐渐带你深入到强化学习的世界中来,愿你学习开心、收获有价。


6月28日


YESLAB-AI公会开放日活动


有动手体验 AI 识别猫狗血统的彩蛋


想了解 AI 的同学


进入人工智能课堂



                               
登录/注册后可看大图

网址:www.yeslab.net


 楼主| 发表于 2018-6-28 17:54:45 | 显示全部楼层

哈哈哈~此蛋蛋非彼蛋蛋乎,本文作者是YESLAB-AI人工智能公会副会长曹鑫磊,文章中的“蛋蛋”是曹老师养的宠物小狗,本文以一种通俗易懂的方式,来解释什么是人工智能机器学习中的强化学习。中间对于小狗驯养的过程,其实是有些类似我们人工智能机器学习中的强化学习的。请关注后续更多YESLAB人工智能内容。
5# 2018-6-28 17:54:45 回复 收起回复
回复 支持 反对

使用道具 举报

发表于 2018-6-30 22:16:30 | 显示全部楼层
yeslab官方 发表于 2018-6-28 17:54
哈哈哈~此蛋蛋非彼蛋蛋乎,本文作者是YESLAB-AI人工智能公会副会长曹鑫磊,文章中的“蛋蛋”是曹老师养的 ...

好的 ~
6# 2018-6-30 22:16:30 回复 收起回复
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 论坛注册

本版积分规则

QQ|Archiver|手机版|小黑屋|sitemap|鸿鹄论坛 ( 京ICP备14027439号 )  

GMT+8, 2024-4-24 00:50 , Processed in 0.066614 second(s), 12 queries , Redis On.  

  Powered by Discuz!

  © 2001-2024 HH010.COM

快速回复 返回顶部 返回列表