机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
机器学习和数据挖掘的关系:
数据挖掘可被认为是识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。其实顾名思义,数据挖掘就是试图从海量数据中找出有用的知识。大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据
机器学习和统计的关系:
统计是利用数据来对一个未知的过程进行推测的活动,是实现机器学习的一种方法。
传统统计学更加关注数学方面的推论,而不像机器学习技术关注计算机如何计算出来推论的结果
机器学习的应用场景: 1.当我们不可能通过手动编程实现的系统,即不可能穷尽所有规则的情况下 2.当我们无法轻松定义答案的情况下 3.当需要进行快速决定的情况,这种情况人类无法做到,比如股票市场的超高频率交易 4.当针对很广泛的用户个性化服务,比如针对消费者的营销策略
机器学习的关键:
1.(Pattern)存在某种潜在的模式或规则可以被学习到 2.(Definition)无法轻松通过编程实现 3.(Data)具有关于某种模式的数据资料
机器学习的实际定义:
我们不知道f,我们于是把手上的资料D,通过机器学习的算法A,得到一个推荐使用的函数g,我们希望g和理想的目标函数f越接近越好。
我们可以把很多可能的公式放到一个“假说”的集合H(即包含了各种可能的g),机器学习算法所要做的事情是要从H中选择一个它觉得最好的假说,即g
当然机器学习里有很多基本术语和概念,我们来了解一下: 数据集:在机器学习任务中使用的一组数据,其中的每一个数据称为一个样本。反映样本在某方面的表现或性质的事项或属性称为特征。 训练集:训练过程中使用的数据集,其中每个训练样本称为训练样本。从数据中学得模型的过程称为学习(训练)。 测试集:学得模型后,使用其进行预测的过程称为测试,使用的数据集称为测试集,每个样本称为测试样本。 泛化能力:机器学习的目标是使学得的模型能够很好的适用于新的样本,而不是仅仅在训练样本上工作的很好,学得的模型适用于新样本的能力称为泛化能力。 误差:学习到的模型在样本上的预测结果与样本的真实结果之间的差 。 训练误差:模型在训练集上的误差。 泛化误差:在新样本上的误差。显然,我们更希望得到泛化误差小的模型。 欠拟合:如果训练误差很大的现象。 过拟合:如果学得的模型的训练误差很小,而泛化能力较弱即泛化误差较大的现象。
关于机器学习的分类:包括监督学习,无监督学习,半监督学习和强化学习: 监督学习:利用已知类别的样本,训练学习得到一个最优模型,使其达到所要求性能,再利用这个训练所得模型,将所有的输入映射为相应的输出,对输出进行简单的判断,从而实现分类的目的,即可以对未知数据进行分类。 无监督学习:对于没有标记的样本,学习算法直接对输入数据集进行建模,例如聚类,即“物以类聚,人以群分” 。我们只需要把相似度高的东西放在一起,对于新来的样本,计算相似度后,按照相似程度进行归类就好。 半监督学习:试图让学习器自动地对大量未标记数据进行利用以辅助少量有标记数据进行学习。 强化学习:学习系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统如何去产生正确的动作。 东方瑞通成立于1998年,总部在北京,分别在上海、广州、天津、武汉、济南、深圳、成都、重庆、杭州和西安建立了直营分部,全国拥有超过40间专业培训教室、40多位专职讲师及180多位签约讲师;作为国内企业级IT高级技术&管理培训的领军机构,为数千家企业客户提供员工外派(公开课)和团体定制培训服务,累计培训专业人才数十万名。
|