区别于人工智能,机器学习、尤其是监督学习则有更加明确的指代。机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身的性能。

机器学习的实现可以分成两步:训练和预测,类似于归纳和演绎:

机器学习的实施方法和人类科研的过程有着异曲同工之妙,下面以“机器从牛顿第二定律实验中学习知识”为例,帮助读者更加深入理解机器学习(监督学习)的方法论本质,即在“机器思考”的过程中确定模型的三个关键要素:假设、评价、优化。

如何确定模型参数(w=1/m)?

确定参数的过程与科学家提出假说的方式类似,合理的假说可以最大化的解释所有的已知观测数据。如果未来观测到不符合理论假说的新数据,科学家会尝试提出新的假说。如:天文史上,使用大圆和小圆组合的方式计算天体运行,在中世纪是可以拟合观测数据的。但随着欧洲工业革命的推动,天文观测设备逐渐强大,已有的理论已经无法解释越来越多的观测数据,这促进了使用椭圆计算天体运行的理论假说出现。因此,模型有效的基本条件是能够拟合已知的样本,这给我们提供了学习有效模型的实现方案。

左图是以HH为模型的假设,它是一个关于参数ww和输入xx的函数,用H(w,x)H(w,x) 表示。模型的优化目标是H(w,x)H(w,x)的输出与真实输出YY尽量一致,两者的相差程度即是模型效果的评价函数(相差越小越好)。那么,确定参数的过程就是在已知的样本上,不断减小该评价函数(HH的计算结果和YY的差距)的过程。直到模型学习到一个参数ww,使得评价函数的值最小,衡量模型预测值和真实值差距的评价函数也被称为损失函数(Loss)

image.png

模型假设、评价函数(损失/优化目标)和优化算法是构成模型的三个关键要素

(1)模型假设:世界上的可能关系千千万,漫无目标的试探Y XY X之间的关系显然是十分低效的。因此假设空间先圈定了一个模型能够表达的关系可能,如红色圆圈所示。机器还会进一步在假设圈定的圆圈内寻找最优的YY~XX关系,即确定参数ww

(2)评价函数:寻找最优之前,我们需要先定义什么是最优,即评价一个YY~XX关系的好坏的指标。通常衡量该关系是否能很好的拟合现有观测样本,将拟合的误差最小作为优化目标。

(3)优化算法:设置了评价指标后,就可以在假设圈定的范围内,将使得评价指标最优(损失函数最小/最拟合已有观测样本)的YY~XX关系找出来,这个寻找最优解的方法即为优化算法。最笨的优化算法即按照参数的可能,穷举每一个可能取值来计算损失函数,保留使得损失函数最小的参数作为最终结果。

从上述过程可以得出,机器学习的过程与牛顿第二定律的学习过程基本一致,都分为假设、评价和优化三个关键要素:

(1)假设:通过观察加速度aa和作用力FF的观测数据,假设aa和FF是线性关系,即a=w⋅Fa=wF

(2)评价:对已知观测数据上的拟合效果好,即w⋅FwF计算的结果要和观测的aa尽量接近。

(3)优化:在参数ww的所有可能取值中,发现w=1/mw=1/m可使得评价最好(最拟合观测样本)。

机器执行学习任务的框架体现了其学习的本质是“参数估计”(Learning is parameter estimation)。上述方法论使用更规范化的表示如图5所示,未知目标函数ff,以训练样本DD=(x1,y1),…,(xn,yn)(x1​,y1​),…,(xn​,yn​)为依据。从假设集合HH中,通过学习算法AA找到一个函数gg。如果gg能够最大程度的拟合训练样本DD,那么可以认为函数gg就接近于目标函数ff

Deep Learning

机器学习算法理论在上个世纪90年代发展成熟,在许多领域都取得了成功,但平静的日子只延续到2010年左右。随着大数据的涌现和计算机算力提升,深度学习模型异军突起,极大改变了机器学习的应用格局。今天,多数机器学习任务都可以使用深度学习模型解决,尤其在语音、计算机视觉和自然语言处理等领域,深度学习模型的效果比传统机器学习算法有显著提升。