甲骨文认证体系
Vmware认证体系
AWS亚马逊
阿里云认证体系
红帽认证体系
ZStack云计算认证体系
思科认证体系
华为认证体系
CDA数据分析师认证
达梦认证体系
麒麟
定制化课程
模型评估与优化
发布日期:2020-08-05 18:15:27阅读次数:

数据集划分
数据集(dataset):在机器学习任务中使用的一组数据。数据集中每一个数据称为一个样本。反映样本在某方面的表现或性质的事项或属性称为特征。
训练集(training data):训练过程中使用的数据集。数据集中每个训练样本称为训练样本。从数据中学得模型的过程称为学习 (训练)。
测试集(testing data):学得模型后,使用其进行预测的过程称为测试,使用的数据集称为测试集,每个样本称为测试样本。
交叉验证集(cross validation data):用于衡量训练过程中模型的好坏。
偏差 方差
偏差:衡量算法的期望预测与真实值之间的偏差程度,反映了模型本身的拟合能力。
方差:衡量同等大小的训练集的变动导致模型学习的变化,刻画了数据扰动所导致的影响。
当模型越复杂时,拟合能力就越好,模型的偏差就越好。但此时如果换一组数据可能模型的变化就会很大,即模型方差变大,将这种现象称为过拟合,所以复杂的模型容易造成过拟合;当模型简单的时候,即使换一组数据,得出的学习器分类效果与之前分类器的效果也不会很大,即模型方差很小,但由于模型过于简单,导致偏差会很大,导致欠拟合。
过拟合 欠拟合
欠拟合:模型没有很好地捕捉到数据特征,不能够很好地拟合数据。也就是高偏差,低方差。
过拟合:通俗一点地来说过拟合就是模型把数据学习地太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,即不能正确地分类,模型泛化能力太差。也就是高方差,低偏差。

算法分类
机器学习可以解决多种类型的任务,最典型的且属于**有监督学习**的两种任务:
1
分类:计算机程序需要指定输入属于k类中的哪一类。
为了完成这个任务,学习算法通常会输出一个函数f:R^n→(1,2,…,k)。比如金融行业中的信用贷款业务就是一个分类任务。

回归:这类任务中,计算机程序会对给定输入预测输出数值。学习算法通常会输出一个函数f:R^n→R,比如预测投保人的索赔金额
(用于设置保险费),或者预测证券未来的价格。

分类和回归是预测问题的两种主要类型,分类的输出是离散的类别值,而回归的输出是连续数值。
属于无监督学习的任务主要有聚类:这类算法以相似性为基础,同一聚类中的对象相似度较高而不同聚类中的对象相似度较小。

抽样
简单随机抽样:在简单随机抽样中,总体所有成员被选为样本的概率是相等的。(不放回的抽样)

分层抽样:将总体分成不同的子群,然后对所有的子层进行随机抽样。例如:1—100,将其每隔十个数分成一组,共十组,各组中每一个数的概率相同,都是十分之一。

系统抽样:首先将总体中各单位按一定顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位,以得到所需要的样本。例如:1—100,按事先准备的规则,每10个数抽取一个,抽到数有:10、20、30、40、50、60、70、80、90、100,概率为十分之一。

整群抽样:整群地抽选样本单位,对被抽选的各群进行全面调查的一种抽样。例:检验某种零件的质量时,不是逐个抽取零件,而是随机抽若干盒
(每盒装有若干个零件),对所抽各盒零件进行全面检验。

凹凸函数
凸集:若集合中任意两点连线上的点都在该集合中,则称该集合为凸集。

凹集:非凸集。

函数的凹凸是由函数“上方”集合的凹凸性决定的,该集合为凸集则该函数为凸函数,相反该集合为凹集则该函数为凹函数。

凸函数:简单理解为在函数图像上任取两点,如果函数图像在这两点之间的部分总在连接着两点的线段上方,则为凸函数。

凹函数:简单理解为在函数图像上任取两点,如果函数图像在这两点之间的部分总在连接这两点的线段的下方,则为凹函数。

这里注意,不要和潜意识里的凹凸函数混淆
凸函数;

反之则为凹函数

最优化模型的概述
我们会根据自己的偏好对每个选择打一个不同的分数,再从所有的选择中找出最优的一个。这个寻求最优解的过程其实就是最优化问题,我们要打的分数就称为目标函数。
最优化方法是机器学习中模型训练的基础,机器学习的很大一部分内容就是通过最优化方法找到最合适的参数,使得模型的目标函数最优。
最优化问题的定义:在给定的约束条件下,选择最优的参数和使得目标函数最大化/最小化。
最优化问题的三个基本要素:
 目标函数:用来衡量结果的好坏
 参数值:未知的因子且需要通过数据来确定
 约束条件:需要满足的限制条件
Note: 目标函数必须是凸函数,才能保证优化后获得的最优结果是全局最优而不是局部最优,否则要进行凸优化。

 将一个复杂的非凸函数转化为一个如下图所示的凸函数,这样其局部最优便是全局最优。凸函数所对应的优化便是凸优化。

凸优化是机器学习的一个根本性问题,在工程中很多问题可以抽象化为一个凸问题,很多非凸问题可以通过一定的手段或方法转化为一个凸问题,一旦转化为一个凸问题,那么理论上来说,这个问题便可以得到解决。

凸优化的定义:只有满足以下两个条件才需要我们做凸优化的处理:
条件一: 约束条件为凸集。
条件二: 目标函数为凸函数。
非凸优化问题转化为凸优化问题的方法:
修改目标函数,使之转化为凸函数。
抛弃一些约束条件,使新的可行域为凸集并且包含原可行域。

    想了解更多IT知识,推荐你访问  腾科教育