彩神app8下载新手必看的Top10个机器学习算法 学会了你就是老手

  • 时间:
  • 浏览:45
  • 来源:UU快3-UU快3直播
总共彩神app8下载有好多个机器学习的模型?别问我,如此统彩神app8下载计过,愿因换成各种变体话语,那就更加多了去了。想到你这种,你头大不大?那是都有所有都有去学,都有去了解呢?当然都有,不过,下面的这10个算法,愿因你是新手话语,一定要去好好学好,拿下了哪些,你这种的假使 举一反三的事情了。

在机器学习中,有一另另俩个 叫做“如此免费午餐”的定理。简而言之,它指出,如此两种算法对每一另另俩个 疑问都有最有效的,它尤其适用于监督学习(即预测建模)。

例如,你还可不后能 说神经网络无缘无故比决策树好,反之亦然。有你这种你这种因素在起作用,比如数据集的大小和形态。

假使 ,你应该针对你的疑问尝试你这种不同的算法,共同使用一组保留的“测试集”数据来评估性能并选择获胜者。

当然,你尝试的算法时需适合你的疑问,这假使 选择正确的机器学习任务的愿因。打个比方,愿因你时需打扫房子,太久再用吸尘器、扫帚或拖把,但你太久再拿下铁锹刚结束挖。

然而,所有用于预测建模的监督机器学习算法都有一另另俩个 共同的原则。

机器学习算法被描述为学习一另另俩个 目标函数(f),该目标函数将输入变量(X)映射到输出变量(Y): Y = f(X)

这是一另另俩个 一般的学习任务,村里人 想在给定输入变量(X)的新样本下对未来的(Y)进行预测,村里人 别问我函数(f)是哪些样子或它的形式,愿因愿因村里人 知道话语,村里人 就直接使用它就完了,村里人 就不时需使用机器学习算法从数据中学习它了。

最常见的机器学习彩神app8下载类型是学习映射Y = f(X),对新的X做出Y的预测,这被称为预测建模或预测分析,村里人 的目标是尽愿因做出最准确的预测。

对于哪些渴望了解机器学习基础知识的机器学习新手来说,以下是数据科学家使用的十大机器学习算法的快速介绍。

1 — 线性回归

线性回归愿因是统计学和机器学习中最著名和最容易理解的算法之一。

预测建模主要关注的是最小化模型的误差,愿因尽愿因做出最准确的预测,还可不后能 牺牲掉你这种可解释性。村里人 将从你这种不同的领域借用、重用和窃取算法,包括统计学,并将它们用于哪些目的。

线性回归的表示是一另另俩个 方程,它描述了三根最适合输入变量(x)和输出变量(y)之间的关系的直线,通过找出称为系数(B)的输入变量的特定权重。

线性回归

例如: y = B0 + B1 * x

村里人 要在给定输入x的具体情况下预测y,线性回归学习算法的目标是找到系数B0和B1的彩神app8下载值。

从数据中学习线性回归模型还可不后能 采用不同的技术,如普通最小二乘的线性代数解和梯度下降优化。

线性回归已有1000多年的历史,并得到了广泛的研究。使用你这种技术时,你这种好的经验法则是删除非常例如(相关)的变量,愿因愿因话语,从数据中删除噪声。这是两种快速、简单的技术,也是两种很好的首先尝试的算法。

2 — 逻辑回归

逻辑回归是机器学习从统计学领域借用的另两种技术。它是二元分类疑问(具有另另俩个 类值的疑问)的首选办法。

逻辑回归与线性回归例如,其目标是找到每个输入变量权重系数的值。与线性回归不同,输出的预测是使用一另另俩个 称为彩神app8下载Logistic函数的非线性函数进行转换的。

logistic函数看起来像一另另俩个 大S,它将把任何值转换成0到1的范围。这很有用,愿因村里人 还可不后能 对logistic函数的输出应用一另另俩个 规则,将值限制到到0和1(例如,愿因小于0.5,则输出1)并预测一另另俩个 类值。

逻辑回归

愿因模型的学习办法,通过逻辑回归所做的预测也还可不后能 用作给定数据实例属于类0或类1的概率。这对于时需为预测提供更多解释的疑问非常有用。

与线性回归一样,当你删除与输出变量无关的属性以及彼此非常例如(相关)的属性时,逻辑回归的效果更好。它是两种快速学习和有效出理 二元分类疑问的模型。

3 — 线性判别分析

逻辑回归是两种传统上仅限于两类分类疑问的分类算法。愿因你有另另俩个 以上的类,如此线性判别分析算法是首选的线性分类技术。

LDA的表示非常直接,它由数据的统计属性组成,每个类都有计算。对于单个输入变量,包括:

  1. 每个类的平均值。
  2. 所有类计算的方差。

线性判别分析

预测是通过计算每个类的判别值并对最大的类进行预测来实现的。该技术假定数据具有高斯分布(钟形曲线),假使 在出理 就让 从数据中删除离群值是一另另俩个 好主意。它是两种简单而强大的分类预测建模办法。

4 — 分类和回归树

决策树是预测建模的两种重要算法。

决策树模型的表示是一另另俩个 二叉树。这假使 算法和数据形态的二叉树,没哪些很糙的。每个节点表示单个输入变量(x)和该变量上的分叉点(假设该变量是数值型的)。

决策树

树的叶节点富含一另另俩个 用于进行预测的输出变量(y)。预测是通过遍历树的分割直到到达叶节点并在该叶节点输出类值来完成的。

树学起来如此来如此快,预测起来也如此来如此快。它们通常也适用于各种各样的疑问,不时需为数据做任何很糙的准备。

5 —朴素贝叶斯

朴素贝叶斯算法是两种简单但功能惊人的预测建模算法。

该模型由两种概率组成,还可不后能 直接从训练数据中计算出来:1)每个类的概率;2)给定每个x值的每个类的条件概率。概率模型一旦计算出来,就还可不后能 利用贝叶斯定理对新数据进行预测。当你的数据是实数时,通常会假设是高斯分布(钟形曲线),原先你就还可不后能 很容易地估计哪些概率。

贝叶斯定理

朴素贝叶斯两种被称为朴素贝叶斯,愿因它假定每个输入变量都有独立的。这是一另另俩个 强烈的假设,对于真实的数据来说是不现实的,然而,这项技术对于你这种复杂性的疑问是非常有效的。

6 — K-近邻

KNN算法非常简单有效。KNN的模型表示是整个训练数据集。简单吧?

通过搜索整个训练集中最例如的K个样本(邻居),并汇总K个样本的输出,对新的数据点进行预测。对于回归疑问,这愿因是平均输出值,对于分类疑问,这愿因是多数的(或最常见的)类值。

诀窍在于何如选择数据实例之间的例如性。愿因你的属性都有相同的比例(例如,都有英寸),最简单的办法是使用欧几里德距离(Euclidean distance),你这种数字还可不后能 根据每个输入变量之间的差异直接计算。

K-近邻

KNN愿因时需几瓶内存或空间来存储所有数据,但还可不后能 也能 在时需预测时才执行计算(或学习)。你还还可不后能 随着时间的推移更新和管理你的训练样本,以保持预测的准确性。

KNN中的距离或靠近的概念还可不后能 分解为非常高的维度(你这种输入变量),这会对算法在疑问上的性能产生负面影响。这被称为维度诅咒。建议你只使用与预测输出变量最相关的输入变量。

7 — 学习向量量化

k近邻的缺点有了你时需保留整个训练数据集。学习向量量化算法(简称LVQ)是两种人工神经网络算法,它允许你选择要挂起好多个个训练样本,并准确地了解哪些样本应该是哪些样子。

学习向量量化

LVQ的表示是一组码本向量。哪些在刚结束时是随机选择的,假使 在学习算法的多次迭代中不断的自适应的对数据集进行最好的总结。经过学习,码本向量还可不后能 像k近邻一样进行预测。通过计算每个码本向量与新数据之间的距离,找到最例如的邻居(最匹配的码本向量)。假使 返回最佳匹配单元的类值或(在回归具体情况下的实数值)作为预测。愿因你将数据缩倒入相同的范围,例如在0到1之间,则还可不后能 获得最佳结果。

愿因你发现KNN在数据集中提供了良好的结果,还可不后能 尝试使用LVQ来减少存储整个训练数据集的内存需求。

8 — 支持向量机

支持向量机愿因是最流行的机器学习算法之一。

超平面是三根分割输入变量空间的直线。在支持向量机中,选择超平面是为了根据类(class 0或class 1)最好地分离输入变量空间中的点。在二维中,太久再把它想象成三根直线假设所有的输入点都还可不后能 被这条直线完整隔开。支持向量机学习算法通过超平面找到最优的分割系数。

支持向量机

超平面与最近数据点之间的距离称为margin。也能分隔另另俩个 类的最佳或最优超平面是具有最大边距的直线。只哪些点与超平面的定义和分类器的构造有关。哪些点称为支持向量。它们支持或定义超平面。在实际应用中,采用了两种优化算法,求出了使margin最大化的系数的值。

SVM愿因是最强大的开箱即用分类器之一,值得一试。

9 — bagging和随机森林

随机森林是目前最流行、最强大的机器学习算法之一。它是两种集成机器学习算法,称为bootstrap Aggregation或bagging。

bootstrap是两种用于从数据样本中估计量的强大统计办法,例如平均数。对你的数据进行多次的采样,计算均值,假使 求均值的平均值,以便更好地估计真实均值。

在bagging中,使用相同的办法,但用于估计整个统计模型,最常用的是决策树。获取训练数据的多个采样,假使 为每个采样的数据集构建模型。当你时需对新数据进行预测时,每个模型都有进行预测,并对预测进行平均,以更好地估计真实的输出值。

随机森林

Random forest是对你这种创建决策树的办法的两种改进,它都有选择最优的分割点,假使 通过引入随机性来进行次优分割。

假使 ,为每个数据集的采样创建的模型比你这种具体情况下更不同,但时仍然很准确。结合村里人 的预测,还可不后能 更好地估计实际的输出值。

愿因你使用具有高方差的算法(如决策树)得到了好的结果,如此通常还可不后能 通过bagging该算法得到更好的结果。

10 —提升算法和AdaBoost

增强是两种集成技术,它试图从你这种弱分类器创建一另另俩个 强分类器。通过从训练数据构建一另另俩个 模型,假使 创建第5个模型,试图纠正第一另另俩个 模型中的错误,原先来实现。模型不断的被换成,直到训练集被完美地预测愿因模型的数量达到了最大。

AdaBoost是第一另另俩个 真正成功的应用是二元分类的增强算法。这是理解提升算法的最佳起点。现代的提升算法都有在AdaBoost的基础上发展起来的,最著名的是随机梯度提升算法。

Adaboost

AdaBoost用于短决策树。在创建第一另另俩个 树就让 ,用这棵树来计算每个样本的performance(和label之间的差别),用来衡量下一棵树将更多的注意哪些样本。难预测的训练数据被赋予更多的权重,而容易预测的数据被赋予较少的权重。模型依次创建,每个模型更新训练样本的权重,哪些样本影响序列中下一棵树执行的学习。所有的树都建好就让 ,对新数据进行预测,每棵树根据在训练数据集上的performance来设定权重。

愿因算法对错误的纠正给予了如此多的关注,假使 重要的是要有去除离群值的干净数据。

当面对各种各样的机器学习算法时,初学者通常会问原先一另另俩个 疑问:”太久再使用哪种算法?“你这种疑问的答案取决于你这种因素,包括:(1)数据的规模、质量和性质;(2)可用计算时间;(三)任务的紧迫性;以及(4)何如出理 数据。

在尝试不同的算法就让 ,即使是经验富于的数据科学家也无法判断哪种算法会表现最好。我觉得 还有你这种你这种的机器学习算法,但哪些是最流行的。愿因你是机器学习的新手,如此这将是一另另俩个 很好的学习起点。

英文原文:https://towardsdatascience.com/a-tour-of-the-top-10-algorithms-for-machine-learning-newbies-dde4edffae11

【编辑推荐】

【责任编辑:

张燕妮

TEL:(010)6847610006】



点赞 0