新闻中心
每一位客户都是我们的核心财富
行业动态云信公告
您当前位置:首页  > 新闻中心 > 行业动态

哪种算法是解决回归问题的最好算法?线性回归、神经网络还是随机森林?

来源:原创    时间:2018-03-09    浏览:6267 次

现在,不管你想要解决什么样的机器学习MLS,都有很多算法可供选择,尽管在某种程度上,其中一种算法并不总是比另一种更好。然而,每种算法的一些特点可以作为快速选择最优算法和调整超参数的标准。在本文中,我们将介绍几种著名的机器学习算法来解决回归问题。并根据各自的优缺点设定了使用该标准的时间。特别是对于回归问题选择最佳的机器学习算法,本文将为您提供重要的指导!线性回归和多项式回归从简单的情况开始,单变量线性回归用线性模型为单个输入自变量(特征变量)和输出因变量建立关系模型。它在多个独立的输入变量(特征变量)和输出因变量之间建立了一个关系模型,因为输出变量是输入变量的线性组合,因此总是线性的。

blob.png

        第三种最常见的情况是多项式回归。该模型是指数变量、正弦变量、余弦变量等特征变量的非线性组合。但是,我们需要了解数据与输出的关系。利用随机梯度下降SGD训练回归模型。

 其优点是建模速度快,特别是当要建模的关系不是特别复杂,数据量很小时。线性回归是一种简单易懂的回归方法,由于它必须对特征变量和数据结构之间的关系有一定的了解,因此对非线性数据进行多项式回归可能会很困难。当涉及到高数据复杂度时,这些模型的性能不如其他模型。神经网络神经网络是由一组互联节点组成的。这些节点被称为神经元。数据中的输入特征变量作为多变量线性组合传递给神经元,其中值乘以每个特征变量称为权值。然后将非线性应用于线性组合。为了建立具有多层结构的神经网络复杂的非线性关系模型,将各层的输出以同样的方式传递到下一层。

        输出通常不是非线性的。利用随机梯度下降(SGD)和反向传播算法训练神经网络。这两种算法都显示在上述动态GIF图中。由于神经网络具有多个非线性层(和参数),因此非常适合于建立更复杂的非线性关系。神经网络中的数据非常适合于建模。该结构基本上是非常灵活的学习任何类型的特征变量关系。为网络提供更多的培训数据(无论是通过添加新数据集还是扩展原始数据集)提高网络性能。

        安装程序还可以提高网络性能。所以不容易理解。网络培训可能是非常具有挑战性和计算密集,需要微调的超级参数和设置学习速率表。网络的高性能需要大量的数据。在“小数据量”的情况下,其他机器学习算法的性能通常不如其他机器学习算法。

        回归树和随机森林随机决策树是一种直观的模型,它通过遍历树枝和节点,根据决策选择下一条支路。决策树归纳法(决策树归纳法)是一组训练实例作为输入,确定哪一组最适合分割,数据集分割,在分割后的数据集中循环,直到对所有训练实例进行分类,任务结束。通过构造决策树对属性进行划分,可以生成子节点的纯度,这将使日志根据分割所需的所有集中分类实例最小化,所需的分割次数是以纯度为单位的。这关系到信息的获取,需要知道有多少实例以前没有,才能进行正确的分类。在实际应用中,它将通过比较熵或单个当前数据集来划分,一个分类所需的信息量的例子,如果将当前的数据集划分为给定的属性,则可以对单个实例进行分类。

        随机森林是一组简单的决策树,输入向量运行在多个决策树中。对于回归,输出所有值是决策树的平均值;对于分类问题,使用投票方案来确定最终类别。优点:善于学习复杂且高度非线性的关系,往往可以具有很高的性能,其性能优于多项式回归,并且具有神经网络的性能。而且通常很容易理解,虽然最终的训练模型可以学习到更复杂的关系,但是基于训练过程的决策边界是很容易理解的。

        缺点:由于决策树训练的性质,可能容易重过拟合。决策树模型可能过于复杂,并且不需要完整的结构。有时通过适当的修剪和大型随机森林集合来缓解这种情况。使用较大的随机森林获得更高的性能组合,将使速度慢,需要更多的内存。

        结论机器学习是一种“不免费午餐”的定理,没有人能解决机器学习算法的所有问题。机器学习算法的性能取决于数据的大小和数据结构。因此,我们可以用简单的实验来测试和判断所选算法是否是最佳的。