网站建设的服务怎么样,佛山网站建设网站,东莞网站建站公司,成都抖音代运营人工智能的概念始于1956年的达特茅斯会议#xff0c;由于受到数据、计算力、智能算法等多方面因素的影响#xff0c;人工智能技术和应用发展经历了多次高潮和低谷。
2022年以来#xff0c;以ChatGPT为代表的大模型一夜爆火#xff0c;它能够基于在预训练阶段所见的模式和统…人工智能的概念始于1956年的达特茅斯会议由于受到数据、计算力、智能算法等多方面因素的影响人工智能技术和应用发展经历了多次高潮和低谷。
2022年以来以ChatGPT为代表的大模型一夜爆火它能够基于在预训练阶段所见的模式和统计规律来生成回答还能根据聊天的上下文进行互动真正像人类一样来聊天交流甚至能完成撰写邮件、视频脚本、文案、翻译、代码写论文等任务。人工智能技术突然进入了新的阶段。
数据、计算力和算法被认为是人工智能发展的三大核心要素数据是基础算法是核心计算力是支撑。 所有机器学习模型都旨在学习某个函数 (f)该函数提供输入值 (x) 和输出值 (y) 之间最精确的相关性。Yf(X) 最常见的情况是我们有一些历史数据X和Y并且可以部署 AI 模型来提供这些值之间的最佳映射。结果不可能 100% 准确否则这将是一个简单的数学计算不需要机器学习。相反我们训练的 f 函数可用于使用新的 X来预测新的Y从而实现预测分析。各种机器学习模型通过采用不同的方法来实现这一结果这是机器学习的基本原理。
现实中面临的问题数量巨大用于解决这些问题的机器学习模型也多种多样因为某些算法比其他算法更擅长处理某些类型的问题。因此我们需要清楚地了解每种算法的优点与缺点今天我们列出了 10 种最流行的 AI 算法期望对大家有所帮助。
1、线性回归
迄今为止线性回归在数理统计中的应用已有 200 多年的历史。该算法的要点是找到对我们尝试训练的函数f的精度影响最大的系数(B)值。最简单的例子是y B0 B1 * x其中 B0 B1 是所讨论的函数。
通过调整这些系数的权重数据科学家可以获得不同的训练结果。该算法成功的核心要求是拥有清晰的数据其中没有太多噪声低值信息并删除具有相似值相关输入值的输入变量。 线性回归就是要找一条直线并且让这条直线尽可能地拟合散点图中的数据点。它试图通过将直线方程与该数据拟合来表示自变量x 值和数值结果y 值。然后就可以用这条线来预测未来的值
这种算法最常用的技术是最小二乘法Least of squares。这个方法计算出最佳拟合线以使得与直线上每个数据点的垂直距离最小。总距离是所有数据点的垂直距离绿线的平方和。其思想是通过最小化这个平方误差或距离来拟合模型。 线性回归算法经常用在对金融、银行、保险、医疗保健、营销和其他行业的统计数据进行梯度下降优化。
2、逻辑回归
逻辑回归是另一种流行的人工智能算法能够提供二进制结果。这意味着该模型既可以预测结果又可以指定 y 值的两类之一。该函数也是基于改变算法的权重但由于使用非线性逻辑函数来转换结果因此有所不同。该函数可以表示为一条 S 形线将真值与假值分开。 成功的要求与线性回归相同——删除相同值的输入样本并减少噪声量低值数据。这是一个非常简单的函数可以相对快速地掌握并且非常适合执行二元分类。
3、决策树
这是最古老、最常用、最简单且最高效的机器学习模型之一。它是一个经典的二叉树每次分割都会做出“是” 或“否”的决定直到模型到达结果节点。
在这一算法中训练模型通过学习树表示Tree representation的决策规则来学习预测目标变量的值。树是由具有相应属性的节点组成的。在每个节点上我们根据可用的特征询问有关数据的问题。左右分支代表可能的答案。最终节点即叶节点对应于一个预测值。
每个特征的重要性是通过自顶向下方法确定的。节点越高其属性就越重要。 该模型简单易学不需要数据标准化常用于回归和分类任务。
4、朴素贝叶斯
朴素贝叶斯Naive Bayes是基于贝叶斯定理。它测量每个类的概率每个类的条件概率给出 x 的值。这个算法用于分类问题得到一个二进制“是 / 非”的结果。这是一种简单但非常强大的模型用于解决各种复杂问题。它可以计算两种类型的概率
各班级出场机会一次假设有额外的x修饰符则独立类的条件概率。 该模型被称为朴素模型因为它的运行假设所有输入数据值彼此无关。虽然这在现实世界中不可能发生但这种简单的算法可以应用于大量标准化数据流以高度准确地预测结果。
5、支持向量机
支持向量机Support Vector MachineSVM是一种用于分类问题的监督算法。支持向量机试图在数据点之间绘制两条线它们之间的边距最大。为此我们将数据项绘制为 n 维空间中的点其中n 是输入特征的数量
在此基础上支持向量机找到一个最优边界称为超平面Hyperplane它通过类标签将可能的输出进行最佳分离。
超平面与最近的类点之间的距离称为边距。最优超平面具有最大的边界可以对点进行分类从而使最近的数据点与这两个类之间的距离最大化。 最好的超平面是具有最大正向量并分隔大部分数据节点的超平面。这是一个极其强大的分类机可以应用于广泛的数据标准化问题。
6、K-最近邻
这是一个非常简单但非常强大的机器学习模型使用整个训练数据集作为表示字段。结果值的预测是通过检查整个数据集中具有相似值的 K 个数据节点所谓的邻居并使用欧几里德数可以根据值差异轻松计算来确定结果值来计算的。结果值的预测是通过检查整个数据集中具有相似值的 K 个数据节点所谓的邻居并使用欧几里德数可以根据值差异轻松计算来确定结果值来计算的。 此类数据集可能需要大量计算资源来存储和处理数据当存在多个属性时会遭受准确性损失并且必须不断进行整理。然而它们的工作速度非常快在大型数据集中查找所需值时非常准确且高效。
7、K- 均值
K- 均值K-means是通过对数据集进行分类来聚类的。例如这个算法可用于根据购买历史将用户分组。它在数据集中找到 K 个聚类。K- 均值用于无监督学习因此我们只需使用训练数据 X以及我们想要识别的聚类数量 K。
该算法根据每个数据点的特征将每个数据点迭代地分配给 K 个组中的一个组。它为每个 K- 聚类称为质心选择 K 个点。基于相似度将新的数据点添加到具有最近质心的聚类中。这个过程一直持续到质心停止变化为止。 8、随机决策森林或套袋
这个算法的基本思想是许多人的意见要比个人的意见更准确。为了对新对象进行分类我们从每个决策树中进行投票并结合结果然后根据多数投票做出最终决定。
随机决策森林由决策树组成其中多个数据样本由决策树处理并将结果聚合就像将许多样本收集在一个袋子中以找到更准确的输出值。 不是寻找一条最佳路线而是定义多条次优路线从而使整体结果更加精确。如果决策树解决了您所追求的问题那么随机森林是该方法的一种调整可以提供更好的结果。
9、降维
由于我们今天能够捕获的数据量之大机器学习问题变得更加复杂。这就意味着训练极其缓慢而且很难找到一个好的解决方案。这一问题通常被称为“维数灾难”Curse of dimensionality。
降维Dimensionality reduction试图在不丢失最重要信息的情况下通过将特定的特征组合成更高层次的特征来解决这个问题。主成分分析Principal Component AnalysisPCA是最流行的降维技术。
主成分分析通过将数据集压缩到低维线或超平面 / 子空间来降低数据集的维数。这尽可能地保留了原始数据的显著特征。 可以通过将所有数据点近似到一条直线来实现降维的示例。
10、深度神经网络
神经网络本质上是一组带有权值的边和节点组成的相互连接的层称为神经元。它将上一层的输出特征作为下一层的输入进行特征学习通过逐层特征映射后将现有空间样本的特征映射到另一个特征空间以此来学习对现有输入具有更好的特征表达。深度神经网络具有多个非线性映射的特征变换可以对高度复杂的函数进行拟合。如果将深层结构看作一个神经元网络则深度神经网络的核心思想可用三个点描述如下:
(1)每层网络的预训练均采用无监督学习 (2)无监督学习逐层训练每一层即将上一层输出作 下一层的输入 (3)有监督学习来微调所有层(加上一个用于分类的分类器)。
深度神经网络与传统神经网络的主要区别在于训练机制。
为了克服传统神经网络容易过拟合及训练速度慢等不足深度神经网络整体上采用逐层预训练的训练机制而不是采用传统神经网络的反向传播训练机制。
优点
克服了人工设计特征费时、费力的缺点通过逐层数据预训练得到每层的初级特征分布式数据学习更加有效指数级相比浅层建模方式深层建模能更细致高效的表示实际的复杂非线性问题。 DNN 是最广泛使用的人工智能和机器学习算法之一。基于深度学习的文本和语音应用程序、用于机器感知和 OCR 的深度神经网络、使用深度学习来增强强化学习和机器人运动以及 DNN 的其他杂项应用都有显着改进。
总结
正如您所看到的人工智能算法和机器学习模型种类繁多。有些更适合数据分类有些则在其他领域表现出色。没有一种算法适合所有领域因此选择最适合您的情况的算法至关重要。