有兴趣了解人工智能的基础知识吗?我们在本文中解释了定义和框架。
我们正处于新一轮数字浪潮之中,这意味着我们一直在将数字技术与机器、市场和自然相结合。最近,人工智能已成为这一浪潮的核心,并且人工智能有望在不久的将来继续主导创新。
这波数字浪潮是否只是我们所知的工业革命的第四波浪潮,还是一个全新社会的开始?这个问题出自荷兰战略领导力教授鲍勃·德威特 (Bob de Wit) 的 著作《社会 4.0 》(2021)。
因此,当我们的社会踏上这股新浪潮时,让我们来看看什么是人工智能。
A I是什么?
自 1950 年以来,人工智能 (AI) 已经吸引了全世界的注意力。人工智能是机器所表现出的智能,与动物和人类所表现出的自然智能不同。
人工智能基于数字化和自动化流程,模仿人类的认知过程。这带来了新的可能性,包括学习、解决问题、知识表示以及社交和通用智能。人工智能驱动的工具已经用于优化搜索引擎、数学、逻辑、概率和经济学。这有助于降低文书工作成本、减少劳动力并消除人为错误。然而,早期版本的人工智能将更高级的认知工作留给了人类来处理。
人工智能如何工作?
简而言之,人工智能的工作原理如下。准备好数据源(数据集)并将其输入模型以产生预测(称为结果 )。根据结果,用户将做出决策。人工智能模型具有开创性,因为它具有自学能力。然而,人工智能的挑战之一是确定模型和结果是否可以且应该被信任。
什么是机器学习?
机器学习 (ML) 于 1980 年左右开始流行。它是一门致力于理解和构建“学习”方法的研究领域,即利用数据来提高某些任务的性能。机器学习被认为是人工智能的一个子集。
机器学习专注于机器接收数据并自行学习的能力,而无需使用规则进行编程。机器学习与传统编程不同,因为您可以使用示例而不是指令列表来教授机器学习程序。机器学习使您无需在编程时编写指令或规则,而是可以“训练”算法,使其能够自行学习,然后随着对所处理信息了解的增多而进行调整和改进。
简而言之,机器学习就是使用数据来回答问题。第一部分“使用数据”也称为训练。第二部分“回答问题”称为进行预测或推理。
Google Cloud 将 ML 的步骤描述如下:在步骤 (1) 收集数据之后,执行步骤 (2) 数据准备以优化数据的准确性。下一步是 (3) 选择 ML 模型。接下来是 (4) 训练模型(使用大约 80% 的收集数据)和 (5) 评估训练后的模型(使用另外 20% 的收集数据)。然后,(6) 超参数调整,最后 (7) 预测。
什么是深度学习?
自 2010 年以来,深度学习推动了人工智能行业的发展。深度学习是一种机器学习技术,可以教计算机做人类自然而然的事情:通过示例学习。
深度学习是无人驾驶汽车背后的一项关键技术,它使无人驾驶汽车能够识别停车标志,或区分行人和路灯。机器学习使用回归算法或决策树,而深度学习使用与我们大脑的生物神经连接非常相似的神经网络。
机器学习与深度学习:有什么区别?
机器学习是指机器无需编程规则即可基于数据进行学习的能力。深度学习是机器学习的一个子集,但它使用神经网络。神经网络反映了人类大脑的行为,使计算机程序能够识别模式并解决常见问题。
人工智能框架
AI 框架为数据科学家、AI 开发人员和研究人员提供了构建、训练、验证和部署模型所需的基础模块,这些模块通过高级编程接口实现。目前有多种AI 框架,包括流行的Tensorflow和 Apache Spark。在深入研究 Apache Spark 和 Apache Hadoop 之前,我们先简单介绍一下Tensorflow 。
Tensorflow
TensorFlow可轻松创建机器学习模型。TensorFlow提供了一系列工作流程来开发和训练模型,并轻松部署。它在 GPU(图形处理单元)上运行速度更快,并且可以在各种支持 GPU 的平台上执行,包括服务器。
Apache Hadoop
Apache Hadoop允许您通过启用计算机网络(或“节点”)来解决庞大而复杂的数据问题来管理大数据集。它是一种高度可扩展、经济高效的解决方案,可存储和处理结构化、半结构化和非结构化数据。Hadoop 支持对存储数据进行高级分析(例如预测分析、数据挖掘、机器学习 (ML) 等)。它使大数据分析处理任务可以拆分为较小的任务。小任务通过使用算法(例如MapReduce)并行执行,然后分布在 Hadoop 集群中(即对大数据集执行并行计算的节点)。
Apache Spark
Apache Spark可以与 Apache Hadoop 结合安装。
Apache Spark 是用于大规模数据分析的统一引擎。换句话说,Spark 是执行数据工程、数据科学和机器学习(在单节点机器或集群上)的流行引擎。成千上万的公司使用 Apache Spark。
Apache Spark 建立在适用于大规模数据的高级分布式 SQL 引擎之上。Apache Spark 可与其他数据科学和机器学习框架(如 Tensorflow)以及 SQL 分析和 BI 框架以及存储和基础设施框架集成。
Apache Spark 是数据处理领域最大的开源项目,是唯一将数据与人工智能 (AI) 相结合的处理框架。这使用户能够执行大规模数据转换和分析,然后运行最先进的机器学习 (ML) 和 AI 算法。
Spark 生态系统由五个主要模块组成:
Spark Core:底层执行引擎,用于调度和分派任务以及协调输入和输出(I/O)操作。
Spark SQL:收集有关结构化数据的信息,以便用户优化结构化数据处理。
Spark Streaming 和 Structured Streaming:两者都增加了流处理功能。Spark Streaming 从不同的流源获取数据,并将其分成微批次以形成连续流。基于 Spark SQL 构建的结构化流可减少延迟并简化编程。
机器学习库 (MLlib):一组用于可扩展性的机器学习算法以及用于特征选择和构建 ML 管道的工具。MLlib 的主要 API 是 DataFrames,它为 Java、Scala 和 Python 等不同编程语言提供统一性。
GraphX:用户友好的计算引擎,支持可扩展的图形结构数据的交互式构建、修改和分析。
Apache Spark 与 Hadoop
与 Hadoop 一样,Spark 将大型任务拆分到不同的节点上。但是,它的执行速度往往比 Hadoop 更快,并且它使用随机存取存储器 (RAM) 来缓存和处理数据,而不是使用文件系统。这使 Spark 能够处理 Hadoop 无法处理的用例。Spark 处理并将数据保留在内存中以供后续步骤使用,而 MapReduce 则在磁盘上处理数据。因此,对于较小的工作负载,Spark 的数据处理速度比 MapReduce 快 100 倍。Spark 更快,因为它使用随机存取存储器 (RAM),而不是读取和写入磁盘的中间数据。Hadoop 将数据存储在多个源上,并通过 MapReduce 分批处理。Spark 本身并不是基于内存的技术。对于小型工作负载,Spark 的执行速度可以比 Hadoop 快 100 倍。据 Apache 称,对于大型工作负载,Spark 的执行速度通常比 Hadoop 快 3 倍。
Hadoop 的运行成本较低,因为它依赖任何磁盘存储类型进行数据处理。Spark 的运行成本较高,因为它依赖内存计算进行实时数据处理,这需要使用大量 RAM 来启动节点。
虽然 Hadoop 和 Spark 平台都在分布式环境中处理数据,但 Hadoop 非常适合批处理和线性数据处理。Spark 非常适合实时处理和处理实时非结构化数据流。
当数据量快速增长时,Hadoop 会通过 Hadoop 分布式文件系统 (HDFS) 快速扩展以满足需求。反过来,Spark 依靠容错 HDFS 来处理大量数据。
Spark 通过共享密钥或事件日志进行身份验证来增强安全性,而 Hadoop 则使用多种身份验证和访问控制方法。虽然总体而言 Hadoop 更安全,但 Spark 可以与 Hadoop 集成以达到更高的安全级别。
Spark 在机器学习方面优于 Hadoop,因为它包含 MLlib,可执行迭代内存 ML 计算。它还包括执行回归、分类、持久性、管道构建、评估等的工具。
Hadoop 最适合于以下场景:在数据量超出可用内存的环境中处理大数据集、使用磁盘读写操作进行批处理、以有限的预算构建数据分析基础设施、完成非时间敏感的作业以及历史和档案数据分析。
Spark 最适合使用迭代算法处理并行操作链的场景。如前所述,Spark 通过内存计算和实时分析流数据分析的选项快速获得结果。
人工智能框架的硬件
Spark 可以与 Hadoop (HDFS) 在同一节点上运行。或者,在公共集群上运行 Hadoop 和 Spark。如果这不可能,请在与 Hadoop (HDFS) 位于同一局域网的不同节点上运行 Spark。Apache 建议每个节点有 4-8 个磁盘,配置时不采用 RAID。
Spark 可以在内存中执行大量计算。一般来说,Spark 可以在每台机器 8 GiB 到数百 GB 的内存下运行良好。在所有情况下,我们建议只为 Spark 分配最多 75% 的内存;将其余内存留给操作系统和缓冲区缓存。您需要多少内存取决于您的应用程序。一旦数据进入内存,大多数应用程序都会受到 CPU 或网络的限制。
Spark 可扩展到每台机器数十个 CPU 核心。您应该为每台机器至少配置 8-16 个核心。Apache 建议使用 10 Gbps(或更高)的网络。
AWSPP和 AI
AWSPP 提供多种硬件配置的专用服务器,以满足您运行 AI 环境的特定基础架构要求。通过选择合适规模的基础架构,您可以为您的 AI 工作负载奠定完美的基础,在最佳性能和成本方面,您可以完全控制和自助服务。