人工智能基础设施要求:并非所有人工智能都是平等的
去年,人工智能占据了中心位置,继 ChatGPT/Open AI 炒作之后,它已成为生日聚会上闲聊的合适话题。作为行业专业人士,我们早就熟悉了这个话题。我可以想象,科幻小说爱好者也是如此。 然而,我们都意识到,自1956年“人工智能”一词诞生以来,谈论和幻想技术未来前景的日子已经(早已)一去不复返了;现在是在您的组织内应用人工智能的时候了。尽管法律界限尚未完全确定,社会和社会影响仍未确定,但可用于开发您自己的模型的现成人工智能工具和技术的数量正在激增。 在AWSPP,我们一直密切关注 AI,就像我们关注影响我们和客户业务的所有主要技术一样。事实上,我们一直与许多向最终用户提供 AI 服务的客户合作,以计算、网络和存储容量的形式为他们提供 AI 解决方案的基础。例如,分析大量数据以向客户提供见解。 不同的人工智能模型,不同的要求 值得注意的是,并非所有人工智能都是平等的。可以使用多种算法来构建人工智能模型,例如线性回归、逻辑回归和深度神经网络。后者是执行自然语言处理的一种有利方法,如 Chat GPT 中使用的方法,以及 MidJourney 中使用的方法,后者是一个非常有趣的文本到图像托管机器人。 由于人工智能模型各有不同,包括使用方式,对底层基础设施(管道)的要求也会有所不同,通常包括高计算能力、存储能力和安全、低延迟的网络。为了更好地理解人工智能模型的基础设施需求,我想分解它的开发过程,列出每个阶段的特点,以及对硬件和网络的影响。人工智能底层基础设施的基础将贯穿其整个生命周期,但其不同元素可能需要根据模型所处的特定阶段进行扩大或缩小。由于基于大型语言模型(LLM) 的智能代理(Chat GPT、MidJourney、Bard)在企业内的应用潜力巨大,因此我在这里以它们为例。 数据适应度 构建 AI 的过程大致可以分为以下几个阶段。第一步是收集数据(对于 LLM 来说,是大量数据)并使数据成型。为了准备用于训练模型的数据,需要对其进行预处理。数据质量评估是此过程的起点,然后是清理、转换和减少数据。执行这些操作的工具可以是 Apache Spark、RapidMiner、Alteryx、Python 或其他。 此阶段对存储容量的要求很高,但我们并不需要超快的 SSD。基于 SATA 的存储服务器就足够了,尽管速度越快越好。对于数据处理,我们必须投入一些计算权重,因此速度在这里是次要的。由于网络容量在数据预处理阶段非常重要,因此建议使用高带宽服务器来传输所有(非结构化)记录。当数据位于另一个位置(本地)而不是工具(在公共云中)时,这一点变得更加重要。 方法的应用 第二阶段是我们开始换挡的地方。要创建一个人工智能模型,我们希望将如上所述的几种方法应用于(现在适合的)数据集。选择哪种方法取决于问题的性质、数据大小和结构以及输出的期望精度等标准。毋庸置疑,提前映射这些因素对于成功的项目至关重要,并且可能有助于避免过度拟合,即冒着质量较差的输出风险。目前,模型的训练主要通过监督学习、无监督学习和半监督学习进行,可以使用 Python 和 TensorFlow 等工具完成。 此阶段包括初始训练(其中大约 80% 的数据集用于训练模型)和验证测试(其中剩余 20% 的数据集(最初未使用)用于检查模型是否存在最终缺陷)。要从计算角度训练模型,您可能需要全力以赴。虽然这可能对您的目的来说有点过分,也可能不符合您的预算,但显然这是最重要的部分。好消息是:无需无限期地维护这种一流的基础设施,模型将投入生产,您可以根据 AI 的目的降低对计算和存储的要求。不过,定期重新训练可能是强制性的,以保持模型的质量并根据收到的人工输入进行调整。 为了说明这一点,我想引用因《基地》三部曲而闻名的艾萨克·阿西莫夫。超级智能计算机 Prime Radiance