大语言模型(LLM)能够理解、解释和生成人类语言,给各行各业带来了革命性的变化。然而,它们也面临着自身的挑战,包括产生不准确或误导性信息(幻觉)、隐私问题和安全漏洞等。
本文探讨了这些挑战,并深入研究了 "检索增强生成(RAG)"这一创新方法,以克服这些挑战,使大语言模型在关键工业应用中变得更加强大和可靠。
(资料图)
大语言模型可以访问大量文本数据,但它们的训练数据可能已经过时,而且仅来自公共领域。大型语言模型需要访问企业的工业数据,才能让生成式人工智能(AI)为工业服务。通过在经过整理的相关数据上 "训练" 大语言模型(类似于 ChatGPT 的训练方式),我们可以提高其在工业应用中响应的可靠性和准确性。
要将生成式 AI 纳入数字化战略,制造企业可以从下面三个基本架构着手:
数据情境化
情境化数据对于确保大语言模型提供相关且有意义的响应至关重要。例如,在寻求有关运营工业资产的信息时,提供与这些资产相关的数据和文档及其显式和隐式语义关系变得至关重要。这种情境化使大语言模型能够理解任务并生成上下文适当的答案。
工业知识图谱
创建工业知识图谱对于提高大语言模型的数据质量是必要的。此图通过规范化、缩放和增强来处理数据,以确保准确和可信的响应。“垃圾输入→垃圾输出”的古老格言也适用于生成AI,强调了丰富数据以提高大语言模型性能的重要性。
检索增强生成
检索增强生成(Retrieval Augmented Generation,RAG)是一种先进的设计模式,使大语言模型能够在直接响应提示时利用特定的工业数据。通过结合上下文学习,RAG允许大语言模型基于私有上下文的数据进行推理,从而提供确定性的答案,而不是基于现有公共信息的概率响应。
此外,RAG 使我们能够在企业中保持工业数据的专有性和安全性。像任何先进技术一样,大语言模型可能容易受到对抗性攻击和数据泄漏。在工业环境中,由于专有设计和客户信息等敏感数据,这些问题更是需要引起足够的重视。
确保适当的匿名化,保护大语言模型基础设施,确保数据传输安全和实施强大的身份验证机制,是降低网络安全风险和保护敏感信息的重要步骤。RAG 允许维护访问控制,与大型企业建立信任并满足严格的安全和审计要求。
通过在生成式 AI 解决方案中利用数据情境化、工业知识图谱和 RAG 技术,我们不仅可以解决数据泄漏、信任和访问控制以及幻觉等挑战,还可以影响解决方案的整体效率和成本。
大语言模型具有上下文窗口限制,限制了它们在响应提示时可以考虑的令牌范围。此外,每个令牌都会增加每次查询的总成本。如果把这些查询想象成谷歌搜索,就会发现成本增加是多么容易。
为了解决这个问题,将专有工业数据情景化、创建工业知识图谱以及通过 RAG 优化查询变得至关重要。这些步骤可确保实验室管理人员获得可搜索且具有语义意义的输入源,从而更有效地利用庞大的工业数据。
总之,虽然大语言模型为各个行业提供了巨大的潜力,但应对诸如不准确性、安全漏洞和隐私风险等挑战也至关重要。通过整理和情境化数据,构建行业知识图谱并利用RAG等尖端技术,大语言模型可以成为简化运营、实现自动化任务和为不同行业的企业提供可操作见解的宝贵资产。