中国国际贸易促进委员会冶金行业分会

English

钢铁行业需要什么样的大模型？

2023/11/16 14:54

来源：中国冶金报社

继ChatGPT大模型后，国内智谱AI的ChatGLM、百度的文心一言、科大讯飞的星火等国产大模型如雨后春笋般涌现，被称为“百模大战”。在它背后，不仅是各家技术实力的比拼，也是应用场景落地能力的较量。令市场狂热的大模型究竟有何魔力？当钢铁行业遇见大模型，又会碰撞出怎样的火花？近日，《中国冶金报》记者专访了智谱AI CEO张鹏，围绕当前的“大模型热”进行了对话。

  智谱AI于2019年由清华大学计算机系技术成果转化而成立，于次年便开始了GLM预训练架构的研发，是国内最早从事大模型相关研究的机构之一。“面对‘大模型热’，如果用一个词来形容我的想法，那就是笃信。”张鹏指出，“信”当然就是相信这件事情，大模型一定是通往AGI（通用人工智能）的必经之路，能创造更大的价值；“笃”是一种踏实、审慎的态度，相信是基于对这件事情的理解和钻研，而不是狂热、没有根基的。

  从纸上谈兵到实践躬行，大模型为什么这么“热”？

  大模型的起源可以追溯到2017年，Transformer算法架构的诞生，开启了大模型演化的历史进程。虽然在接下来的几年内，BERT、GPT-1、GPT-2也先后出现，甚至BERT在十多个自然语言理解任务上大大超过传统算法的精度，但依旧没有在业界引起太多的火花，直至2020年的到来。“这一年是大模型元年。”张鹏表示。

  GPT-3的问世大大提高了模型的内容生成和逻辑推理能力，它在上下文学习和知识（常识）理解等方面展现出惊人能力。随后在全球范围内掀起了一股基础模型研究的热潮，国外如 Meta、微软、谷歌等，国内如清华大学、北京智源人工智能研究院、百度、华为、阿里巴巴、智谱AI等，都竞相追赶，提出包括Gopher、Chinchilla、PaLM、GLM-130B等在内的多个千亿元级模型。

  然而，复杂的研发技术以及高昂的训练成本，也让不少人望而却步。在当时，并不是所有人都能够看清技术发展脉络，而大模型对资金投入的要求很高，贸然投入风险颇大。“当时，我们邀请了一些学界的教授对未来技术的演进方向进行研讨，大家都认为这是大模型到达了一个临界点的信号，AI开始真正进入了可用阶段。但是我们在寻找算力、模型工程问题等方面遇到了很多困难，最后犹豫了很久才决定all in（全部投入）大模型，开始自研算法框架。”张鹏表示。

  直至2022年底，ChatGPT发布才真的激起了“百模大战”的开始，与过往的机器学习技术不同，ChatGPT不再是枯燥的技术理论，它能够在各领域的应用场景反复验证，人们才真正感受到大模型“智能涌现”的魅力。ChatGPT实现全球用户破亿仅用了短短两个月，而电话用户破亿用了75年，手机用了16年，网站用了7年，此前用户增长最快的应用TikTok也用了9个月。

  百家争鸣、百花齐放，对“大模型热”要注意什么？

  ChatGPT的发布激发了更多机构和公司的研发斗志和热情，众多资本纷纷投入到大模型研发的蓝海之中，相关部门也关注到了这一重要的技术创新，给予了非常多的政策支持，进一步促进了大模型的研发和优化升级，形成了“百家争鸣、百花齐放”的科技发展新态势。这也让已经积累了两年技术实力的智谱AI从幕后走到了台前。
但面对“大模型热”绝不能盲目。大模型的开发和应用虽然会助推产业和经济发展，但如果不加以合理管控，也会给产业安全带来风险。一方面是芯片的“卡脖子”问题。算力是大模型的基础之一，如何保证算力的持续稳定供应是产业安全必须关注的问题。另一方面，产业所使用的基座模型是否安全可控也是一个重要的问题。模型的训练数据是否安全合规，模型是否自主可控，会不会像“芯片进口”一样遇到各种限制？这些都是影响产业长远发展的重要问题。

  面对风险挑战，张鹏指出，作为一家创业公司，做大语言模型要有很大的决心，除了研究层面上的挑战，还有模型训练工程层面上涉及到的资源投入、团队、训练数据等一系列的事情。在芯片问题上，智谱AI在研发之初便制订了国产硬件适配计划，目前已经与十余家国产芯片厂商合作，希望可以在全方位适配的同时，提升模型在国产硬件上的训练推理效率。此外，智谱AI也选择了从底层算法开始自研，以实现基座模型安全可控的目标。

  “国产大模型与国外大模型之间的差距依然存在，但我们有信心去追赶这个差距，我们一直在不断创新的路上。”张鹏表示。

  传统产业+大模型，如何放大应用价值？

当前，随着人工智能的快速发展，大模型的应用已经逐渐从研究领域扩展到工业实践中，形成工业大模型。从“通用”到“应用”，大模型正在叩响工业制造的大门。

  从研发难度来看，无论是通用大模型，还是工业大模型，研发投入、核心人才和应用场景都是不可或缺的，也构成了市场的核心壁垒。而工业大模型对算法模型的有效性、高质量的数据、算力的支撑能力有极高要求，模型的优化迭代亦有赖于资金和人才的持续投入。因此，大模型的实际落地和行业应用能力成为了市场检验的重要标准。

  “工业大模型的普适性商业应用尚需探索。”张鹏认为，一是工业大模型需与其他数字化产品进一步整合，满足工业企业对网络、算力以及数据管理的一体化要求，实现即买即用。二是工业企业使用门槛仍然较高，比如需要基于提示词进行应用开发，把问题解决的长线逻辑和相关案例融入进去，使大模型能按照预设步骤、思考链路和回答格式来产生答案。三是工业各领域已存在大量工业软件、工业互联网平台，如何利用大模型形成协同生态将深刻影响用户感知及产品生命力，允许并鼓励第三方开发者基于工业大模型开发插件是重要路径，如OpenAI正基于ChatGPT+插件加快构建自己的生态圈。

  大语言模型会重塑千行百业的业态，但需要在具体的行业落地方面投入更多资源。任何一项技术发展到一定程度之后，都必然会产生更多实际价值。如何实现价值，常见的一种说法是并不需要通用的基座大模型，只需要小的、中量级的、合适的行业模型。但大语言模型能力突破的根本原因在于，它对世界知识的学习和建模，使得它具备了接近人的理解推理和更进阶的认知能力。张鹏表示，最理想的状态是，行业模型并不是完全独立于基座模型和通用模型，而是生长在基座模型之上，基于它进行进一步的训练和微调。

  当前，我国传统产业正面临智能化转型，加入行业特色数据与知识、精准匹配真实应用场景的行业大模型，能够极大地提升业务流程效率和水平，驱动产业转型升级。钢铁工业具有生产流程连续、工艺体系复杂、产品中间态多样化、大型高温高压设备集中、人员安全要求高等特征，属于典型的流程型制造业，面临着严峻的资源、市场、环保、竞争等挑战。“钢铁工业亟需通过大模型等先进技术及场景化创新应用，提升行业的绿色环保、安全保障水平和生产效率。”张鹏说。

  对于大模型如何在钢铁行业应用，张鹏表示，可以打造钢铁工业人工智能解决方案，以具备通用基础能力的AI大模型作为智能底座，结合行业知识和场景数据进行训练和微调，从而有效应对碎片化和多样化需求，并大幅缩减研发、定制、部署、调优等工程化过程中的人力、时间、费用等成本投入，也能解决好数据安全问题，促进人工智能在钢铁行业大规模应用，促进钢铁行业智能化升级。

上一篇：2023年10月份能源生产情况下一篇：矿业步入加速转型关键期

中国国际贸易促进委员会冶金行业分会　　　　冶金工业国际交流合作中心

地址:北京市东城区东四西大街46号北楼A座　　邮编：100711　　　　电话:010-65227956　　　　传真:010-65131921　　　　Email: office@mcchina.org.cn　　　　京ICP备09066254号-18