落地有声|“大模型应用尚在早期,兼具技术积累和商业眼光才能走向头部”
·大模型的商业应用还处于浪潮最早期,很难说哪家企业会率先占据某个赛道的主导权,一方面要看企业技术积累、快速迭代和应变能力,另一方面也要看企业的商业整合能力和商业布局眼光。
·目前大模型测评集并不能满足金融业务的真实需要。金融测评集主要以客观选择题结合主观问答的方式评估大模型的准确率、稳定性,但这并不能有效指导模型进一步优化。金融界数据缺乏共享,金融交易规则和金融工具内部逻辑复杂,高质量数据的可获得性是影响大模型效果的瓶颈之一。
中国大模型产业从卷性能、卷排名、卷价格,到如今越来越关注落地应用。尽管在技术和产品上存在同质化,但产业界已经开始向差异化探索迈进。
上海财经大学信息管理与工程学院院长黄海量日前在接受澎湃科技采访时表示,“大模型的商业应用还处于浪潮早期,很难说哪家企业会率先占据某个赛道的主导权。”迈向头部,考验的既是企业本身的技术积累、快速迭代和应变能力,又是企业的整合能力和商业布局眼光。
以金融行业为例,大模型落地金融,可解释性、安全性、公正性、严谨性仍是痛点,他表示,“大模型+金融”既要考虑实际业务需求和内在逻辑,更要关注应对金融风险、促进金融公平,这是我国金融发展更重要的关切,而不仅仅着眼于如何提升金融领域的工作效率和投资效率。
同质化是必经阶段,但无法产生竞争力
谈及当前学术界对大模型的研究热点,黄海量表示,大模型的基础理论和算法架构是当前学术研究的前沿课题。大模型为何能够通过神经网络,结合上下文生成合理的语言,甚至存在类人的思维,这些底层的科学原理仍未完全摸清,学术界需要进一步探索创新。同时,持续的算法创新和数据工程技术探索将是推动大模型持续进步的关键。经典Transformer模型在处理长文本时会出现理解能力有限、效率较低、算力消耗过大等问题,学术界探索基于改进位置编码和注意力机制的新型模型结构,大幅提升模型对长文本的理解能力。特定领域高质量训练数据标注成本高,先进的数据合成、数据筛选技术将通过大规模、高质量、多样化的训练数据进一步提升大模型在金融等特定领域任务中的能力。
当前大模型的另一个研究热点是如何让大模型与RAG(检索增强生成)等其他工具相互配合、有效协同,发挥更大威力。大模型在生成回答时,通过RAG检索外部知识库,动态获取最新的相关信息,以弥补大模型内部知识的不足。然而,如何提升检索质量、高效地将检索到的信息与大模型的生成能力结合,仍然是一个复杂的技术问题。特别是在需要快速检索和生成高质量内容时,如何平衡计算开销与响应速度,是大模型与IT系统协同的关键挑战。
从产业界来看,中国大模型产业历经打榜、降价,逐步步入应用,走向搜索、音乐、金融、社交等各行各业。尽管当前大模型技术和产品存在同质化,但黄海量认为,从科技发展历程来看,同质化是必经阶段,无论是大模型的原创性技术,还是垂直落地的应用技术,当前都还处于科技浪潮的早期,在这个阶段,业界对大模型的认知是有限的、趋同的,这约束了大模型应用开发的发散性。
“同质化无法产生竞争力。”黄海量也看到,产业界正在探索差异化道路,比如在模型架构上尝试非Transformer架构,在数据采集和训练方式上采用独特的方案等,“避免在同质化的路上越卷越深。” 他提到,在“大模型+证券投资研究”研究领域,A机构采用大量研究报告等公开数据和少量自有数据,B机构基于几十年来沉淀的私有数据和部分公有数据,数据来源和训练方式不同,最终模型的特点和应用场景也不同。
当前,大模型杀手级应用尚未出现,国内外大模型企业都在探索过程中。“大模型的商业应用还处于浪潮最早期,很难说哪家企业会率先占据某个赛道的主导权,一方面要看这些企业本身的技术积累、后续的快速迭代和应变能力,另一方面也要看这些企业的商业整合能力和商业布局眼光。”黄海量表示,所谓商业整合能力,即技术出身的企业能否真正与特定行业形成产业链的整合,而不仅仅是作为乙方为甲方提供解决方案。“以金融为例,你必须不仅仅是一个科技企业,而是一个既懂金融又懂科技的企业,能够理解金融背后的业务逻辑、合规风险等,同时又有很强的科技研发能力。”
大模型+金融,痛点待解决
大模型在金融领域的落地,风险是核心问题,黄海量表示,“大模型落地金融既要考虑实际业务需求和内在逻辑,更要关注应对金融风险、促进金融公平,这是我国金融发展更重要的关切,而不仅仅着眼于如何用大模型提升金融领域的业务能力和效率。”
当前,可解释性、安全性、公正性、严谨性仍是金融大模型的痛点,黄海量表示,目前产业界并没有形成公认的解决方案。“各家都在按照各自的理解尝试解决。大模型本身是一个黑箱模型,构建可信大模型的途径之一是采用子任务分解和检索增强的方式。一个整体任务分解成若干个相对独立的子任务给不同的大模型智能体,在完成各个子任务的同时,从知识库中检索到相关的支撑依据并以参考文献的形式表述出来。这样通过观察子任务的输入输出结果,观察大模型在各个环节做了什么工作,来降低大模型的黑箱化程度。另一种方式是通过思维链等方法,让大模型既给出答案,同时也给出一步一步的推理过程。”
与此同时,模型性能和稳定性还有待提高。黄海量表示,同一个模型针对某一类问题过拟合的现象仍然严重,大模型通过二次训练、精调、提示工程等,在回答某类问题时表现良好,但往往在回答其他问题时存在较大短板。
除了模型本身的问题,将金融专业知识转化成数据以训练模型时,数据的丰富程度也困扰着行业,影响模型落地。黄海量表示,金融领域并不缺乏专业知识,但金融界数据由于缺乏共享,以及金融交易规则和金融工具的内部逻辑复杂性,高质量数据的可获得性成为影响大模型效果的瓶颈之一。
评测是大模型不断进化的指挥棒和指南针。为了评价大模型的能力,学术界和产业界都在开发大模型的测评集。学术界推出的测评体系主要考察模型知识和某种特定能力,产业界则更贴近实际业务需求。但黄海量表示,以金融领域为例,目前大模型测评集并不能够满足金融业务的真实需要。当前的金融测评集主要以客观选择题结合主观问答的方式评估大模型的准确率、稳定性,但这些测评集并不能有效指导模型的进一步优化。
“金融领域的很多问题不是通过选择是或否来解决的,所以不能通过选择题来测试模型性能,而是必须要看模型本身的在场景中的业务能力,比如投资研究的逻辑性、产品设计的创新性等,需要模型像人类专家一样‘从0到1’解决一个开放问题,但测评集往往无法测评这些方面的能力。”黄海量表示,缺乏和金融行业需求贴合的测评集,与缺乏高质量数据一样,都是阻碍模型性能进一步提升的因素。目前学术界和产业界正在联合开发更贴近应用场景真实需求的测评集。