本文作者:admin

达观数据联合创始人纪传俊:再造“曹植”,跑通金融大模型赛道

admin 2024-09-19 18:28:07 56
达观数据联合创始人纪传俊:再造“曹植”,跑通金融大模型赛道摘要: ...

达观数据的“曹植”大模型最近升级到7.4版本,经过层层迭代,这一金融垂类大模型逐渐展现出“惊鸿”之才:作为“考生”,“曹植”已顺利通过CFA(特许金融分析师)考试,专业技能获得认可;作为“员工”,“曹植”已在各大银行、券商等机构默默“上岗”,以智慧的长文本输出,帮助金融从业人员将繁杂的工作变得高效。

纪传俊(右二)带领团队攀越文本智能的一座座高山

(图片来源:文汇报)

有人说,大模型的“下半场”是落地应用。达观数据联合创始人纪传俊带领近60人的团队投身于这场数字化、智能化浪潮,以大模型的能力解决金融行业“痛点”,成为上海城市数字化转型的实践者和推动者。

01

“四倍速”里的加与减

大模型时代,把行业竞争推向“四倍速”——从英特尔时代的每18个月成长一倍“快进”到现在的每年成长4倍。身处“四倍速”的竞争中,达观数据有自己的先发优势:基于大模型底座的技术能力和金融专业数据,去年推出“曹植”大模型。纪传俊如此形容它的特长:“曹植七步成诗,其代表作《洛神赋》则是文采斐然的长文本经典。‘曹植’的专长就是做金融领域长文档资料智能化的分析写作。”

(图片来源:达观数据)(图片来源:达观数据)

大模型“出生”是第一道关,在“四倍速”的竞争环境里,如果什么都抓,反而什么都抓不住,唯有走向专精尖才能脱颖而出。但这道“加减法”,考验的是团队领导者的精准判断。

纪传俊还记得当时放在眼前的这道选择题:“曹植”已确定要跑金融赛道,但大模型面临的幻觉问题又与金融的严谨性相悖,在两者之间“搭桥”,纪传俊决定做加法。“我们很早就开始研究大模型的边界,第一时间决定研发RAG(检索增强生成)。”他当时很快拍板组建小分队,在一周内就把RAG的初级版本搭建出来,并在之后两个月内建立起业内最早带溯源的知识问答系统,最终沉淀成后续产品的基础。

“今天,RAG被证明是解决幻觉和安全性问题的有效方案,但在当时,一切都是摸着石头过河。”他说,达观数据对B端做了很多技术性改造,反映在最新的版本中,“曹植”的写作能力更强了,而这种写作并非开放式生成,而是能结合数据、报告、历史材料整理后,输出符合银行、券商要求的可控生成,不仅具备从理解到生成的“思考”能力,也限制了“无序的想象力”。

“曹植”大模型赋能多行业应用

(图片来源:达观数据)

除了加法外,也要做减法。纪传俊说,最大的减法是技术路线的选择。在大模型出来之前,好几条技术路线都在向前延展,当时达观数据主攻的是BERT模型,这是一种预训练模型,在小模型阶段的阅读理解表现优异,且成本较低。但当大模型技术出现之后,纪传俊反复比较,毅然决定放弃BERT模型路线,“做这样的决定很艰难,当时也不知道是对是错,但现在看来,全力以赴转到大模型是一个正确选择。”

02

十年的坚守与奔跑

翻阅纪传俊的履历,简单而清晰。作为复旦大学计算机专业硕士毕业生的他,是达观数据的初创团队成员之一,十年磨一剑,他始终坚守在技术开发的第一线。

(图片来源:达观数据)(图片来源:达观数据)

“我一直在关注文本智能的研发方向,坚持算法技术与实用性结合的路径。”回望过去10年,纪传俊坦言,技术的发展一日千里,文本智能的发展也越过了一座座看似难以攀登的高山,从文档资料输入到专业长文档输出,“一进一出”之间有很高的技术门槛,涉及计算机科学、人工智能、语言学等交叉领域,比如:机器要首先识别文档种类、进行版面分析、表格等特殊结构处理、印章处理等。而今年,企业正全力打造“曹植”的多模态能力,让“曹植”更加智能。

(图片来源:浦东发布)(图片来源:浦东发布)

在坚守既定目标的同时,也要快速奔跑。“做这个行业,不能一成不变,要有拥抱变化的心态。”纪传俊说,去年12月,在他的牵头下,达观数据与复旦大学携手共建“金融垂域应用大模型校企联合研究中心”,共同探索新的技术领域、解决实际问题,推动技术创新和进步。

(图片来源:达观数据)(图片来源:达观数据)

今年世界人工智能大会期间,达观数据与复旦大学金融科技研究院、、燧原科技达成协议,四方签署战略合作协议,共同推进基于国产算力的金融行业大模型研发与应用。

作为计算机与金融复合型人才,更多时候,纪传俊奔跑在业务一线。他喜欢去现场和客户打交道,在交流间体会对方的个性化需求,然后思考业务的匹配度。比如,“曹植”的最强技能之一,是在自然语言交流中判断业务流程、内部审计的合规问题。纪传俊说,他在业务一线交流时,经常会听到机构员工吐槽,查一个条例、规则需要花半天时间。这给了他新的启迪。如今,机构员工只需对着“曹植”阐述情况,大模型就会给出有着溯源功能的初步判断,大大节省了时间。

十年如一日的技术积淀与匠心坚守,换来今天金融垂类大模型的高速成长。纪传俊判断认为,如今大模型应用落地百花齐放,明年一定会跑出一批“沪产大模型”,他期待“曹植”也能成就“仙才”之名。

人物小传

纪传俊,达观数据联合创始人,上海市人工智能高级工程师职称获得者,中国计算机学会(CCF)会员;负责达观数据信息挖掘和金融智能产品研发,拥有10年以上架构设计和产品研发管理工作经验;上海市青年科技启明星获得者,获得2023上海城市数字化转型“智慧工匠”提名。

(转自:你好张江)

阅读
分享