大语言模型在证券行业应用的思考与探索
时间:2024-11-25 12:01 点击:次
东海证券 马芸、宣秀芳、李伟、文乐 摘要:随着人工智能的发展,生成式AI在社会、经济、生活中的应用越来越广泛。结合金融科技新政和证券行业业务的特殊性和多样性,本文探讨如何通过大语言模型(Large Language Model,后续简称大模型)的相关技术如Prompt、RAG、智能体等方式来完成证券行业应用场景的构建和落地,为证券公司创新和发展提供新的引擎,实现数智化转型。 关键词:生成式AI、金融科技、RAG、智能体、Prompt、证券行业 一、证券公司数字化转型和创新 近年来,证券公司数字化转型的顶层设计、政策环境等逐步健全完善,《证券期货业科技发展“十四五”规划》《证券公司网络和信息安全三年提升计划(2023-2025)》等纲领性文件持续引导和推动证券公司提升科技治理水平。中国证券业协会在2021年2月28日、2022年11月25日发布的《证券行业文化建设十要素》《进一步巩固推进证券行业文化建设工作安排》同时提出证券公司要“秉承守正创新,积极运用数字化手段重构商业模式,提升金融科技专业能力、服务质量和水平”,并明确观念层、组织层、行为层的关键要素。 在此背景下,各证券公司紧紧围绕证券行业“合规、诚信、专业、稳健”的文化理念,在观念层高度重视并把握好金融科技创新方向。在组织层融合发展战略,将“数智驱动”文化理念与公司经营决策有机统一。在行为层落实责任担当,不断加大技术研发投入,逐步将大数据、云计算、人工智能、区块链等新兴技术应用于客户服务、投资决策、风险控制等核心业务领域,为实体经济发展赋能。 然而,作为人工智能领域的重要组成部分,大语言模型在证券行业的应用仍然处于初级阶段,在规范创新的同时如何维护金融安全并深入实践落地,还需要进一步思考和研究。 1.技术转型的必要 目前,证券公司的技术手段和分析方法在处理复杂任务、大规模数据能力方面依然有限,缺乏足够的灵活性和智能化。 一方面,传统的数字化技术平台建设高度依赖于人力,从数据采集到到数据分析的整个流程都需要人工参与,不但占用大量劳动资源,而且系统可扩展性差、自动化水平低。另一方面,传统的数字化技术平台依赖于流程和规则的预设,缺乏灵活性和创造性,对于数据价值缺少足够的洞见。为了更好地释放数据价值,将创新精神与公司发展战略、发展方式深度融合,有必要推动数据要素的多场景应用和多主体复用,创造多样化的价值增量。 2.新生态位的构建 正如计算机的诞生为软件生态系统的构建奠定了坚实的基石,生成式人工智能(AI)在现有软件生态的基础上实现了一次质的飞跃,催生了一个全新的智能生态。2022年11月底,OpenAI推出了ChatGPT,其强大的语义理解和准确、丰富的内容生成立刻引起了全世界的瞩目,激起了全球的AI革命浪潮。 这次AI革命,也为金融科技的新一轮创新注入了引擎和动力。证券公司积极拥抱大模型技术,探索其在企业内部的多元化应用,一方面优化业务流程、提高服务效率和质量,另一方面提升企业的智能化水平,增强决策的智能支持,激发新质生产力的培育。 3.大模型技术架构及原理 大模型是指经过大量文本数据训练,拥有数十亿、数千亿甚至上万亿参数的神经网络模型。得益其庞大的规模和丰富的预训练数据,大语言模型能够处理多种自然语言处理任务,如文本分类、情感分析、机器翻译、文本摘要、问答系统等。 以ChatGPT为代表的大模型,其突破性的技术进展和能力的“涌现”,源自于Transformer深度学习模型架构。它由Vaswani等人在2017年的论文《Attention Is All You Need》中首次提出,主要用于处理序列数据,尤其在自然语言处理(NLP)领域取得了革命性的进展。Transformer模型的核心思想是自注意力机制(Self-Attention),不同于循环神经网络(RNN)和卷积神经网络(CNN),它能够捕捉序列中的长距离依赖关系,并且具有并行化处理的优势,这使得自注意力机制在自然语言处理和其他序列任务中表现出色,成为了深度学习领域的一个重要突破。 如图一所示,Transformer由两部分组成,Encoder(编码器)和Decoder(解码器),其中编码器通过自注意力机制(Self-attention)和前馈神经网络(Feed-forward neural network)来处理输入数据,而解码器通过自注意力机制,给出输出词预测概率。
图一:Transformer架构 自注意力机制:模型在处理一个词或短语时,同时考虑序列中的其他所有词或短语,通过计算所在位置与其他位置的距离,从而捕捉长距离依赖关系。 前馈神经网络:在自注意力层之后,每个位置的输出会被送入一个前馈神经网络,Transformer有96层神经网络,通过每一层的特征提取来完成整个输入序列的语义解析。 二、大模型在证券行业的应用场景 大模型为证券行业翻开了一个全新的篇章,它基于证券公司的海量数据和丰富的业务场景,完成知识萃取与价值提炼,为市场分析、风险管理和投资决策带来广度、深度、速度和精度,推动证券行业数字化转型与创新。本文的具体应用场景包括智能客服、智能风控、智能投顾和智能工作助手等。 1.智能客服 通过加强投资者保护,不断优化客户服务,是文化建设的重要一环。大模型良好的语义理解和多轮对话能力,为证券公司与客户之间的沟通提供了高效的服务型解决方案,其具体表现在: (1)提高客服时长:基于大模型构建的智能客服机器人,可以提供7*24小时的自动化客户咨询服务,降低转人工率,为公司节约人力成本。 (2)准确理解客户诉求:证券公司庞大的知识库,包括常见问题解答、金融产品信息、市场动态等,通过不断的自我学习和更新,知识库能够保持最新最全状态,确保系统回答的准确性和时效性。另外结合大模型的良好的语义理解和多轮对话能力,客服系统可以准确、系统的理解客户的诉求,并提供贴合客户自身情况的服务。 (3)提高客户体验:大模型多模态能力可以分析用户的情绪并据此调整回复的语气和内容,提升用户体验。另外其强大的数据处理能力,能够根据客户的历史数据和偏好,提供个性化的服务建议。例如,根据客户的投资习惯推荐相关的金融产品等。 2.智能风控 证券公司的风险管理是其核心竞争力的重要组成部分。大模型可以通过关联行情、资讯、舆情、法规等进行信息的整合与淬炼,识别人工可能无法预测的风险,同时助力风险早识别、早预警、早暴露、早处置。将合规风控与创新发展并重,促进行业高质量发展。具体体现在以下方面: (1)提高风险识别能力:基于大模型,证券公司将大量专业知识进行预训练,通过对行情、资讯、舆情、法规等信息进行分析和处理,提高对风险特征与信息的深度挖掘能力,识别出人工无法预测的风险。其识别范围广,涉及到市场风险、信用风险、操作风险等,进一步提高证券公司的风险管控能力。 (2)优化风险管理决策:大模型可以为证券公司提供多种风险管理方案,并根据不同的风险场景进行模拟和分析。这有助于管理层做出更科学、合理的风险管理决策。例如,在面对市场风险时,大模型可以提供不同的投资组合调整方案,并分析每种方案的风险收益特征,为管理层提供决策参考。 (3)提高风险管理效率:结合证券公司专业领域知识,大模型可以生成相关管理报告,也可以对相关报表或者报告进行审核,提高工作效率。 3.智能投顾 证券公司投顾业务的核心在于提供准确及时的投资建议,帮助客户进行资产配置和理财规划。秉持着“崇尚专业精神”理念,以客户为中心,运用大模型强大的数据分析能力和语义理解能力,提供个性化,差异化,定制化的金融产品与服务。具体体现在以下方面: (1)提高数据分析能力:大模型可以处理和分析金融市场数据,包括历史行情、新闻资讯等信息,挖掘出有价值的知识,为投资者提供更准确的投资建议。 (2)提升投资者体验:大模型通过客户基本信息、交易记录、风险偏好等信息,建立客户画像,为客户提供更具个性化的投资建议,提高客户的满意度。也可以根据客户的财务状况和投资风格,为客户制定个性化的投资策略,实现财富增值。 (3)提高投顾业务效率:借助大模型的自然语言理解能力,和客户实现自然流畅的交互,及时回复客户疑问,也可以将投顾业务中的活动自动化,例如报告生产、报表分析等,提高服务效率。 4.智能工作助手 大模型强大的自然语言理解能力、文本生成能力,可以辅助员工实现智能化办公,释放员工双手,激励员工发挥主动性和创造力,激发组织活力。其具体表现在: (1)文案助手:大模型可以帮助员工快速生成文案,提供文本创作的辅助,包括构建大纲、优化表达和内容生成,从而提高写作效率。 (2)文本助手:在会议场景中,能够自动生成会议纪要;在办公场景中,可以辅助员工编写工作报告,也可以辅助进行日常文档整理、文档审核、邮件发送、代码审核等工作,解放员工的双手去投身更有创造力的事情。 (3)问答助手:结合证券公司专业领域知识、大模型的语义理解能力以及向量数据库等技术,可以构建证券公司专业领域的知识库,为员工进行专业知识解答。 三、大模型在证券行业的应用落地 1.应用技术架构 AI大模型应用的顺利落地取决于其技术架构的成熟度,包括从硬件到软件的选择,以及技术与业务的适配都需要经历一个磨合的过程。常用的大模型应用技术架构包括以下几个层次: (1)基础设施层:包括GPU、CPU、RAM、HDD、Network等硬件资源,为大模型的训练与分析提供必要的运算资源和存储能力。 (2)模型层:主要由大语言模型、视觉-语言模型、向量模型等构成。大语言模型如GPT-4o,能够处理和生成自然语言文本,执行文本创作、翻译、摘要等任务。 (3)应用技术层:包括Agent技术、RAG(检索增强生成)技术、模型微调技术、提示词工程和思维链技术。这些技术提升了模型的推理能力,增强了信息生成的精准度,并通过微调适应特定任务需求。 (4)能力层:能够进行文字生成、图像生成、文档生成等任务。 (5)应用层:提供API接口,是用户与AI应用的接口。AI大模型的行业应用呈现两种趋势,包括通用大模型和垂类行业大模型。
图二:大模型应用架构 2.应用落地技术 在落地过程中,由于大模型在上下文理解、复杂任务执行和决策以及私有领域知识等方面存在局限,因此需要更多的技术支撑。Prompt、RAG和智能体是在此基础上的应用技术范式,它们扩展了大模型的应用范围,使其能够更好地适应特定的业务需求和场景,提升专业化服务水平。 (1)提示工程(Prompt Engineering) Prompt是一种设计精细的文本提示,它由角色、提示、上下文、输入、输出等元素构成。用户可以通过有效的prompt引导模型朝着用户期望的方向生成内容,提高模型的响应质量和效率。 在搭建金融大模型应用时,结合Prompt的特性,可以辅助员工完成日常工作内容制作,例如报告、各种文档的编写;下面文字为Prompt逻辑推理案例,目的为分析对方表达的逻辑结构和逻辑漏洞。 Prompt优化: #角色 你是一位严谨的逻辑学家,精通各种逻辑学原理与方法,能够精准地分析观点的逻辑结构以及找出其中的逻辑漏洞。 ## 技能 ### 技能1:分析逐辑结构 1.接收用户提供的观点后,仔细理并提取其中的核心论题、事实、隐含假设、对方立场和结论。 2.对观点的论证结构进行深入分析,明确其推理过程。 3.运用逻辑学知识,判断论证结构的合理性和有效性。 ### 技能2:找出逻辑漏洞 1.从论题的明确性、事实的准确性、结论的合理性、论证结构的严密性、基本假设的可靠性、概念的清晰性、立场的一致性等多个角度进行市视。 2.一旦发现逻辑漏洞,详细说明漏洞所在之处,并分析其对观点的影响。 3.提出反驳意见,通过合理的逻辑推理和事实依据,指出观点的错误之处。 ## 限制 严格遵循逻辑原则和规则进行分析,不凭主观臆断或情感因素进行评判。 基于事实和理性进行推理分析,确保分析结果的客观性和准确性。 用清晰、精确的语言与用户交流,避免使用模糊或歧义的表述。 人工提问及大模型回复: 用户提问:现代社会的发展依赖于科技,尤其是人工智能的出现将慢慢取代人类。 AI回答:分析逻辑结构 核心论题:现代社会发展是否依赖科技以及人工智能是否会慢慢取代人类。 事实:现代社会科技发展迅速,人工智能出现。 隐含假设:科技的发展会持续且单向地主导社会发展;人工智能在各个方面都能超越人类。 对方立场:现代社会发展依赖科技,且人工智能会取代人类。 结论:现代社会的发展依赖于科技,人工智能将慢慢取代人类。论证结构为:以现代社会科技发展迅速以及人工智能出现为依据,推出现代社会发展依赖科技且人工智能将取代人类。 二、找出逻辑漏涧 论题的明确性:对于“取代人类”的具体含义不明确。是在所有领域完全替代人类,还是在部分领域替代人类,没有清晰界定。 事实的准确性:虽然现代社会科技发展迅速,人工智能出现,但不能忽视人类在社会发展中的其他重要因素,如情感、创造力、道德判断等,这些并非单纯由科技决定。 结论的合理性:仅仅因为现代社会科技发展和人工智能出现,不能得出人工智能将取代人类的结论。人工智能目前在很多方面还存在局限性,且人类具有独特的思维和情感能力,难以被完全替代。 论证结构的严密性:该论证没有充分考虑到人类的适应性和创新能力。人类在面对科技发展时也会不断学习和进步,不一定会被人工智能轻易取代。 三、提出反驳意见 现代社会的发展确实离不开科技,但人类的价值观、文化、社会制度等方面同样对社会发展起着至关重要的作用,不能仅仅强调科技的作用。 人工智能虽然在某些领域表现出色,但它缺乏人类的情感、创造力和道德意识。例如,艺术创作、人际交往、伦理决策等领域,人类的作用难以被人工智能替代。 人类具有强大的学习和适应能力,在科技发展的过程中,人类可以与人工智能协同合作,共同推动社会的发展,而不是被取代。 综上所述,Prompt的出现提出了新的接口范式:自然语言接口(Natural-Language User Interface,简称LUI)。人机交互接口(User Interface,简称UI)的发展历经了命令行和图形界面的形式,而Prompt让事情变得更加简单化,通过自然语言就可以完成与系统的交互。 图三:交互接口演变趋势 (2)检索增强生成(Retrieval Augmented Generation) 大模型擅长语义理解和内容生成,但其本身存在如下局限性:知识是静态的、非实时的,无法提供最新的信息;缺乏私有领域的知识,许多企业内部的知识无法获取;存在模型幻觉,无法保证内容输出的真实可靠性。 Retrieval Augmented Generation(下文简称RAG)通过建立一个专属知识库的方式,将信息供给大模型,一方面拓宽大模型的知识边界,另一方面保障了企业内部数据的私密性,避免了模型幻觉。 在搭建企业应用时,RAG可以用于自动化合规检查和风险评估,通过分析历史数据、舆情信息和实时市场信息,预测潜在的风险点,并给出相应的风险控制建议,也可以充当企业专业知识问答助手。 如下图所示,系统会提前进行文本解析,将文本信息Embedding后灌入向量数据库,形成知识库(这中间涉及到大量的数据采集、清洗、入库工作)。后续当用户输入问题后,会先检索知识库返回上下文信息,然后将用户问题和上下文信息拼接成Prompt提交给大模型,最后大模型完成内容输出。 图四:RAG流程 RAG是搭建大模型应用缺一不可的利器,它在减少Fine-Tuning(数据训练)投入成本前提下,为大模型扩展了能力边界。 (3)智能体(Agent) 目前,智能体已成为AI领域的一个主流研究方向,其核心在于将复杂任务分解成多个步骤,并通过循环迭代的方式逐步优化结果。这种工作方式更接近于人类解决问题的思维模式,其可拆分为四个关键部分: 规划(Planning): 体现为一个复杂的思维链,将大型任务规划分解为子任务,并规划执行任务的流程。在整个过程中会有一个反思和纠正的过程。 记忆(Memory):短期记忆,是指在执行任务过程中的上下文,会在子任务的执行过程中 产生和暂存,在任务完结后被清空。长期记忆是长时间保留的信息,可以保存在Prompt模板中。 工具使用(Tool use):为智能体配备工具 API,通过Function Calling来访问外部接口,比如数据库查询工具、代码执行器、外部资讯网站等。通过这个与物理世界实现交互,解决实际的问题。 行动(Action):也是一个复杂的思维链过程,通过不断拆解动作,来完成整个行动。在整个过程中会有一个反思和纠正的过程。 在搭建企业大模型应用时,智能体能够自动化执行一系列任务,简单的如处理电子邮件、管理项目和日常工作,并提供决策支持等,也可以结合RAG实现智能风控。如下图流程图所示,在构建系统时,会将用户输入、使用工具、长时记忆、规划都定义到Prompt模板中,通过Prompt去访问大模型;之后由大模型输出内容决定是否直接生成答案还是调用外部工具,执行过程中的短时记忆会存储在Prompt模板中。如此循环迭代,直至完成最后的任务。 图五:核心模块流程图 智能体是基于大模型的综合应用,随着不断地深入探索和研究,其能力边界将不断被拓展,更好地服务于行业。 四、大模型在证券行业的落地挑战 大模型在证券行业的应用尚处于起步阶段,尽管价值潜力巨大,但探索之路依然荆棘丛生,在投入、适配、安全、合规等方面仍然面临如下挑战: 算力和基础设施投入:购买和升级硬件设备、满足算力标准、存量系统升级等需要耗费巨额成本,这对于中小型券商来说是一笔巨大的预算。 技术与业务的适配:证券IT稳定性要求与新技术日新月异的变化之间存在矛盾。将大语言模型集成到证券公司现有的IT架构和工作流程中可能遇到技术挑战,包括系统兼容性问题、成本问题和合规性问题 。 数据安全与合规性:证券公司处理的数据高度敏感和机密,数据安全成为一个重大的关注点。证券公司需要进一步规范创新,坚持稳中求进,将数据安全与合规性作为文化建设的要点和公司战略发展紧密融合。 模型的“幻觉”特性:大模型的可解释性差,容易出现“幻觉”,生成看似合理却无法应用于实际情境的非事实性内容。在金融领域,这可能导致错误的投资建议和风险评估。 五、结语 本文剖析了大模型的核心技术原理,梳理了大模型在证券行业的多样化应用场景,并总结了相关应用技术架构及落地实践,同时审视了这些技术创新运用过程中的挑战。未来,各证券公司一方面要继续秉承“创新、协调、绿色、开放、共享”的新发展文化理念,积极拥抱新科技和新生态,努力落实好科技、绿色、普惠、养老、数字金融等“五篇大文章”;另一方面要坚守底线思维,坚持稳中求进,以审慎的视角来面对大语言模型的发展,重视技术应用的安全性、可靠性、合规性,最大程度发挥新科技在金融行业的潜力。 (责任编辑:王晨曦) |