哈希泰格智能应用中台:AI智能化与数据协作的技术范式
构建完善的LLM技术供应链,提供高效的数据管理与推理能力,助力企业进行投资尽职调查与数据分析。

哈希泰格智能应用平台:AI智能与数据协作的技术范式
在现代企业AI应用中,数据和AI智能能力的建设是技术突破的关键。哈希泰格智能应用平台构建了一套全面的LLM技术供应链和软件生态系统,整合了知识数据、本地数据、设备边缘托管数据以及API托管推理所需的扩展数据,提供了高效的数据管理和推理能力。
我们为多家金融机构提供数据分析、筛选、评估和尽职调查服务,尤其在企业背景调查和投资目标分析领域。证券化文件的复杂性,如法律细节和到期条款,使得其往往难以理解。投资者、交易员和销售人员在尽职调查中,必须仔细分析证券的各个方面,包括整体结构、单个贷款机制和优先结构。同样,理解结构性股票票据也需要对不同发行人使用的术语进行精确解释。尽管这些文件相对简短,但客户必须快速高效地识别诸如担保/保护机制、支付公式和适用法律等关键要素。目前,投资者的主要工具是PDF中的关键词搜索,但在寻找精确答案和相关上下文时,这种方法耗时且效率低下。
大语言模型的优势
LLM非常适合解决这些问题,能够通过自然语言接口提供上下文相关的回答。然而,挑战在于LLM无法精确地学习特定的交易文件,这可能导致误导性的答案。一个常见的解决方案是引入检索增强生成(RAG)系统,该系统结合高效的文档存储和基于向量数据库的检索功能,选择相关文本片段,大语言模型则通过提示工程生成准确的用户查询答案。
为了确保系统的可扩展性,实验的可重复性和准确性至关重要。尽管RAG方法已在广泛的通用场景中被研究,但其在特定深度领域,尤其是金融领域中的应用仍需进一步探索。本研究旨在识别机器学习系统在此类用例中的最佳设置,包括:
- 通过正确的问题定义标准。
- 权衡长上下文LLM和RAG解决方案在不同场景中的利弊(如分析OpenAI最近发布的128k上下文GPT-4)。
- 分析系统的各个组件:向量数据库相似度搜索、LLM的上下文理解以及LLM生成答案的质量。
- 识别系统设置中所需的其他组件,如UI/UX元素和LLM方法论。
模型评估与结果
为评估模型的能力,金融领域的专家选择了一组与投资尽职调查相关的高价值问题。这些问题涉及证券的关键特征,如提供的资产、本金分配/名义价值、相关实体的身份、地理分布等。除了关注文件中的关键细节外,这些问题还测试了LLM对各种语言理解挑战的能力,包括姓名、日期、地点、列表和表格等。这个多样化的问题集旨在突出模型的优势和局限性。
我们将实验分为三大部分:
-
相似度搜索实验:目标是找到与查询相关的文档部分。实验发现,通常五个检索结果足以构建模型所需的代表性上下文。此方法不仅提高了效率,还减少了发送给LLM的信息量,从而降低了操作成本和系统延迟。
-
上下文理解实验:评估LLM在相似度搜索返回的文本片段中,识别支持性证据的能力。在某些情况下,直接引用源文档或通过原文强化LLM生成的答案非常有用。模型平均正确识别包含答案的文本片段的比例为76%,并在91%的情况下有效忽略了不相关的段落。
-
答案质量评估:我们分析了两类任务的回答质量:数值提取(如名义金额、日期、发行规模等)和文本答案(如句子或段落形式的回答)。在这两类任务中,GPT-4的表现优于GPT-3.5,数值提取的准确率为75-100%,文本答案的生成质量在89-96%之间,取决于任务的复杂性。在这些情况下,128k上下文窗口的表现与较短窗口相当或略逊。
结论
在本研究中,我们分析了不同设计和配置对RAG系统在金融文档尽职调查中的影响。结果表明,RAG系统在LLM对话代理设计中作为推理组件有很大潜力,尤其适用于用户需要从大量金融文档中提取特定交易定义的场景。总体来看,这些实验为未来LLM问答工具的设计奠定了坚实基础。然而,我们也意识到,检索和生成只是一个完全集成的对话过程的一部分。未来的LLM代理将可能使用多种工具来理解和上下文化客户的广泛需求,而用户体验的设计将在为客户提供及时、信息丰富的金融尽职调查体验中发挥至关重要的作用。
哈希泰格智能应用平台不仅局限于金融领域的应用,它为其他行业如医疗、法律等复杂文档分析提供了广泛的应用潜力。通过其先进的数据协作和AI智能能力,平台未来在推动跨行业的数字化转型中,将发挥关键作用。
