司法领域大模型调研三

本文最后更新于:10 个月前

方向参考

  1. 大模型生成数据,提升数据质量。大模型生成数据作为训练数据,即便存在问题也可以说明,存在幻觉问题。
  2. 司法数据集已经有很多公开的数据集了,并不存在数据稀疏。
  3. 大模型对知识图谱数据的获取方面有哪些研究。
  4. 司法数据隐私安全方面,联邦学习是否可以解决。
  5. 数据时效性,数据动态更新问题,如何更新,更新效率,高低频案件变化问题。
  6. 时序知识图谱看能否运用。

调研任务

研究现状:
1. 数据集构建和信息抽取
2. 知识图谱(重点在更新)
3. 知识图谱和大模型相互促进
研究内容:
1. 数据集构建与信息抽取
2. 司法知识图谱构建
3. 图谱融合和动态更新
4. 知识图谱与大模型相互作用


知识图谱与大模型相互增强与协同运用

知识图谱增强大模型

愿景

希望利用知识图谱中的确定性知识提升大模型回答问题的可靠性,增强对答案的可解释性,并帮助大模型确定自身的能力边界。在这一过程中,研究者需要不断探索知识图谱增强大模型的有效方式,并需对结果进行客观、准确的评估。

研究现状

  1. **知识图谱作为预训练数据[3]**:由于自然语言文本本身可能只提供有限的信息覆盖,而知识图谱可以为语言模型提供结构化的事实知识,集成知识图谱的语言模型(预)训练方法,使得向模型注入世界知识和实时更新知识更加方便。这种融合了知识图谱信息的语言模型,在知识密集型 QA 任务上展示了具有竞争力的结果,证明了这种方法在提升语言模型的能力具有重要意义。
  2. **监督微调[2]**:可以通过 KG 2 Instruction技术将知识图谱的转化成指令用于微调,还可以通过 OntoPrompt 将本体用于提示微调;
  3. **知识融合和更新[2]**:可以通过知识图谱的三元组对大语言模型进行编辑从而实现知识更新[Cao 2021],并且可以将大语言模型跟知识图谱通过表示学习进行融合[Nayyeri  2023],以及将一个大模型的知识迁移给另外一个大模型[Choi 2022];
  4. 模型推理[2]借助外挂知识库/图谱知识增强提升 LLM 效果[1]:目前比较主流的方式为使用外挂知识库的方式增强大模型输出的效果。具体为:将用户输入的问题转换为向量后,将该问题向量放入知识库中进行检索,并将相关的文档片段取出后与原始输入问题进行合并等操作后,将其作为新的输入送入大模型中。这样在输入端就对 LLM 的输出进行了一些限制,能够减轻 LLM 输出的“幻觉”问题。另外的,这种文本知识库也可以替换为图数据库,即将文本信息转换为图数据后进行检索。
    另外,**构建提示模板[3]**:目前使用知识图谱来丰富和微调提示模板,从而在提示的数量、质量和多样性上比手动的方法更具优势,已有方法证明了通过图谱构建的提示模板进行推理比传统方法更具竞争力,但目前该方法仍存在挑战与机遇:
    1)生成上下文感知的写作提示,分析不同提示之间的关系,形成具有关联关系的提示模板。
    2)动态生成和用户交互的提示模板,由于知识图谱提供了知识的透明表示,因此可以很容易地将从知识图谱生成的提示追溯到它们的底层源。
    3)将知识图谱集成到提示模板中,增强模型生成内容的可行度。
    4)知识图谱可以创建询问问题的提示,从而触发知识图谱复杂推理能力和中间推理步骤。
    此外,还可以通过知识图谱生成提示[Chen 2022]或者指令[Du, 2022]用于增强模型的推理能力。此外,思维链可以指导大模型推理[2],知识图谱可以表示和生成思维链,通过结构化更好的思维链提升大模型的推理能力。
  5. 增强可解释性:包括用KG来理解LLM所学到的知识并解释LLM推理过程。

大模型增强知识图谱

愿景

利用大模型的外溢技术对于提升知识图谱构建任务的性能和效率有帮助,研究者还可以充分利用大模型出色的泛化能力、以及在一些基础任务上的出色性能来自动构建一些高质量的知识图谱资源。这些资源从长远来看,对于文本处理的各项任务而言更有意义。大模型的出色泛化能力可以帮助快速形成一定规模、一定质量的行业知识图谱,为后续可行的“大模型+行业”模式提供重要基础支撑。

研究现状

  1. **知识自动建模[4]**:可以为知识抽取生成标注数据,利用大语言模型的知识理解能力,可以设计通用信息抽取方法,利用一个模型抽取实体、关系、属性值、事件,大语言模型还可以做零样本知识生成,利用通用信息抽取得到的三元组,通过人工校对形成大标注数据还可以用于训练监督模型
  2. **知识融合的自动化 [5] 于冲突解决 [6] :
  3. **知识图谱的知识表示学习[7]**:
  4. 本体模式的构建:该部分包括三方面分别为:
    • 从知识图谱中挖掘约束和规则:现有构建知识图谱的方法通常使用 pipeline 的方式,这种方法容易造成误差传播问题,通过引入自动化的规则和约束来限制构建图谱时错误信息的引入可以提升数据的质量。如何生成这些约束和规则是一个根本性的挑战,在此背景下,大语言模型带来了新的机遇:
      1)从输入文本中提取上下文信息的能力;
      2)在训练过程中使用上下文提取信息;
      3)通过归纳推理生成新的规则
      4)理解词汇信息,协调同义词和一词多义现象;
      5)提供规则的解释和生成候选以及反事实样例。
    • 本体优化:本体优化包含很多主题:知识补全、错误知识检测和修复和知识规范化等,开发基于大语言模型的本体细化工具仍然存在以下挑战:
      1)利用文本及其本体的图结构和逻辑;
      2)结合符合推理和大语言模型推理。
    • 本体对齐:单个本体的知识通常是不完整的,许多真实世界的应用通常依赖于跨领域的知识。本体对齐的主要挑战是评估基于大语言模型的本体对齐系统。

现存问题

知识图谱运用于大模型

  1. 外挂知识库引起的问题:
    1. 检索长度造成的敏感度问题:检索样本数量的增多,LLM 输入的长度也随之扩大。而已经有相关研究表明,随着 LLM 输入长度的增加,LLM 对输入文本两端的文本敏感,而对输入文本靠近中间的文本越来越不敏感。
    2. 非对称检索问题:外挂知识库在非对称检索上的效果并不是很好,简单来说就是向量化模型很难将问题和答案映射到统一向量空间。
    3. 外挂知识库的局限性:外挂知识库只从输入端对“幻觉”问题进行一定的限制,这样可能还会使得大模型的输出存在一些“幻觉”问题,并未从输出端对“幻觉”问题的限制。

大模型运用于知识图谱

  1. 从大模型进行知识抽取提取三元组遇到的挑战:
    1)由于实体名称的重复性,需要进行实体消歧
    2)由于大语言模型读长尾实体记忆的不精确性,导致产生错误的信息;
    3)大语言模型面临着高精度的要求;
    4)大语言模型的输出不提供出处,为核验该信息的准确性带来了信息的挑战。

个性问题

知识图谱

大模型

  1. 知识表示与推理
    知识图谱提供了具有明确关系的知识的结构化表示,支持推理和推断。有学者认为大语言模型中“参数化”的知识是基于统计的,并不是真正的理解和推理,并且由于缺乏明确的知识表征,模型会生成看似合理但却荒谬的结果。
  2. 高精度方法
    知识图谱的成功在于其可以精确地提供关于实体的事实信息,如 YAGO,可以提供 95%以上的正确信息。同样知识图谱在用于生产环境时需要较高的精度,例如 Google 的 Knowledge Vault 未能成功落地也是因为其精度达不到要求的 99%。目前基于 BERT 或 GPT 等的方法不能满足以上要求,这知识计算科学家仍然需要探索基于大语言模型的高精度的方法。
  3. 数值计算
    对于语言模型来说,完成数值计算工作是一项具有挑战性的任务,该挑战同样适用于知识图谱补全任务。在基于 Wikidata 的数字事实来评估语言模型数值计算能力中,没有一个模型能准确地得到结果,尽管已有的模型在数值处理的能力上表现不俗,但考虑到数值具有不同的度量和类型,使得该任务难度进一步升级,因此,修改模型来处理数值的问题仍未被解决,以至于利用大语言模型来完成数值知识图谱的补全看起来是不现实的。
  4. 长尾知识
    在对大语言模型的调查过程中发现,使用 Wikidata 中随机的知识对模型进行测试时,模型的性能会急剧的恶化,尤其是在遇到长尾的实体时。这种情况的出现,究其原因就是在预训练过程中实体和关系出现的频率是不一样的,模型对长尾的信息是难以保持精准记忆的。相反,知识图谱在提供长尾实体的知识上具有天然的优势,因此可以进一步提升大语言模型在知识计算任务中的回忆能力。
  5. 偏见、公平等
    一部分学者认为大语言模型会使训练数据中的偏见持续存在并放大,从而导致有偏见的输出。而另一部分学者认为偏见不是大语言模型中所固有的特征,而是训练数据集中嵌入的社会偏见,他们强调了在训练数据中消除偏见和开发能够缓解偏见技术的重要性。知识图谱在构建过程中同样会嵌入“偏见”,并且会被运用到各种下游任务中。除了偏见和公平外,还有侵犯版权和错误信息等问题。与显式知识相比,大语言模型中“参数化”偏见知识更难以被去除或修改。(种族歧视)大模型对黑人有偏见,画黑人医生给儿童治病结果大部分生成结果都是白人医生。
  6. 可解释性
    在可解释性的场景中,知识图谱通常是首选的。对大语言模型持有怀疑态度的学者们认为:大模型是一个黑盒,缺乏可解释性,很难理解他们是如何产生结果的。但支持者们虽然承认了大模型可解释性差的问题,但却通过最近的一些研究,如注意力机制、模型内省等技术可以在一定程度提升模型的可解释性。思维链技术、问题解耦和答案归因等方法,是最近在大语言模型可解释性方法研究中的一些热点话题。

共性问题

协同完成复杂知识处理任务

  • 大语言模型平台可以利用知识图谱平台生成的符号化知识对企业中的各种知识进行集成,对大语言模型平台的指令进行分解,完成复杂任务(比如说微软 Office 365 Copilot)。
  • 知识图谱平台和大语言模型平台协同完成复杂问题的知识问答,这里可以发挥大语言模型的语义理解能力和知识量大的优势,同时发挥基于知识图谱的问答系统的知识精确性和答案可解释性的优势。
  • 知识图谱平台用于沉淀大模型平台中任务驱动的关键知识,用于完成需要精确、可解释的问答和行动。

参考文献

  1. 任飞亮—大模型与知识图谱研究中的若干问题思考
  2. 漆桂林—知识图谱和大语言模型的共存之道
  3. Jeff Pan、陈矫彦等——大语言模型与知识图谱的机遇与挑战
  4. Giglou-LLMs4OL: Large Language Models for Ontology Learning
  5. Zhang-AutoAlign: Fully Automatic and Effective
    Knowledge Graph Alignment enabled by Large
    Language Models
  6. Wang-An Embedding-based Approach to
    Inconsistency-tolerant Reasoning with
    Inconsistent Ontologies
  7. Pan-Unifying Large Language Models and
    Knowledge Graphs: A Roadmap

司法领域大模型调研三
https://alleyf.github.io/2023/11/9924044a419d.html
作者
范财胜
发布于
2023年11月1日
更新于
2024年1月4日
许可协议