多源异构司法数据汇聚融合-解决方案调研

本文最后更新于:5 个月前

数据采集

数据源


采集技术

简介及安装 - feapder官方文档|feapder-document feapder 是一款上手简单,功能强大的 Python 爬虫框架

  • WebMagic:它是一个基于 Java 的开源爬虫框架,它提供了一个灵活且易于使用的 API,可以帮助开发人员快速开发爬虫程序。它支持多线程、分布式爬取,并且可以方便地进行网页解析和数据存储。首先,你需要导入 WebMagic 库。你可以从 WebMagic 的官方网站上下载最新的 jar 包,并将其添加到你的项目中。然后,你可以创建一个 Spider 对象,并定义爬取的起始 URL 和解析的规则。接下来,你可以使用 Pipeline 接口将爬取的数据进行处理和存储。
  • Selenium:主要用于自动化测试。但也可以用于爬虫,通过模拟浏览器进行操作渲染出动态页面内容。
  • Scrapy:Python 语言的强大爬虫框架,也有 Java 版本 scrapy-java-core。功能强大,支持分布式。

需求分析

背景介绍

互联网上存在着大量多样化的数据源,这些数据往往分散在不同的平台,而且不同来源的数据格式、结构、标准可能不同。通过汇聚融合这些数据,可以获得更全面、准确和有洞察力的信息。因此有必要构建互联网数据汇聚和融合平台,合理利用多个数据源,打破数据孤岛,实现资源的优化配置,提高数据的利用效率。

因此,本毕业设计主要研究基于 Web 前后端开发技术,实现数据汇聚融合系统的设计与实现。为了有效汇聚和融合并管理数据,需研究不同数据源的数据模型和结构,并选择合适的数据存储方案,实现数据的持久化。同时需要研究系统架构设计和设计模式,以便用户能够方便地查询、分析和理解融合的数据。

具体要求

(1)查阅相关文献资料 15 篇以上(其中近 5 年外文文献不少于 3 篇),了解并总结选题对社会、健康、安全、成本以及环境等的影响,完成开题报告;

(2)要求学生基于 Web 前后端技术对数据汇聚融合系统进行开发,其设计任务包括:

①爬取互联网数据,并实现*数据的转换和融合*。

②设计实施一个完整的互联网数据汇聚融合系统,并实现*数据源管理*。

③实现*统一的数据呈现*,以便用户能够方便地查询、分析数据。

(3)完成不少于 12000 字的论文的撰写并完成答辩的相关工作。 

(4)在正文中应包含不少于 12 幅图(包括:服务架构设计图、流程图、程序框图等、类图等) 的描绘或设计。 

(5)完成不低于 5000 汉字(20000 英文印刷符) 的教师指定的相关文献的英译汉翻译。

任务节点

(1)第 1-3 周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。 

(2)第 4-5 周:熟悉掌握基本理论,熟悉相关工具软件的使用。论文开题;(至少完成 1 次阶段性报告) 

(3)第 6-9 周: 完成对互联网数据的爬取,通过一定的智能化处理和转换融合,实现统一汇聚,并撰写相应章节的论文。

(4)第 10-12 周:设计和实施一个完整的互联网数据汇聚融合系统,实现统一的数据呈现和管理,并撰写相应章节的论文。

(5)第 13-15 周:完成英文资料的翻译,完成并修改毕业论文,准备论文答辩。 

(6)第 16 周:论文答辩。

参考文献

[1] [美] 克雷格•沃斯(Craig Walls)著. 丁雪丰译. SpringBoot 实战(第 4 版)[M]. 人民邮电出版社, 2016 年 9 月.

[2] 阳振坤,杨传辉,韩富晟等.OceanBase 分布式关系数据库架构与技术[J/OL].计算机研究与发展,1-16[2023-12-21].

[3] 周毅,李威,何金等.基于 Scrapy 框架的分布式网络爬虫系统设计与实现[J].现代信息科技,2021,5(19).

[4] 邢羽琪,杨柽.基于逆向技术的深层网络爬虫与数据分析[J].软件工程,2023,26(12).

[5]  [美] 泽卡斯(Zakas Nicholas)著. 李松峰等译. JavaScript 高级程序设计(第 4 版). 人民邮电出版社, 2020 年 3 月.

[6] Kumar, M., Bhatia, R., & Rattan, D. (2017). A survey of Web crawlers for information retrieval. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 7(6), e1218.

[7] Apache Dubbo 官方文档[EB/OL]. 2022-11-01. https://dubbo.apache.org/zh/.

综合概述

毕业设计概述 - 飞书云文档


工作进展

日期 进展 备注
2023~2024学年
第二学期
第一周(2024-03-01)
1. 完成毕业设计开题报告。
2. 完善数据处理业务代码。

答辩大纲

研究背景与意义

政策支持

2021 年 1 月,中共中央印发的《法治中国建设规划(2020-2025 年)》明确提出了全面建设“智慧法治”,推进法治中国建设的数据化、网络化、智能化的目标。2022 年 3 月,最高人民法院工作报告进一步提出“深入推进司法体制改革和智慧法院建设”的重要议题,旨在以科技赋能司法,利用司法大数据辅助司法工作。随后,2022 年 12 月,最高人民法院发布了《关于规范和加强人工智能司法应用的意见》[1],进一步强调了加强人工智能技术与司法工作的深度融合,以推动智慧法治建设迈向更高水平。接着,2023 年 1 月,习近平总书记在中央政法工作会议上再次强调了加强智慧法院建设的重要性,着力推动“数字法治、智慧司法”建设。智慧司法旨在依托大数据与人工智能技术,深度分析并应用司法数据,以提升司法效能、降低管理成本,实现审判执行更加智能化、司法管理更具科学性、司法服务更加便民化,对提升国家法制建设和社会信息化水平具有重要意义[2, 3]。

现状问题

尽管目前智慧司法应用种类繁多,但多数仍然依赖非结构化文本数据存储技术。相较于结构化数据,并不利于计算机的分析理解和处理。此外,由于司法数据种类多样、来源众多并且数据关联融合难度大,尚未充分挖掘其深层潜在信息,导致面向司法下游任务的上层应用效果不够显著,仍需加强。

价值意义

因此,研究司法数据的汇聚融合与表征管理,有效挖掘数据的结构化特征,构建面向司法领域的互联网数据汇聚融合平台,合理利用多个数据源,打破数据孤岛,进行资源整合与优化配置,提高数据的利用率,从而实现多源、异构司法数据的汇聚融合、统一管理、深度挖掘和优化配置,有助于支撑司法数据的深度实践与应用,对于解决当前智慧司法实践中的难点和痛点,促进司法信息化和智能化建设,提升司法效能,支持司法管理决策,以及促进公平正义等方面具有重要的研究意义。

研究内容与目标

研究内容

为了更好地解决多源异构司法数据孤立低质、汇聚困难、利用率低、难以管理和挖掘程度低等痛点问题,本课题将聚焦于以下几个方面进行研究:

动态司法数据并行自动汇聚方法。设计互联网多源异构司法数据统一汇聚标准,实现网络司法数据自动化并行采集,统一汇聚并融合多源异构司法数据,提高数据获取效率提供海量数据基础。

多源异构司法数据存储表征方法。设计合理的数据结构、存储格式和表征方式,实现多源异构司法数据持久化存储和个性化表征,便于集中管理利用和统计分析。

低质司法数据智能处理挖掘方法。设计多源异构司法数据智能处理方法,实现低质司法数据的清洗转换以及深层潜在信息的挖掘表示,有利于构建高质量司法语料库,为基于司法大数据的深度应用与实践奠定基础。

研究目标

本课题研究目标旨在汇聚融合互联网上多源异构的司法数据,打破数据孤岛提高数据利用率,集中统一存储管理分析司法数据,对其进行数据清洗挖掘深层潜在的结构化信息,以构建高质量司法语料库,为基于司法大数据的深度研究与应用提供有力支撑。具体实现以下目标:

  1. 设计一个统一范式的司法数据并行自动化汇聚方案。
  2. 构建一个多源异构司法数据汇聚融合处理表征平台。
  3. 形成一种司法数据智能处理和信息挖掘方法。

本课题将有助于构建司法大数据获取管理分析处理的新范式,整合多源异构司法数据打破数据孤岛,实现资源的优化配置并提高司法数据利用率,为司法领域研究的学者们提供数据基础,有利于推动完善智慧司法生态体系。

系统设计与实现

平台需求分析

面向司法领域的互联网数据汇聚融合系统的主要目的是实现互联网上孤立分散的司法数据进行汇聚融合、管理分析和深度挖掘,为基于该司法数据的深度研究与应用提供有力支撑。该平台系统只有平台管理者一类用户,管理者可以在线采集网络上的司法数据,并对其进行管理分析,还可以在线检索阅览,以及数据清洗和挖掘等智能处理操作。因此,本平台系统的核心业务功能包括:

(1)     系统管理服务: 平台用户可以对系统菜单、用户、角色、权限、日志等系统相关联的基础要素进行管理。

(2)     数据采集服务: 平台用户可以对目标数据源、采集节点、采集项目、采集执行器和采集任务等进行管理,包括汇聚任务的定义与执行。

(3)     统计管理服务: 平台用户可以对采集到的司法数据进行增删改查等基本管理以及个性化统计分析,以多元图表形式进行展示,并且支持数据的清洗挖掘智能处理。

(4)     文库检索服务: 支持对采集到的司法数据(司法案例和法律法规)进行快速检索在线阅览相关信息,包括案件与法条的基本信息以及挖掘的潜在信息。

(5)     消息通知服务: 用户可以在线实时与服务端进行消息的收发通信,包括接收执行不同任务所推送的消息通知,帮助用户感知任务完成进度情况。

(6)     平台监控服务: 支持对系统服务的状态监控以及各类中间件的监控,具体包括各微服务的运行状态监控、Redis 缓存中间件的状态监控。

系统设计与关键技术概述

(1)     交互层:该层旨在为用户提供统一的服务入口进行页面功能交互,通过使用Nginx对平台内部服务进行反向代理负载均衡,将外部请求分发到后端的多个内部服务,确保平台能够高效、稳定地处理大量的并发请求。

(2)     服务层:该层包括了平台系统核心的业务功能,为了实现不同业务功能模块的功能独立和业务解耦,以“高内聚,低耦合”的设计理念按照需求分析中的六大模块设计对应的六大微服务模块以满足平台业务功能要求,各服务之间各司其职而又有机融合共同承担着系统不同的任务。

(3)     存储层:该层通过多种数据存储集群构成,包括关系型数据库MySQL和非关系型数据库MongoDB、缓存数据库Redis以及消息队列RabbitMQ集群,分别负责不同类型数据的存储与访问,为数据的持久化存储和快速响应提供有力支持。

(4)     基础层:该层采用Spring Cloud Alibaba微服务套件包括Nacos、Sentinel、Seata和Dubbo作为基础设施为平台提供服务配置发现、流量控制熔断降级、分布式事务和服务治理远程调用等基础服务,使平台系统能够稳定可靠的运行。

(5)     硬件层:该层以容器化技术为核心,借助Docker对服务进行打包部署和监控管理,再通过Kubernetes对不同虚拟机或物理机节点上的容器应用进行编排管理,从而实现资源隔离、可拓展、可移植和自动化运维的效果。

技术实施路线

(1)     数据源: 调研分析多种数据源进行可行性分析,分析是否可以通过自动化数据采集获取,对于可行数据源的数据进行分析,具体包括数据源所包含的数据种类、结构和规模等,为自动化采集奠定数据基础。

(2)     数据汇聚: 支持自动采集和人工手动导入两种数据汇聚方式,自动采集根据(1)得到的合法可行的数据源根据其结构类型特征设计汇聚方案进行自动化采集。

(3)     数据处理: 对初步采集到的低质数据进行预处理(清洗、融合和转换等)获得高质量司法数据,并对其进行数据挖掘提取归纳正文中隐含的关键结构化信息,并持久化存储于MySQL和ElasticSearch,对于系统常用数据缓存到Redis数据库,此外,将各种文件采用OSS云存储或Minio本地存储。

(4)     数据表征与管理: 根据数据特征、结构和内容选择恰当的可视化形式进行展示便于分析管理查看,并支持数据在线管理和检索阅览。

平台优化与应用

访问性能优化

  1. 关键索引
  2. 分库分表
  3. 数据库连接池
  4. Redis缓存
  5. 消息队列

服务性能优化

  1. 页面静态优化
  2. 服务部署优化
  3. 反向代理负载均衡

集成测试与分析

测试环境与方法

功能测试

性能测试

总结与展望

成果总结与价值

司法领域数据层面存在多源异构司法数据孤立低质、获取困难、利用率低、难以管理和挖掘程度低等痛点难点问题,为了更好地解决上述存在的痛点难点问题,本课题的主要贡献在于以下三个方面:

设计了一种基于Feapder汇聚框架的司法数据自动采集汇聚方案,以统一范式并行自动化采集汇聚司法数据。构建了多源异构司法数据统一采集模板,可针对模板进行修改以适应不同采集需求,实现了司法大数据自动化并行采集,统一汇聚并融合了多源异构司法数据,提高了数据获取效率并提供了丰富的数据基础。

构建了一个基于分布式微服务架构的司法数据管理平台,以统一处理表征多源异构的司法数据。设计了统一可扩展的数据结构、存储格式和表征方式,实现多源异构司法数据统一汇聚、持久存储和个性表征,便于集中管理和统计分析。

形成了一种基于提示工程的司法数据智能处理挖掘方法,以智能处理并深度挖掘海量司法数据。设计了多种司法数据提示模板指导大语言模型进行智能处理和信息挖掘,实现低质司法数据的清洗转换以及深层潜在信息的挖掘表示,作为构建高质量司法语料库的基础,为基于司法大数据的深度应用与实践提供有力支撑。

综上所述,本课题的研究有助于为学术研究人员构建司法大数据获取管理分析处理的新范式,整合多源异构司法数据打破数据孤岛,实现资源的优化配置并提高司法数据利用率,为司法领域研究的学者们提供数据基础,有助于推动完善智慧司法生态体系。

现存问题与改进

  1. 数据表征不足、运用程度低不充分:构建知识图谱
  2. 汇聚规则需要人工调整、无法特征学习动态演变:AI数据汇聚
  3. 数据处理效率低、方法单一不全面:多元可靠并行计算协同处理

视频讲稿

本次演示为了节约时间,主要演示汇聚融合、管理分析和检索等核心功能,首先登陆账户进入汇聚平台,首页展示了平台最新汇聚的文书和数据综合概览。

接着进入汇聚管理,点击采集管理页面,找到采集任务,设置好参数,启动任务进行采集,采集过程将以日志的形式打印便于排查分析,采集结果将自动保存到数据库中,进入管理分析页面可以看到最新采集汇聚的数据,选中该数据进行清洗挖掘,经过清洗挖掘处理后数据变得更加清晰完整。

然后,点击统计分析可以看到图表形式展现的整个文库的数据规模、类型、和分布等综合情况,帮助用户快速掌握数据全局信息。

接着,进入文库检索页面对处理后的数据通过关键词或条件检索,点击检索到的命中项进入详情页面,可以阅览文书正文内容,基本信息,正文词云图以及挖掘得到的其他信息,并且支持大语言模型驱动的知识库问答,帮助用户多粒度快速了解文书内容。

参考案例

  1. 绿色主题开源小说系统,原创/爬虫双模式_哔哩哔哩_bilibili

多源异构司法数据汇聚融合-解决方案调研
https://alleyf.github.io/2023/12/5f1c44e4965a.html
作者
fcs
发布于
2023年12月3日
更新于
2024年5月31日
许可协议