书籍数据处理方法、装置、设备及存储介质与流程
- 国知局
- 2024-11-19 09:39:05
本公开实施例涉及计算机,尤其涉及书籍数据处理方法、装置、设备及存储介质。
背景技术:
1、书籍一般指装订成册的图书,为了方便读者查看,可以将一些类型的书籍进行电子化。以古籍为例,古籍,是指未采用现代印刷技术印制的书籍。古籍数字化是指利用现代信息技术对古籍文献进行加工处理,使其转化为电子数据形式,通过光盘、网络等介质保存和传播。
2、目前,采用人工智能相关技术,可以将书籍对应的图片等数据转化成可阅读数据。然而,现有算法识别的直接产物只具备基础的可读性,仍然需要耗费大量的人力进行精细的校对工作,工作效率低下。
技术实现思路
1、本公开实施例提供了书籍数据处理方法、装置、存储介质及设备,可以实现针对书籍的自动校对。
2、第一方面,本公开实施例提供了书籍数据处理方法,包括:
3、确定目标书籍对应的底本数据、校本数据以及目标校对场景;
4、根据所述目标校对场景确定对应的目标组件配置信息,其中,所述目标组件配置信息中包括待调用的目标校对组件的标识信息,不同校对场景对应不同的组件配置信息;
5、基于所述目标组件配置信息调用所述目标校对组件,以通过所述目标校对组件对所述底本数据和所述校本数据进行匹配处理;
6、根据匹配处理结果确定所述目标校对场景下所述底本数据的校对信息。
7、第二方面,本公开实施例还提供了书籍数据处理装置,包括:
8、场景确定模块,用于确定目标书籍对应的底本数据、校本数据以及目标校对场景;
9、组件配置确定模块,用于根据所述目标校对场景确定对应的目标组件配置信息,其中,所述目标组件配置信息中包括待调用的目标校对组件的标识信息,不同校对场景对应不同的组件配置信息;
10、匹配模块,用于基于所述目标组件配置信息调用所述目标校对组件,以通过所述目标校对组件对所述底本数据和所述校本数据进行匹配处理;
11、校对信息确定模块,用于根据匹配处理结果确定所述目标校对场景下所述底本数据的校对信息。
12、第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:
13、一个或多个处理器;
14、存储装置,用于存储一个或多个程序,
15、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本公开实施例提供的书籍数据处理方法。
16、第四方面,本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本公开实施例提供的书籍数据处理方法。
17、本公开实施例提供的书籍校对方案,确定目标书籍对应的底本数据、校本数据以及目标校对场景,根据校对场景确定对应的目标组件配置信息,其中,组件配置信息中包括待调用的目标校对组件的标识信息,不同校对场景对应不同的组件配置信息,基于组件配置信息调用目标校对组件,以通过目标校对组件对底本数据和校本数据进行匹配处理,根据匹配处理结果确定底本数据的校对信息。通过采用上述技术方案,根据目标校对场景确定对应的目标组件配置信息,并通过调用目标组件配置信息中指示的目标校对组件来对目标书籍对应的底本数据和校本数据进行匹配处理,最后根据匹配处理结果确定底本数据的校对信息,可以实现针对具体的书籍校对场景进行有针对性的自动校对,可适用于不同校对场景,提升书籍校对方案的通用性,满足用户多样的书籍校对需求。
技术特征:1.一种书籍数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述确定目标书籍对应的底本数据、校本数据以及校对场景,包括:
3.根据权利要求1所述的方法,其特征在于,所述目标校对场景包括文字校对场景;其中,所述基于所述目标组件配置信息调用所述目标校对组件,以通过所述目标校对组件对所述底本数据和所述校本数据进行匹配处理,包括:
4.根据权利要求1所述的方法,其特征在于,所述目标校对场景包括文字精校场景;其中,所述基于所述目标组件配置信息调用所述目标校对组件,以通过所述目标校对组件对所述底本数据和所述校本数据进行匹配处理,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述目标组件配置信息调用文字匹配器,以利用所述文字匹配器中的第二预设匹配算法,对所述底本数据和所述校本数据进行基于段落的第二匹配处理,包括:
6.根据权利要求1所述的方法,其特征在于,所述目标校对场景包括标点校对场景;其中,所述基于所述目标组件配置信息调用所述目标校对组件,以通过所述目标校对组件对所述底本数据和所述校本数据进行匹配处理,包括:
7.根据权利要求1所述的方法,其特征在于,所述目标书籍包括目标古籍,在所述通过所述目标校对组件对所述底本数据和所述校本数据进行匹配的过程中,去除预设古籍字符,其中,所述预设古籍字符包括字图和/或标点符号。
8.根据权利要求1所述的方法,其特征在于,所述目标书籍包括目标古籍,在所述通过所述目标校对组件对所述底本数据和所述校本数据进行匹配的过程中,忽略所述底本数据中的第一字符和所述校本数据中的第二字符的差异,其中,所述第一字符和所述第二字符互为异体字。
9.根据权利要求1所述的方法,其特征在于,所述目标书籍包括目标古籍,所述方法还包括:
10.根据权利要求1所述的方法,其特征在于,在通过所述目标校对组件对所述底本数据和所述校本数据进行匹配处理时所采用的匹配算法包括基于暴力匹配算法的第一匹配算法;所述第一匹配算法配置有用于指示所述校本数据中当前第一待匹配字符的第一指针,和用于指示所述底本数据中当前第二待匹配字符的第二指针;其中,所述第一匹配算法包括以下至少一项:
11.根据权利要求1所述的方法,其特征在于,在通过所述目标校对组件对所述底本数据和所述校本数据进行匹配处理时所采用的匹配算法包括基于迈尔斯差分算法的第二匹配算法;其中,所述第二匹配算法包括:
12.一种书籍数据处理装置,其特征在于,包括:
13.一种电子设备,其特征在于,所述电子设备包括:
14.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-11中任一所述的书籍数据处理方法。
技术总结本公开实施例公开了书籍数据处理方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:确定目标书籍对应的底本数据、校本数据以及目标校对场景,根据校对场景确定对应的目标组件配置信息,其中,组件配置信息中包括待调用的目标校对组件的标识信息,不同校对场景对应不同的组件配置信息,基于组件配置信息调用目标校对组件,以通过目标校对组件对底本数据和校本数据进行匹配处理,根据匹配处理结果确定底本数据的校对信息。通过采用上述技术方案,可以实现针对具体的书籍校对场景进行有针对性的自动校对,可适用于不同校对场景,提升书籍校对方案的通用性,满足用户多样的书籍校对需求。技术研发人员:梁全欢,杨斌,赵明强受保护的技术使用者:北京字跳网络技术有限公司技术研发日:技术公布日:2024/11/14本文地址:https://www.jishuxx.com/zhuanli/20241118/329640.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。