基于数据表相似度计算的数据血缘构建方法 | |
潘奇1; 蔡斯博1,2; 魏芳芳1 | |
2024 | |
发表期刊 | 电脑与电信 |
ISSN | 1008-6609 |
期号 | 6页码:11-15 |
摘要 | 大数据时代下,各业务部门基于已有业务数据积累激发数据价值已成为一种共识。由于各业务系统数据标准不统一,导致元数据杂乱无章、数据孤岛、低质数据等问题层出不穷,阻碍数据的有效利用,需进行必要的治理。这其中,数据血缘分析是元数据管理的关键任务之一,对于数据溯源和数据治理具有重要意义。然而,传统的数据血缘构建方法往往面临着计算复杂度高、准确性差、执行成本高等问题。为克服这些问题,提出一种基于数据表相似度计算的数据血缘构建方法:通过对数据表的命名、表结构和数据字段三要素进行文本特征表示,利用TFIDF计算数据表的相似度,并进一步通过改进的Jaro-WinklerDistances算法验证字段重合度、表名相似度的方法构建数据表血缘关系。结果表明,该算法在数据表血缘关系构建方面效果显著,促进了数据治理工作的顺利开展。 |
关键词 | 数据血缘 数据治理 元数据 表相似度 |
URL | 查看原文 |
语种 | 中文 |
资助项目 | 国家开放大学青年科研项目,项目编号:Q23A0024 |
文献类型 | 期刊论文 |
条目标识符 | http://ir.library.ouchn.edu.cn/handle/39V7QQFX/172498 |
专题 | 国家开放大学总部_信息化部(工程中心)_大数据中心 |
作者单位 | 1.国家开放大学,北京100039; 2.数字化学习技术集成与应用教育部工程研究中心,北京100039 |
第一作者单位 | 国家开放大学 |
第一作者的第一单位 | 国家开放大学 |
推荐引用方式 GB/T 7714 | 潘奇,蔡斯博,魏芳芳. 基于数据表相似度计算的数据血缘构建方法[J]. 电脑与电信,2024(6):11-15. |
APA | 潘奇,蔡斯博,&魏芳芳.(2024).基于数据表相似度计算的数据血缘构建方法.电脑与电信(6),11-15. |
MLA | 潘奇,et al."基于数据表相似度计算的数据血缘构建方法".电脑与电信 .6(2024):11-15. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
查看访问统计 |
谷歌学术 |
谷歌学术中相似的文章 |
[潘奇]的文章 |
[蔡斯博]的文章 |
[魏芳芳]的文章 |
百度学术 |
百度学术中相似的文章 |
[潘奇]的文章 |
[蔡斯博]的文章 |
[魏芳芳]的文章 |
必应学术 |
必应学术中相似的文章 |
[潘奇]的文章 |
[蔡斯博]的文章 |
[魏芳芳]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
相关推荐 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论