一个面向大规模数据仓库数据清洗策略的研究和实现

本文档由 qilinshengshou 分享于2010-04-29 14:29

数据清洗就是通过各种措施,从准确性、一致性、无冗余、符合应用的需求等方面提高数据的质量。本文针对ETL 过程中的数据清洗任务,提出了结合改进的N-Gram 文法纠错算法和GDBR 泛化算法的数据清洗策略,并根据COBRA 和CWM 标准开发了接口应用工具。实践表明,该策略是可行并且有效的。
文档格式:
.pdf
文档大小:
704.95K
文档页数:
5
顶 /踩数:
13 0
收藏人数:
1
评论次数:
0
文档热度:
文档分类:
待分类
添加到豆单
文档标签:
数据仓库 数据清洗 ETL NGram GDBR database end CWM tuple Markov
系统标签:
数据 清洗 仓库 gdbr attr 大规模
下载文档
收藏
打印

扫扫二维码,随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP  

获取二维码

分享文档

将文档分享至:
分享完整地址
文档地址: 复制
粘贴到BBS或博客
flash地址: 复制

支持嵌入FLASH地址的网站使用

html代码: 复制

默认尺寸450px*300px480px*400px650px*490px

支持嵌入HTML代码的网站使用





82