一个面向大规模数据仓库数据清洗策略的研究和实现
本文档由 qilinshengshou 分享于2010-04-29 14:29
数据清洗就是通过各种措施,从准确性、一致性、无冗余、符合应用的需求等方面提高数据的质量。本文针对ETL 过程中的数据清洗任务,提出了结合改进的N-Gram 文法纠错算法和GDBR 泛化算法的数据清洗策略,并根据COBRA 和CWM 标准开发了接口应用工具。实践表明,该策略是可行并且有效的。
下载文档
收藏
打印
分享:
君,已阅读到文档的结尾了呢~~