数据挖掘定义 从大量的、不完全的、有噪声的、随机的 数据中提取含在其中的、人们事先不知道 的、有用的信息和知识的过程。 功能的广义观点:从存放在数据库、数据 仓库或其他信息库中的大量数据中发现知 识的过程 数据挖掘是一个新兴、交叉学科领域
数据挖掘简介 产生背景 随着数据库技术的飞速发展,快速增 长的海量数据收集、存放在大量数据 储存库中 理解他们已经远远超出人的能力 数据坟墓——难得再访问的数据档案 数据丰富,但信息缺乏
现状:作为一个新兴的研究领域, 现状:作为一个新兴的研究领域,PG电子平台数据挖掘已经 取得了广泛和重大进展。应用到众多领域, 取得了广泛和重大进展。应用到众多领域,出现 了大量的商品化数据挖掘系统 发展方向:对现有方法进一步改进, 发展方向:对现有方法进一步改进,研究发展数 据挖掘语言的标准化, 据挖掘语言的标准化,可视化方法和处理复杂数 据类型的新方法 目前面临困难:成功案例少, 目前面临困难:成功案例少,中小企业需求少 人才稀缺
分类分析:找出描述和区分数据类或概念的模型, 分类分析:找出描述和区分数据类或概念的模型,PG电子平台 以便能够使模型预测未知的对象类 常用方法:分类规则;决策树;神经网络; 常用方法:分类规则;决策树;神经网络; 聚类分析:根据最大化类内部的相似性、 聚类分析:根据最大化类内部的相似性、最小化 类之间的相似性的原则进行聚类或分组 常用算法:K-MEAMS;分层凝聚发;估算最大 常用算法: ;分层凝聚发; 值法 关联分析: 关联分析:发现数据库中不同项之间的联系 常用方法: 常用方法:Apriori;MAQA;IUA; ;
时间序列分析: 时间序列分析:描述行为随时间变化的对象的规 律或趋势, 律或趋势,并对其建模 匹配方法: 匹配方法:ARMA模型 模型 离群点分析: 离群点分析:检测和分析离群点 离群点: 离群点:与数据的一般行为或模型不一致的点
啤酒加尿布 地点: 地点:沃尔玛在美国加州的某连锁店 起因: 起因:每天销售信息和顾客基本情况的数据库中 发现购买婴儿尿布的顾客多是男性, 发现购买婴儿尿布的顾客多是男性,而且往往也 同时购买啤酒 经过:重新布置货架, 经过:重新布置货架,把啤酒类商品布置在婴儿 尿布货架附近, 尿布货架附近,并在两者之间放上土豆之类的佐 酒小食品和男性生活用品 结果: 结果:上述几种商品销量大增




