编辑推荐
1.原创性:特异群组挖掘是作者原创的概念,是原创的新型数据挖掘任务和解决方法。 2.受众广泛性:特异群组挖掘是一种有多种应用场景的数据挖掘技术,涉及读者面广泛。 3.权威性:本书作者朱扬勇教授在数据挖掘领域已经研究了30多年,是国际数据科学研究的主要倡导者之一。经上海市科学技术委员会批准,代领团队建设了上海市数据科学重点实验室,该实验室是全国*早研究数据科学和大数据的科研机构之一,也是首个政府支持的数据科学科研机构,积累了大量的数据和数据挖掘的经验。此外,朱扬勇教授与多地政府合作,并担任2018年在福州举办的“首届数字中国建设峰会”顾问专家,2019年重庆智博会顾问专家等职务。基于作者团队雄厚的知识储备,本书兼具新颖性和权威性。
 ;
内容简介
高价值、低密度是大数据的特征,挖掘高价值、低密度的数据对象是大数据的一项重要工作。特异群组是一类高价值、低密度的数据形态,是指在众多行为对象中,少数对象群体具有一定数量的相同(或相似)的行为模式,表现出相异于大多数对象而形成的异常的群组。特异群组挖掘在证券金融、医疗保险、智能交通、社会网络和生命科学研究等领域具有重要的应用价值。对特异群组挖掘的研究代表了数据挖掘从浅层到深层的发展趋势和必要性。 本书系统地阐述了特异群组挖掘任务,包括介绍了特异群组挖掘的概念,分析了特异群组挖掘任务与聚类、异常等任务之间的差异,给出了特异群组挖掘任务的相关算法,并且列举了特异群组挖掘的几个重点应用。本书适合大数据研究人员、大数据工程师、大数据应用分析师、大数据产业从业人员等阅读,也可作为数据科学、大数据专业本科生和研究生的教学用书。
作者简介
熊贇 熊贇,复旦大学计算机科学技术学院教授、博士生导师,上海市数据科学重点实验室副主任。研究兴趣包括数据科学、数据挖掘和大数据处理。研究工作得到了国家自然科学基金、国家863计划、国家科技支撑计划、上海市科学技术委员会基金等资助,在TKDE、KDD、AAAI、ICDM、CIKM等数据领域国际权威期刊和会议上发表论文80余篇,担任ACM Computing Surveys、TKDE、TKDD等国际期刊审稿人。在国内率先开展大数据和数据科学的研究工作,出版了数据科学专著《数据学》,提出了一类大数据形态——特异群组,提出了一批新型的大数据挖掘算法,这些算法已被应用于医疗、交通和金融等上海市大数据建设的重要领域。 朱扬勇 朱扬勇,复旦大学计算机科学技术学院教授、学术委员会主任,上海市数据科学重点实验室主任。《大数据》期刊副主编,大数据协同安全技术国家工程实验室副理事长,中国自动化学会国防大数据专业委员会副主任,农业大数据产业技术创新战略联盟副理事长兼首席科学家。2004年开始从事数据科学研究,2008年提出数据资源保护和开发利用,2009年发表了数据科学论文Data Explosion, Data Nature and Dataology,并出版数据科学专著《数据学》。第462次香山科学会议“数据科学与大数据的理论问题探索”的执行主席。《大数据技术与应用丛书》主编,《大数据资源》主编,大数据科普图书《旖旎数据》作者。研究兴趣包括数据科学和大数据技术,提出数据界(Data Nature)、数据学(Dataology)、数据身、数据自治、数据财政等概念,近期研究重点为数据真实性、数据财政、数据资产、数据自治与数据跨境等。
目录
目 录
第 1章 绪论 1
1.1 大数据 2
1.2 大数据挖掘 3
1.3 特异群组挖掘任务 6
1.4 小结 8
参考文献 9
第 2章 为什么需要特异群组挖掘 11
2.1 聚类 12
2.2 异常检测 13
2.3 图数据上的异常挖掘 20
2.4 特异群组挖掘 28
2.5 特异群组挖掘与其他任务间的关系 31
2.6 小结 33
参考文献 33
第3章 特异群组挖掘的应用 45
3.1 证券市场操纵行为挖掘 46
3.2 医疗保险中的保费欺诈行为挖掘 48
3.3 有组织犯罪行为挖掘 50
3.4 金融风控中团伙欺诈检测 51
3.5 生命科学研究中的特异群组挖掘 52
3.6 流行病学调查中的密切接触者发现 53
3.7 其他应用场景 53
3.8 小结 54
参考文献 55
第4章 特异群组挖掘原理与框架 59
4.1 特异群组挖掘形式化描述 60
4.2 特异群组挖掘框架算法 63
4.3 实验与结果分析 66
4.4 特异群组挖掘应用步骤 67
4.5 小结 68
参考文献 69
第5章 相似性与相似性连接 71
5.1 相似性 72
5.2 相似性连接 74
5.3 相似性搜索中的索引结构 77
5.4 异质网络上的自相似性连接 79
5.4.1 异质信息网络 79
5.4.2 异质网络上的相似性度量 83
5.4.3 基于路径的自相似性连接 83
5.5 实验与结果分析 90
5.5.1 效率分析 91
5.5.2 有效性分析 95
5.5.3 Topk相似连接示例 98
5.6 小结 101
参考文献 101
第6章 无监督的复杂行为数据表示学习 107
6.1 行为数据 108
6.2 表示学习 110
6.2.1 词嵌入模型 110
6.2.2 图嵌入模型 112
6.2.3 异质网络表示学习 116
6.2.4 知识图谱表示学习 117
6.2.5 用户-商品对表示学习 117
6.3 基于交互图嵌入的复杂行为数据表示学习 118
6.3.1 交互图定义 118
6.3.2 无属性交互图嵌入 122
6.3.3 IGE模型 124
6.4 实验与结果分析 129
6.4.1 实验描述 129
6.4.2 实验结果分析 131
6.5 IGE算法在证券投资行为分析中的应用 135
6.6 小结 139
参考文献 139
第7章 半监督的复杂行为数据表示学习 147
7.1 图半监督学习 148
7.2 问题定义 150
7.3 算法模型 151
7.4 实验与结果分析 153
7.4.1 实验描述 153
7.4.2 实验结果分析 154
7.5 小结 157
参考文献 157
第8章 半监督群组检测 159
8.1 群组检测 160
8.2 问题定义 162
8.3 算法模型 163
8.3.1 判别器 163
8.3.2 生成器 164
8.3.3 预训练与强制教学 166
8.3.4 群组生成 167
8.4 实验与结果分析 168
8.4.1 实验描述 168
8.4.2 实验结果分析 169
8.5 小结 170
参考文献 170
第9章 增量复杂行为数据特征分析 173
9.1 问题定义 174
9.2 增量复杂行为数据特征表示算法 175
9.2.1 日交易记录编码 175
9.2.2 预测编码 177
9.2.3 生成式对抗网络 177
9.2.4 特征向量表示 178
9.3 方法应用与实验分析:游资账户识别 179
9.3.1 业务问题定义 179
9.3.2 数据来源与预处理 181
9.3.3 游资账户识别 183
9.3.4 游资账户聚类 184
9.4 小结 185
参考文献 185
第 10章 面向动态图的节点表示学习 187
10.1 动态网络节点嵌入 188
10.1.1 静态网络节点嵌入方法 190
10.1.2 单向量节点嵌入表示方法 191
10.1.3 多向量节点嵌入表示方法 192
10.1.4 函数式节点嵌入表示方法 193
10.2 问题定义 194
10.3 DynGraphGAN算法 195
10.3.1 生成器 197
10.3.2 判别器 198
10.3.3 算法细节 200
10.4 实验与结果分析 201
10.4.1 数据集 201
10.4.2 基准算法 202
10.4.3 评估任务 203
10.4.4 链路重构和链路预测分析 204
10.4.5 参数敏感性分析 207
10.5 小结 209
参考文献 209
第 11章 多源网络对齐 213
11.1 多源数据网络 214
11.2 问题定义 216
11.3 HGANE算法 217
11.3.1 层次图注意机制 217
11.3.2 对齐网络表示 220
11.3.3 面向协同链接预测的网络表示框架 222
11.4 实验与结果分析 223
11.4.1 数据集 223
11.4.2 对比方法 224
11.4.3 实验设置 225
11.4.4 实验结果 226
11.4.5 假设验证 227
11.4.6 参数分析 228
11.5 小结 230
参考文献 230
第 12章 总结与展望 233
12.1 总结 234
12.2 展望 236
国之重器出版工程 特异群组挖掘 pdf下载声明
本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版