编辑推荐
本书从人工智能的定义入手,前两章阐述了人工智能火热的成因、发展历程、产业链、技术和应用场景,从第3章开始详细阐述人工智能的几个核心技术(大数据、机器学习、深度学习)和*流行的开源平台(TensorFlow)。通过本书,读者既能了解人工智能的方方面面(广度),又能深度学习人工智能的重点技术和平台工具,*终能够将人工智能技术应用到实际工作场景中,共同创建一个智能的时代。 ;
内容简介
本书全面讲述人工智能与大数据涉及的技术,学完本书后,读者将对人工智能技术有全面的理解,并能掌握AI整体知识架构。 本书共分16章,内容包括人工智能概述、AI产业、数据、机器学习概述、模型、机器学习算法、深度学习、TensorFlow、神经网络、知识图谱、数据挖掘,以及银行业、医疗、公安、工农业等行业人工智能应用情况。附录给出了极有参考价值的大数据与人工智能产业参考资料。 本书适合人工智能与大数据技术初学者、人工智能行业准从业人员、AI投资领域的技术专家阅读,也适合作为高等院校和培训学校人工智能相关专业师生的教学参考书。
作者简介
杨正洪,毕业于美国State University of New York at Stony Brook,在美国硅谷从事AI和大数据相关研发工作十余年,华中科技大学和中国地质大学客座教授,湖北省2013年海外引进人才,并拥有多项国家专利。杨正洪参与了大数据和人工智能的国家标准的制定,在2016年参与了公安部主导的“信息安全技术:大数据平台安全管理产品安全技术要求”的国家标准制定。杨正洪是中关村海外智库专家顾问和住建部中规院专家顾问,曾担任在美上市公司CTO、北京某国企CIO和上海某国企高级副总裁等职。多年从事人工智能与大数据技术的实践,出版了《智慧城市》《大数据技术入门》等多本畅销书。
目录
目 ; 录
第1章 ; 人工智能概述 ; ;  ;1
1.1 ; AI是什么 ; ;  ;1
1.1.1 ; 火热的AI ; ;  ;2
1.1.2 ; AI的驱动因素 ; ;  ;3
1.2 ; AI技术的成熟度 ; ;  ;4
1.2.1 ; 视觉识别 ; ;  ;4
1.2.2 ; 自然语言理解 ; ;  ;5
1.2.3 ; 机器人 ; ;  ;7
1.2.4 ; 自动驾驶 ; ;  ;8
1.2.5 ; 机器学习 ; ;  ;9
1.2.6 ; 游戏 ; ;  ;10
1.3 ; 美国AI巨头分析 ; ;  ;11
1.4 ; 国内AI现状 ; ;  ;16
1.5 ; AI与云计算和大数据的关系 ; ;  ;17
1.6 ; AI技术路线 ; ;  ;17
1.7 ; AI国家战略 ; ;  ;18
1.8 ; AI的历史发展 ; ;  ;19
第2章 ; AI产业 ; ;  ;24
2.1 ; 基础层 ; ;  ;25
2.1.1 ; 芯片产业 ; ;  ;25
2.1.2 ; GPU ; ;  ;27
2.1.3 ; FPGA ; ;  ;28
2.1.4 ; ASIC ; ;  ;28
2.1.5 ; TPU ; ;  ;29
2.1.6 ; 亚马逊的芯片 ; 31
2.1.7 芯片产业小结 32
2.1.8 传感器 33
2.1.9 传感器小结 35
2.2 技术层 37
2.2.1 机器学习 37
2.2.2 语音识别与自然语言处理 39
2.2.3 计算机视觉 42
2.3 应用层 44
2.3.1 安防 44
2.3.2 金融 45
2.3.3 制造业 47
2.3.4 智能家居 48
2.3.5 医疗 48
2.3.6 自动驾驶 50
2.4 AI产业发展趋势分析 55
第3章 数 据 58
3.1 什么是大数据 59
3.1.1 大数据的特征 59
3.1.2 大数据的误区 60
3.1.3 大数据交易难点 60
3.1.4 大数据的来源 62
3.1.5 数据关联 63
3.1.6 大数据生产链 64
3.1.7 大数据怎么用 64
3.2 国内大数据现状 65
3.2.1 政策持续完善 66
3.2.2 技术和应用逐步落地 66
3.2.3 数据产生价值难 67
3.2.4 问题与机遇并存 67
3.3 大数据的计算模式 68
3.3.1 流式计算的应用场景 69
3.3.2 流式大数据的特征 70
3.3.3 流式计算关键技术 72
3.4 大数据技术 74
3.4.1 数据技术的演进 75
3.4.2 分布式计算系统概述 76
3.4.3 Hadoop 77
3.4.4 Spark 80
3.4.5 Storm系统 82
3.4.6 Kafka系统 84
3.4.7 各类技术平台比较 86
3.5 数据平台 88
3.5.1 数据存储和计算 89
3.5.2 数据质量 92
3.5.3 数据管理 97
3.5.4 数据目录 99
3.5.5 数据安全管控 100
3.5.6 数据准备 102
3.5.7 数据整合 107
3.5.8 数据服务 107
3.5.9 数据开发 107
3.5.10 数据平台总结 108
3.6 大数据的商用途径 109
3.6.1 数据化 109
3.6.2 算法化 109
3.6.3 应用化(产品化) 110
3.6.4 生态化 111
3.7 大数据产业 112
3.7.1 大数据产业界定 112
3.7.2 大数据技术发展的推动力 114
3.7.3 重点行业的大数据应用 117
3.7.4 大数据应用发展趋势 123
3.7.5 大数据的产业链构成分析 123
3.8 政府大数据案例分析 125
3.8.1 政府有哪些数据资源 126
3.8.2 政府大数据应用案例 126
3.8.3 政府大数据面临的挑战 130
3.8.4 政府大数据应用启示 131
第4章 机器学习概述 133
4.1 走进机器学习 133
4.1.1 什么是机器学习 133
4.1.2 机器学习的感性认识 133
4.1.3 机器学习的本质 134
4.1.4 对机器学习的全面认识 135
4.1.5 机器学习、深度学习与人工智能 136
4.1.6 机器学习、数据挖掘与数据分析 137
4.2 机器学习的基本概念 139
4.2.1 数据集、特征和标签 139
4.2.2 监督式学习和非监督式学习 140
4.2.3 强化学习和迁移学习 140
4.2.4 特征数据类型 141
4.2.5 训练集、验证集和测试集 141
4.2.6 机器学习的任务流程 142
4.3 数据预处理 142
4.3.1 探索性分析 143
4.3.2 数据清洗 143
4.3.3 特征工程 145
第5章 模 型 146
5.1 什么是模型 146
5.2 误差和MSE 148
5.3 模型的训练 149
5.3.1 模型与算法的区别 149
5.3.2 迭代法 150
5.4 梯度下降法 151
5.4.1 步长 152
5.4.2 优化步长 152
5.4.3 三类梯度下降法 153
5.4.4 梯度下降的详细算法 154
5.5 模型的拟合效果 155
5.5.1 欠拟合与过拟合 155
5.5.2 过拟合的处理方法 156
5.6 模型的评估与改进 157
5.6.1 机器学习模型的评估 157
5.6.2 机器学习算法与人类比较 158
5.6.3 改进策略 159
5.7 机器学习的实现框架 160
5.7.1 Python 160
5.7.2 scikit-learn 161
5.7.3 Spark MLlib 163
第6章 机器学习算法 164
6.1 算法概述 164
6.1.1 线性回归 165
6.1.2 逻辑回归 165
6.1.3 线性判别分析 166
6.1.4 分类与回归树分析 167
6.1.5 朴素贝叶斯 167
6.1.6 K最近邻算法 168
6.1.7 学习矢量量化 168
6.1.8 支持向量机 169
6.1.9 Bagging和随机森林 170
6.1.10 Boosting和AdaBoost 170
6.2 支持向量机算法 171
6.3 逻辑回归算法 173
6.4 KNN算法 175
6.4.1 超参数k 175
6.4.2 KNN实例:波士顿房价预测 177
6.4.3 算法评价 179
6.5 决策树算法 179
6.6 集成算法 182
6.6.1 集成算法简述 182
6.6.2 集成算法之Bagging 183
6.6.3 集成算法之Boosting 184
6.7 聚类算法 185
6.7.1 K均值聚类 185
6.7.2 均值漂移聚类 186
6.7.3 基于密度的聚类方法 187
6.7.4 用高斯混合模型的最大期望聚类 188
6.7.5 凝聚层次聚类 189
6.7.6 图团体检测 190
6.8 机器学习算法总结 192
第7章 深度学习 193
7.1 走进深度学习 193
7.1.1 深度学习为何崛起 194
7.1.2 从逻辑回归到浅层神经网络 194
7.1.3 深度神经网络 196
7.1.4 正向传播 197
7.1.5 激活函数 197
7.2 神经网络的训练 197
7.2.1 神经网络的参数 197
7.2.2 向量化 198
7.2.3 价值函数 198
7.2.4 梯度下降和反向传播 198
7.3 神经网络的优化和改进 199
7.3.1 神经网络的优化策略 199
7.3.2 正则化方法 201
7.4 卷积神经网络 203
7.4.1 卷积运算 203
7.4.2 卷积层 204
7.4.3 CNN实例 205
7.5 深度学习的优势 210
7.6 深度学习的实现框架 211
第8章 TensorFlow 213
8.1 TensorFlow工具包 213
8.1.1 tf.estimator API 214
8.1.2 Pandas速成 214
8.1.3 必要的Python知识 216
8.2 第一个TensorFlow程序 219
8.2.1 装载数据 220
8.2.2 探索数据 221
8.2.3 训练模型 221
8.2.4 评估模型 223
8.2.5 优化模型 225
8.2.6 合成特征 231
8.2.7 离群值处理 234
8.3 过拟合处理 237
8.3.1 训练集和测试集 238
8.3.2 验证集 239
8.3.3 过拟合实例 240
8.4 特征工程 249
8.4.1 数值型数据 249
8.4.2 字符串数据和one-hot编码 250
8.4.3 枚举数据(分类数据) 250
8.4.4 好特征 250
8.4.5 数据清洗 251
8.4.6 分箱(分桶)技术 252
8.4.7 特征工程实例 253
第9章 TensorFlow高级知识 263
9.1 特征交叉 263
9.1.1 什么是特征交叉 263
9.1.2 FTRL实践 265
9.1.3 分桶(分箱)代码实例 268
9.1.4 特征交叉代码实例 271
9.2 L2正则化 274
9.3 逻辑回归 276
9.4 分类 279
9.4.1 评价指标—准确率 279
9.4.2 评价指标—精确率 281
9.4.3 指标—召回率 281
9.4.4 评价指标之综合考虑 282
9.4.5 ROC 曲线 284
9.4.6 预测偏差 285
9.4.7 分类代码实例 286
9.5 L1正则化 298
第10章 神经网络 308
10.1 什么是神经网络 308
10.1.1 隐藏层 308
10.1.2 激活函数 309
10.1.3 ReLU 310
10.1.4 实例代码 311
10.2 训练神经网络 320
10.2.1 正向传播算法 320
10.2.2 反向传播算法 322
10.2.3 标准化特征值 324
10.2.4 丢弃正则化 324
10.2.5 代码实例 325
10.3 多类别神经网络 340
10.3.1 一对多方法 340
10.3.2 Softmax 341
10.3.3 代码实例 343
10.4 嵌套 357
10.4.1 协同过滤 358
10.4.2 稀疏数据 359
10.4.3 获取嵌套 360
10.4.4 代码实例 360
第11章 知识图谱 372
11.1 什么是知识图谱 372
11.1.1 知识图谱的定义 373
11.1.2 知识图谱的架构 373
11.1.3 开放知识图谱 374
11.1.4 知识图谱在行业数据分析中的应用 376
11.2 知识图谱构建的关键技术 377
11.2.1 知识提取 378
11.2.2 语义类抽取 379
11.2.3 属性和属性值抽取 381
11.2.4 关系抽取 382
11.2.5 知识表示 382
11.2.6 知识融合 383
11.3 知识计算及应用 384
11.4 企业知识图谱建设 384
第12章 数据挖掘 387
12.1 什么是数据挖掘 387
12.1.1 数据挖掘技术产生的背景 387
12.1.2 数据挖掘与数据分析的区别 387
12.2 数据挖掘技术(方法) 388
12.2.1 分类 388
12.2.2 聚类 389
12.2.3 回归分析 389
12.2.4 关联规则 389
12.2.5 神经网络方法 390
12.2.6 Web数据挖掘 390
12.2.7 特征分析 390
12.2.8 偏差分析 391
12.3 大数据思维 391
12.3.1 信度与效度思维 391
12.3.2 分类思维 391
12.3.3 漏斗思维 392
12.3.4 逻辑树思维 392
12.3.5 时间序列思维 393
12.3.6 指数化思维 393
12.3.7 循环/闭环思维 394
第13章 银行业大数据和人工智能 395
13.1 四大行的进展 396
13.1.1 建设银行 396
13.1.2 工商银行 396
13.1.3 农业银行 398
13.1.4 中国银行 398
13.2 其他银行 399
13.2.1 广发银行 399
13.2.2 江苏银行 400
13.3 金融宏观大数据分析 404
13.4 小结 407
13.4.1 大数据给银行带来的机遇与挑战 407
13.4.2 银行大数据体系建设的思考 409
第14章 医疗大数据和人工智能 412
14.1 医疗大数据的特点 412
14.2 医疗大数据处理模型 413
14.3 医疗大数据的AI应用 416
14.3.1 智能辅助诊疗 416
14.3.2 影像数据分析与影像智能诊断 416
14.3.3 合理用药 416
14.3.4 远程监控 417
14.3.5 精准医疗 417
14.3.6 成本与疗效分析 417
14.3.7 绩效管理 417
14.3.8 医院控费 417
14.3.9 医疗质量分析 418
14.4 人工智能的医疗应用场景 418
14.5 人工智能要当“医生” 420
14.6 医院大数据 421
14.7 机器学习在医疗行业中的应用实例分析 422
第15章 公安大数据和人工智能 424
15.1 公安大数据的特点 424
15.2 建设流程 425
15.3 公安大数据管理平台 426
15.3.1 公安大数据建模 427
15.3.2 公安大数据汇集 428
15.3.3 公安大数据服务 428
15.4 公安大数据挖掘分析 428
15.5 公安大数据AI应用 429
15.6 小结 430
第16章 工农业大数据和人工智能 431
16.1 中国制造2025 432
16.2 工业大数据 433
16.2.1 工业大数据面临三大制约因素 433
16.2.2 工业大数据应用的四大发展趋势 434
16.2.3 发展工业大数据 434
16.3 AI 制造 435
16.4 农业大数据 435
16.4.1 发展现状 435
16.4.2 农业大数据目标 435
16.4.3 农业大数据建设任务 436
16.4.4 农产品质量安全追溯 437
附录 A 国内人工智能企业名单 438
附录 B 大数据和人工智能网上资料 441
附录 C 本书中采用的人工智能中英文术语 444
附录 D 术语列表 446
前沿
前 言
2017年是人工智能(Artificial Intelligence,AI)年,人工智能技术越来越多地应用到日常生活的方方面面。AlphaGo ZERO碾压AlphaGo实现自我学习,百度无人汽车上路,iPhone X开启FaceID,阿里和小米先后发布智能音箱,肯德基上线人脸支付……这些背后都是人工智能技术的驱动。2017年7月,国家发布了新一代人工智能发展规划,将中国人工智能产业的发展推向了新高度。
人工智能技术是继蒸汽机、电力、互联网科技之后最有可能带来新一次产业革命浪潮的技术,在爆炸式的数据积累、基于神经网络模型的新型算法与更加强大、成本更低的计算力的促进下,本次人工智能的发展受到风险投资的热烈追捧而处于高速发展时期,人工智能技术的应用场景也在各个行业逐渐明朗,开始带来实际商业价值。在金融行业,人工智能可以在风险控制、资产配置、智能投顾等方向进行应用,预计将带来约6000亿元的降本增益效益。在汽车行业,人工智能在自动驾驶上的技术突破,将带来约5000亿元的价值增益。在医疗行业,通过人工智能技术,在药物研发领域可以提高成功率,在医疗服务机构可以提供疾病诊断辅助、疾病监护辅助,预计可以带来约4000亿元的降本价值。在零售行业,人工智能在推荐系统上的运用将提高在线销售的销量,同时能够对市场进行精准预测,降低库存,预计将带来约4200亿元的降本增益效益。
人工智能是一个非常广泛的领域。人工智能技术涵盖很多大的学科,包括计算机视觉(模式识别、图像处理)、自然语言理解与交流(语音识别)、认知科学、机器人学(机械、控制、设计、运动规划、任务规划等)、机器学习(各种统计的建模、分析和计算的方法)。人工智能产业链条涵盖了基础层、技术层、应用层等多个方面,其辐射范围之大,单一公司无法包揽人工智能产业的每个环节,深耕细分领域和协作整合多个产业间资源的形式成为人工智能领域主要的发展路径。
本书从人工智能的定义入手,前两章阐述了人工智能火热的成因、发展历程、产业链、技术和应用场景,从第3章开始详细阐述人工智能的几个核心技术(大数据、机器学习、深度学习)和最流行的开源平台(TensorFlow)。通过本书,读者既能了解人工智能的方方面面(广度),又能深度学习人工智能的重点技术和平台工具,最终能够将人工智能技术应用到实际工作场景中,共同创建一个智能的时代。
示例代码及相关下载
本书示例代码及其他相关材料可扫描右边的二维码获得。
如果下载有问题或对本书内容有疑问,请联系booksaga@163.com ,邮件主题为“人工智能与大数据技术导论”。
致谢
在本书的编写过程中得到了众多的帮助和支持。特别感谢中国科学院的老师们,感谢戴汝为院士和黄玉霞研究员的科学指导和持续鼓励,80多岁高龄的戴老师前不久还远赴广州为我的人工智能研究站台。还要特别感谢我在State University of New York at Stony Brook的老师们,导师帮我确定了本书的三个技术方向(深度学习、大数据、算法),帮我掌舵了人工智能的研究方向。最后感谢我曾经工作了10年的IBM硅谷实验室,从数据管理到大数据再到人工智能,这个实验室一直站在技术的制高点,10年的工作和研究,让我获益匪浅。
除封面署名作者外,参与本书编写的人员还有:沈常胜、邓茂、韦国新、欧阳涛、杨正礼、丁龄嘉、刘毕操、范婷、李招、虞徳坚、杨磊等。由于作者水平有限,书中难免存在纰漏之处,敬请读者批评指正。
杨正洪
2018年9月于San Jose
人工智能与大数据技术导论 pdf下载声明
本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版