欢迎光临
免费的PDF电子书下载网站

图分析与可视化:在关联数据中发现商业机会 PDF下载

编辑推荐

图分析与可视化:在关联数据中发现商业机会 PDF下载 ;

内容简介

本书通过详细的示例、样本数据集、代码和图形教程,说明了如何:1为每个问题使用合适类型的图2快速、高效且正确地收集、清洗和组织数据3为高可读性设置可视化格式,而不损失精确性4掌握允许更深入地探索和解释数据的工具5使用少量轻量级编程创建自定义可视化6选择有效的图分析技术来从数据中提取出最多信息7使用高级的可视化技术,包括动态图、大数据工具和查询。

作者简介

作 者 简 介Richard Brath是数据可视化的积极实践者和先行者,其视觉分析的研究、设计与开发不仅涉及研究领域还用于商业领域。他创建的解决方案范围很广,从用于移动设备中丰富的交互式可视化,到用于商业应用的多点触控、多屏幕装置以及基于Web的可视化分析,涉及的应用领域也很广,如贸易、职业体育和广播电视等,每天都有成千上万的人使用。 David Jonker是Uncharted(原来的Oculus Info Inc)公司的联合创始人和高级合伙人。他是一名设计师和开发人员,为基于Web的、分布式的、移动的应用设计可视化分析工具和平台。他在过去20多年做了大量可视化工作,其中包括位于时代广场NASDAQ MarketSite实时广播中心的可视化系统。目前,他是DARPA XDATA项目的带头人。Jonker和Brath是商业合作伙伴,两个人也经常在领先的行业及研究论坛上发表演讲,进行展示。 技术编辑简介Scott Langevin是Uncharted的一位主管和研究人员,拥有超过12年的行业和学术界经验。他在南卡罗来纳大学获得了计算机科学的博士学位,方向是机器学习、面向服务计算和软件工程。Langevin的研究兴趣包括概率图建模、大规模可视化分析和适应性用户界面。 Peter MacMurchy是拥有超过15年经验的专业软件开发人员,他关注UX、UI和交互式数据可视化工具。在卡尔加里大学读计算机科学学位研究计算机图形学时,课程作业激发了他对信息可视化的强烈兴趣。自那之后,他就一直为金融、电影、能源等行业开发可视化和交互软件。

图分析与可视化:在关联数据中发现商业机会 PDF下载

目录

目  录

前言

作者简介

第I部分 概述

第1章 为什么使用图 ; ; ; 2

1.1 商业中的可视化 ; ; ; 3

1.2 商业中的图 ; ; ; 4

1.2.1 找出反常现象 ; ; ; 5

1.2.2 管理网络和供应链 ; ; ;7

1.2.3 辨别风险模式 ; ; ; 9

1.2.4 优化资产组合 ; ; ;11

1.2.5 绘制社会等级分层图 ; ; ;13

1.2.6 发现社区 ; ; ; 15

1.3 图的现状 ; ; ; 16

1.4 小结 ; ; ; 17

第2章 图的类型及其适用的问题 ; ; ; 18

2.1 关系 ; ; ; 18

2.2 分层 ; ; ; 21

2.3 社区 ; ; ; 23

2.4 流 ; ; ; 27

2.5 空间网络 ; ; ; 30

2.6 小结 ; ; ; 32

第Ⅱ部分 过程和工具

第3章 数据:收集、清洗和连接 ; ; ; 35

3.1 了解目标 ; ; ; 35

3.2 收集:识别数据 ; ; ; 35

3.2.1 潜在的图数据源 ; ; ;36

3.2.2 潜在的分层数据源 ; ; ;41

3.2.3 获取数据 ; ; ; 43

3.3 清洗:准备数据 ; ; ; 44

3.4 连接:组织图数据 ; ; ;45

3.4.1 计算图 ; ; ; 46

3.4.2 图数据的文件格式 ;  ; ;48

3.5 集中回顾 ; ; ; 54

3.6 小结 ; ; ; 54

第4章 统计数据和布局 ; ; ; 55

4.1 基本的图统计数据 ; ; ;55

4.1.1 大小(节点数和边数) ; ; 55

4.1.2 密度    56

4.1.3 成分数    56

4.1.4 度和路径    56

4.1.5 中心度    58

4.1.6 病毒式营销示例   59

4.2 布局    60

4.2.1 节点–连接布局   60

4.2.2 其他布局    61

4.2.3 力导向布局    62

4.2.4 仅节点布局    66

4.2.5 时间布局    67

4.2.6 自顶向下和其他正交分层   68

4.2.7 辐射状分层    71

4.2.8 地理布局和地图   72

4.2.9 弦图    74

4.2.10 邻接矩阵    74

4.2.11 树图    76

4.2.12 分层饼图    76

4.2.13 平行坐标    77

4.3 集中回顾    79

4.4 小结    79

第5章 视觉特性    80

5.1 基本视觉特性    81

5.2 关键的节点特性    82

5.2.1 节点大小    82

5.2.2 节点颜色    84

5.2.3 标签    87

5.3 关键的边特性    91

5.3.1 边的权重    91

5.3.2 边的颜色    91

5.3.3 边的类型    92

5.4 组合基本特性    93

5.5 捆绑、形状、图片及更多   94

5.5.1 捆绑边    94

5.5.2 形状    95

5.5.3 节点图片    95

5.5.4 节点边框    96

5.5.5 更多特性    97

5.5.6 干扰与分隔    97

5.6 集中回顾    101

5.7 小结    101

第6章 探索和解释    102

6.1 探索、解释和导出   102

6.2 必要的探索性交互   104

6.2.1 缩放和摇动(以及比例缩放和旋转)    105

6.2.2 识别    106

6.2.3 过滤器    107

6.2.4 隔离和重做布局   109

6.3 更多交互式探索   110

6.3.1 识别邻近节点   111

6.3.2 路径    111

6.3.3 删除    112

6.3.4 分组    112

6.3.5 迭代分析    114

6.4 解释    114

6.4.1 数据故事的顺序   115

6.4.2 图例    116

6.4.3 注释    116

6.4.4 导出数据子集、图和图片   118

6.5 集中回顾    119

6.6 小结    120

第7章 鼠标点击类图工具    121

7.1 Excel    121

7.1.1 汇总连接    122

7.1.2 提取节点    122

7.1.3 Excel中的邻接矩阵可视化    123

7.2 NodeXL    125

7.2.1 NodeXL基础    125

7.2.2 社交网络功能   127

7.3 Gephi    129

7.3.1 Gephi基础    129

7.3.2 注意事项    131

7.4 Cytoscape   133

7.4.1 Cytoscape基础    133

7.4.2 将数据导入Cytoscape   134

7.4.3 视觉特性    135

7.4.4 Apps菜单    139

7.5 yEd    139

7.6 小结    141

第8章 轻量级编程    143

8.1 Python    143

8.1.1 上手    143

8.1.2 清洗数据    144

8.1.3 从连接数据集中提取节点集合   145

8.1.4 将电子邮件数据转换为图   149

8.1.5 图数据库    154

8.2 JavaScript与图的可视化    155

8.2.1 D3基础    155

8.2.2 D3和图    160

8.2.3 D3弹簧图    169

8.3 小结    174

第Ⅲ部分 图的可视化分析

第9章 关系    176

9.1 连接和关系    176

9.1.1 诈骗索赔中的相似性   177

9.1.2 网络安全    179

9.2 电子邮件关系    181

空间分隔    181

9.3 演员与电影    184

9.4 将连接转换为节点   186

9.5 小结    188

第10章 分层    189

10.1 组织结构图    189

10.2 树与图    191

10.3 绘制分层    193

10.4 决策树    198

10.5 网站树及有效性   200

10.6 小结    203

第11章 社区    204

11.1 社区的定义特征   205

11.2 图聚类    205

11.2.1 社交网络案例分析   206

11.2.2 使用NodeXL和Gephi分析社交媒体    206

11.2.3 可聚类的布局   208

11.2.4 使用颜色描述簇的特征    210

11.2.5 社区发现   211

11.2.6 使用颜色来区分簇   212

11.2.7 社区话题分析   214

11.2.8 社区情感   216

11.3 团伙和其他组   219

11.3.1 社交媒体中的团伙   220

11.3.2 使用凸包的社区组   220

11.4 小结    223

第12章 流    224

12.1 桑基图    225

12.2 构造一个桑基图   229

12.2.1 创建页面结构   229

12.2.2 处理和建模数据   230

12.2.3 可视化数据   231

12.2.4 高亮显示通过节点的流   233

12.3 使用流的社区布局   235

12.4 弦图    237

12.5 构造一个弦图   238

12.5.1 准备数据   238

12.5.2 创建页面结构   239

12.5.3 处理和建模数据   240

12.5.4 可视化数据   243

12.5.5 根据需要显示交互细节   247

12.6 行为因子树    248

12.7 小结    249

第13章  空间网络    250

13.1 示意图布局    250

13.2 小世界分组    255

13.3 连接玫瑰汇总   255

13.4 路线模式    263

13.4.1 可视化路线段   264

13.4.2 轨迹聚合   267

13.5 小结    268

第IV部分 高级技术

第14章 大数据    270

14.1 图数据库    271

14.1.1 产品营销示例   271

14.1.2 创建和填充一个图数据库   273

14.2 图查询语言    275

14.2.1 使用Gremlin进行图查询    276

14.2.2 使用图查询来提取邻域   278

14.3 分析邻域    281

14.4 绘制网络活动   287

14.5 社区可视化    289

14.6 小结    290

第15章 动态图    291

15.1 图的变化    291

15.1.1 有机动画   292

15.1.2 完整时间跨度布局   293

15.1.3 重影    295

15.1.4 淡出    296

15.1.5 社区演化   297

15.2 交易图    298

15.2.1 聚类交易分析   299

15.2.2 空间交易分析   304

15.3 小结    305

第16章 设计    307

16.1 节点    307

16.1.1 节点的形状   308

16.1.2 节点大小   313

16.1.3 节点标签   314

16.2 连接    314

16.3 颜色    318

16.4 小结    320

图论术语表    322

前沿

前  言本书将介绍如何把图的可视化与分析应用到商业中。图的应用是一种独特而宝贵的资源,可用于从数据中发现有价值的信息。近年来,世界上一些最具创新力公司内部的分析人员开始积极探索基于图的方法,以更深入地理解他们工作的动态,同时发现可以提高业绩的机会和策略。 随着可用数据的量、种类和速度都在增长,对帮助理解数据的方法和技术的需求也在增长。各种组织已经强烈感受到简单的仪表板风格图表的局限性。仪表板擅长显示指标和趋势,可以告诉你公司哪些部门在什么时候比其他部门表现得更好或更差,但是不能告诉你为什么会这样,而理解“为什么”是采取有效行动的关键。 图的作用是表示两种事物之间的连接,揭示数据关系的结构和本质。关系是理解事物的“为什么”以及“如何做到”的基础,这也是图分析和可视化具有巨大价值潜力的原因之一。 本书作者回顾过去20多年为商业和情报分析人员设计与构建新应用的经历,意识到图已经在许多解决方案中扮演了一种角色。如今,我们的一些最重要的研究和软件开发工作在本质上都是基于图的。 然而,尽管图十分有用,但在科学界以外却很少有图的应用,关于图设计的作品就更少了。随着开源图工具和库的能力在近期不断发展,图已经可被每个商业分析师使用,但是关于图的分析与可视化的有效原则与技术的知识,仍然只有少数人知道。我们撰写这本书的目的就是为了帮助改变这种情况。 本书目标读者本书针对的是希望知道如何将图分析应用到决策相关问题的数据科学家和分析人员。本书中的示例取自商界,但是使用的原则与技术也可用于政府机构和非营利组织。 读者不需要具有关于图论及其实践的知识。新接触图分析的读者可以从头到尾阅读本书,这样更有帮助。有经验的读者可以选择跳到第Ⅲ部分中感兴趣的主题,该部分详细讨论了分析主题。 本书的一些例子包含少量的编程,但是大部分示例应用都使用鼠标点击类工具。对于这两种情况,都需要有一定程度的技术能力。 本书结构本书包含4个部分。第一部分对图的主题进行了概述。剩余章节逐渐讲解更加具体或者高级的主题。第3~10章由Richard Brath撰写,其他章节由David Jonker撰写。 第I部分:在本书的第一部分中,作者概述了图在商业中的应用,并介绍了各种类型的图(第3章进行了详细描述)。 第II部分:本书的第二部分全面探讨了图的可视化与分析过程的主要步骤。 第III部分:本书的第三部分讲解了不同的分析主题及与之相关的图类型与技术。 第IV部分:本书的第四部分关注高级主题(仍在不断研究中的领域),以及根本的设计原则。 下载材料本书为各章的示例提供了在线的数据文件、源代码包和图可视化文件,并按章将这些补充材料组织起来。查看或者运行这些文件所需的软件在每章的示例中进行了描述。下载文件中包含以下内容: 数据文件:大多数数据文件以通用格式提供,例如文本(.txt)或逗号分隔值(.csv),可以直接读入图软件或者被程序使用。在一些情况中,会有两个文件,一个是节点文件,另一个是边(即节点之间的连接)文件。在其他情况中,以图特定的文件格式来提供图数据文件,例如.gdf或.graphml。这些是许多图工具能够直接导入的格式。 Excel文件:有一些文件是扩展名为.xls或.xlsx的Excel电子表格示例。这些文件需要使用Microsoft Excel运行。 图可视化文件:一些示例还包含图可视化文件,例如.gephi或.cys。这些文件与特定的图可视化软件关联,例如这两种文件分别与Gephi和Cytoscape关联。要查看这些文件,必须首先下载并安装免费的图可视化软件包。具体细节下一节将进行介绍。 Python代码:编程示例使用了Python语言。这些程序文件的扩展名为.py。Python示例中使用的是Python 3.x版本,要求下载并安装Python。具体细节下一节将进行介绍。 HTML和JavaScript:使用JavaScript的示例通常是包含JavaScript的网页文件,扩展名为.html。这些文件在标准的现代Web浏览器中就可以运行,例如最新版本的Chrome或Firefox。 示例中用到的工具本书使用了众多工具来处理数据或可视化数据。为了使用前面列出的数据文件,需要有下列软件。 Gephi:Gephi(https://gephi.github.io/)是终端用户使用的一个免费的鼠标点击类软件,本书中的许多图可视化示例都用到了这个工具。许多数据文件都可以导入到Gephi中进行分析和可视化。第7章以第3章~第6章描述的基本图分析过程为基础,讨论了Gephi的一些功能。 Cytoscape:Cytoscape(www.cytoscape.org/index.html)是另外一个免费的、供终端用户使用的图分析软件工具,也用在了本书的许多示例中。许多数据文件也可以导入到Cytoscape中进行分析和可视化。第7章讨论了Cytoscape的一些功能,并说明了Gephi与Cytoscape之间的一些区别。 yEd:yEd(www.yworks.com/en/products/yiles/yed/)也是一个免费的、供终端用户使用的鼠标点击类软件产品,由yWroks开发,用于图的分析与可视化。 Excel:有几个示例中用到了Microsoft Excel(http://products.office.com/en-us/excel)电子表格。Excel不是免费的,但是大部分读者应该已经安装了该软件,而Microsoft也允许下载该软件,并评估试用一段时间。有几个例子还使用了Excel的NodeXL插件。 NodeXL:Excel允许开发人员创建插件来访问并增强Excel的功能。NodeXL(http://nodexl.codeplex.com/)为社交网络数据获取提供了图功能,还提供了图的分析与可视化功能。 Python:为了通过编程操纵数据,一些示例中使用了Python 3(https://www.python.org/)编程语言。Python可以免费获取。 一个现代浏览器:虽然任何现代的Web浏览器都应该能够查看JavaScript/HTML示例,不过作者们使用的浏览器是Chrome(https://www.google.com/intl/en_us/chrome/browser/)。 D3.js:D3(http://d3js.org/)是用于在浏览器中创建多种交互式数据可视化的一个JavaScript库,第8章等地方就使用了D3。 Aperture JS:Aperture JS(http://aperturejs.com/)是本书后半部分(例如第12章)的一些示例中使用的一个JavaScript框架库。 Titan:第14章的几个大数据示例中使用了Titan(http://thinkaurelius.github.io/titan/)图数据库。 要使用这些软件库和工具,需要自己下载并安装它们,不过JavaScript库(D3.js和Aperture JS)是例外,它们已经与下载示例打包在一起,可从前面提到的本书配套网站上下载。 注意事项本书的各个章节使用案例分析来演示图的各种应用与形式,以及如何使用图。在可能的地方,演示使用了真实的工具和真实的数据。对于这些情况,有几点需要牢记在心。 虽然作者使用的是开源工具,任何人都可以免费获得这些工具,但是其中的许多工具仍然处在开发当中,因而缺少最终成品的一些光彩与健壮性。需要知道,格外耐心有时候是早期采用一个产品所要付出的代价。将本书中与工具相关的步骤视为一个过程的一般指导原则。如果用户界面看上去与书中的描述不完全相同,则要在更新的界面中找到对应的选项。如果找不到,快速地在网上搜索通常足以帮助你找到你要寻找的东西。 另外要记住的一点与要分析的数据有关。像本书这类图书依赖于公共数据集。虽然近年来将公司数据集开放给公众,以发展分析与可视化的艺术与科学的行动有了巨大的进展,但是私有的数据集始终更加庞大、更加丰富。虽然本书中的分析对于使用的数据是正确的,但是很多时候这些数据只是公司网络内的数据的样本。将本书的分析当做一种模板方法,在你的全部数据处理中可以照用它们。 约定为了帮助你最大程度地理解文字内容,并跟上内容进度,本书中采用了一些约定。 警告 警告框中包含重要的、不能忘记的信息,这些信息与警告框周围的内容有直接关系。 注意 注意框指出了一些注意事项、提示、暗示、技巧或者题外话。 提示 提示框提供了能够帮助掌握所讨论信息的提示或者技巧。

图分析与可视化:在关联数据中发现商业机会 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:图分析与可视化:在关联数据中发现商业机会