欢迎光临
免费的PDF电子书下载网站

基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 PDF下载

编辑推荐

基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 PDF下载 ;

内容简介

本书共17章。第1章是概述,阐述数据挖掘的意义与实际应用。第28章介绍网络和数据技术基础知识。这一部分内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTPHTMLXMLJSONAJAXSQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第911章介绍网络抓取和文本挖掘的实用工具箱。这一部分由三个核心章节组成:第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第1217章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。

 ;

作者简介

暂无

基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 PDF下载

目录

译者序

前 言

第1章概述

1.1案例研究:濒危世界遗产地

1.2有关网络数据质量的一些讨论

1.3传播、提取和保存网络数据的技术

1.3.1在网络上传播内容的技术

译者序

 ;

1章概述

1.1
案例研究:濒危世界遗产地

1.2
有关网络数据质量的一些讨论

1.3
传播、提取和保存网络数据的技术

1.3.1
在网络上传播内容的技术

1.3.2
Web文档中提取信息的

技术

1.3.3 ;
数据保存的技术

1.4
本书的结构

第一部分网络和数据技术入门

2HTML

2.1
浏览器显示及源代码

2.2
语法规则

2.2.1
标签、元素和属性

2.2.2
树形结构

2.2.3
注释

2.2.4
保留字符和特殊字符

2.2.5
文档类型定义

2.2.6 ;
空格和换行

2.3
标签和属性

2.3.1 ;
锚标签

2.3.2 ;
元数据标签

2.3.3 ;
外部引用标签

2.3.4 ;
强调标签



2.3.5
段落标签



2.3.6 ; 标题标签





2.3.7 ;
通过