Python爬虫大数据采集与挖掘-微课视频版（大数据与人工智能技术丛书） PDF下载

编辑推荐

本书围绕大数据采集，对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术，并提供了27个与爬虫相关技术和应用相关的Python程序。本书可以作为高等院校大数据、计算机、信息以及经管、金融等人文社科相关专业研究生和高年级本科生的教材，也可以作为大数据、计算机、信息以及经管、金融等人文社科领域研究人员和专业技术人员的参考书。

；

内容简介

基础篇：HTTP协议、WEB服务器原理、网络协议、HTML规范、编码
技术原理篇：普通爬虫、主题爬虫、微博、礼貌型爬虫、分布式爬虫、协议数据还原、ETL、大数据交易技术：平台、技术支持、难点
工具与应用篇：从零开始、开源系统/Java、Python
工具应用：爬虫用于抓取论坛、用于舆情监测

作者简介

复旦大学副教授，长期从事大数据教学工作

Python爬虫大数据采集与挖掘-微课视频版（大数据与人工智能技术丛书） PDF下载

前沿

前言
互联网数据具有典型的大数据特征，即数据量巨大、数据类型多样化、数据来源丰富，并且随着“互联网 ”国家战略的推进，互联网大数据的应用价值变得多样化。因此，互联网大数据成为大数据技术教学和研究应用的重要数据源。
在这种背景下，互联网大数据采集技术成为许多人迫切需要掌握的技术，本书就是为了适应这种需求而编写的，同时本书也是作者及其科研团队十多年来教学和科研实践经验的总结。作者及其科研团队长期从事互联网内容分析挖掘、网络舆情、大数据、信息内容安全技术和应用方面的科研工作，在包括国家自然科学基金项目在内的各类科研项目支持下，对互联网信息获取和处理方法开展了大量研究，积累了一定的经验和成果，涵盖论文、发明专利和软件著作权等，作者强烈希望把科研工作中的体会和理解整理出来。
作者从2011年开始先后为复旦大学信息安全专业的本科生、研究生开设了“信息内容安全”“大数据安全”等课程，经过多年的教学实践，了解了学生的学习需求，积累了较为充足的关于互联网大数据采集挖掘技术的讲义和素材。作者于2017年出版了《互联网大数据处理技术与应用》一书，两年来经过在不同场合下与学生、读者和同行的交流，体会到互联网大数据采集技术在大数据研究和教学中的重要性，因此也迫切需要对大数据采集技术进行深入细化，整理相关技术原理和实现技术。

本书以互联网大数据采集为主题，介绍相关技术基础、大数据采集技术、大数据挖掘及应用技术。在内容安排上，本书充分考虑了知识体系的完整性和独立性，涵盖Web应用架构技术、Web页面及相关技术、各种爬虫采集技术、Web信息提取技术、大数据处理与挖掘以及应用方式；在爬虫技术上，涵盖了各种不同类型的爬虫，包括普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博爬虫；在应用方面，以两种典型的Web网站信息采集与处理为例，介绍了爬虫技术的应用模式与Python实现方法。
本书作为一本产学兼顾的教材，具有如下特色：；

（1）以互联网大数据采集技术为中心，将Web应用技术、各种页面采集的共性技术与特有技术、大数据处理与挖掘以及爬虫合规性等相关技术有机地结合在一起，涉及当前互联网Web空间的典型应用，构成完整的大数据采集技术和应用的知识体系。

（2）在互联网大数据的采集技术中，完整系统地涵盖了普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博数据采集，既强调爬虫抓取数据的功能，也凸显爬虫作为Web应用安全监测的主要技术，有利于读者全面理解网络爬虫大数据技术及其应用。
（3）秉承“授人以鱼不如授人以渔”的总体思路，本书理论与实践相结合，书中既有相关技术原理的介绍，也包含了大量的Python实现技术、开源架构等方面的介绍，提供了27个与爬虫技术和应用相关的Python程序，使得读者既能理解技术问题又能动手实践。
本书分为四大部分，共12章，涵盖互联网大数据采集的基础、技术和应用，各章的内容安排如下：；
第一部分概述，包括第1章。
第1章对大数据采集的重要性、技术体系、应用现状、合规性以及技术发展进行了概述。

；

第二部分基础篇，包括第2、3章。
第2章介绍了Web页面信息提取中的主要基础技术和方法，包括HTML语言规范、页面编码体系与规范，以及广泛用于Web页面简单信息提取的正则表达式。
第3章对Web应用架构技术进行了介绍，包括Web服务器应用架构、HTTP协议、状态保持技术、Robots协议等与爬虫密切相关的技术。
第三部分技术与实现篇，包括第4~10章。
第4章对普通爬虫页面采集技术进行了介绍，包括Web服务器连接器、爬虫策略、超链接处理以及Python的实现方法等。
第5章介绍了动态爬虫的相关技术，包括动态页面内容的生成与交互、动态页面采集的若干种典型方法和Python实现技术。
第6章介绍了从Web页面提取信息所需要的技术，介绍了技术原理和典型的开源技术，给出了一些实例。

第7章介绍了主题爬虫技术及实现方法，涉及主题爬虫的技术体系、主题表示和建模、主题相似度计算等。
第8章是关于Deep Web的数据采集技术及实现。
第9章是关于微博信息的采集方法及实现，主要包括通过API获取微博信息和通过爬虫技术获取微博信息两种方法。
第10章介绍了反爬虫的常用技术，同时也介绍了针对这些反爬虫技术的一些主要应对措施。
第四部分大数据挖掘与应用篇，包括第11、12章。
第11章介绍了大数据采集应用以及主题爬虫中需要使用的部分技术，包括文本的预处理、文本分类、主题建模、大数据可视化技术以及一些开源工具等。
第12章针对两种典型的大数据采集技术应用案例进行了完整的介绍。

这些章节的知识点之间的依赖关系如下图所示，其中，虚框中的第4~9章是各种典型的爬虫采集技术，
第1~3章是相关技术基础。读者可以根据自己的基础选择合适的学习路线。

；

全书由曾剑平负责内容安排、统稿，由互联网大数据处理技术和应用研究领域的一线人员参与编写。段江娇参与编写了第1、4、5章，廖含月编写了第2章的部分内容，孟元编写了本书部分例子的程序及相关文字说明，肖杨实现了SQL注入的爬虫在线检测，其他部分由曾剑平编写，曾睿对全书进行了校对。清华大学出版社的编辑们为本书的出版和编辑、校对花费了很多心思；此外，在本书的编写过程中参考和引用了许多作者发表的各种论文、技术报告，均已在参考文献中列出，在此一并表示衷心的感谢。需要特别提到的是，为了便于读者理解相关技术，书中选择若干互联网网站页面采集作为实例，特别向这些网站表示感谢。
注：本书提供300分钟的视频讲解，扫描书中相关位置的二维码可以在线观看、学习；本书还提供教学大纲、教学课件、程序源码、教学进度表等配套资源，扫描封底的二维码可以下载。
互联网大数据采集技术仍在不断发展当中，本书在内容选择及编写上从深度和广度做了精心的安排。由于时间仓促以及作者的学识水平限制，书中难免存在不足之处和疏忽，恳请读者不吝批评指正，以利于再版修订完善。

作者2019年10月