欢迎光临
免费的PDF电子书下载网站

Python网络数据采集 PDF下载

编辑推荐

网络上的数据量越来越大,单靠浏览网页获取信息越来越困难,如何有效地提取并利用信息已成为一个巨大的挑战。本书采用简洁强大的Python语言,全面介绍网络数据采集技术,教你从不同形式的网络资源中自由地获取数据。你将学会如何使用Python脚本和网络API一次性采集并处理成千上万个网页上的数据。本书适合熟悉Python的程序员、安全专业人士、网络管理员阅读。书中不仅介绍了网络数据采集的基本原理,还深入探讨了更高级的主题,比如分析原始数据、用网络爬虫测试网站等。此外,书中还提供了详细的代码示例,以帮助你更好地理解书中的内容。 ;

内容简介

本书采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导。第1部分重点介绍网络数据采集的基本原理:如何用Python从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。

作者简介

Ryan Mitchell,数据科学家、软件工程师,目前在波士顿LinkeDrive公司负责开发公司的API和数据分析工具。此前,曾在Abine公司构建网络爬虫和网络机器人。她经常做网络数据采集项目的咨询工作,主要面向金融和零售业。另著有Instant Web Scraping with Java。

Python网络数据采集 PDF下载

目录

第一部分 创建爬虫
第1章 初见网络爬虫  2
1.1 网络连接  2
1.2 BeautifulSoup简介  4
1.2.1 安装BeautifulSoup  5
1.2.2 运行BeautifulSoup  7
1.2.3 可靠的网络连接  8
第2章 复杂HTML解析  11
2.1 不是一直都要用锤子  11
2.2 再端一碗BeautifulSoup  12
2.2.1 BeautifulSoup的find()和findAll()  13
2.2.2 其他BeautifulSoup对象  15
2.2.3 导航树  16
2.3 正则表达式  19

媒体评论

这本书中的工具和示例帮我轻松地将一些重复性工作自动化了,我可以将省下来的时间用于解决更有意思的问题。这是一本实用手册,非常适合用来解决实际工作中的问题。”——Eric VanWyk,美国欧林工程学院电子计算机工程师

前沿

每时每刻,搜索引擎和网站都在采集大量信息,非原创即采集。采集信息用的程序一般被称为网络爬虫(Web crawler)、网络铲(Web scraper,可类比考古用的洛阳铲)、网络蜘蛛(Web spider),其行为一般是先“爬”到对应的网页上,再把需要的信息“铲”下来。OReilly 这本书的封面图案是一只穿山甲,图灵公司把这本书的中文版定名为“Python 网络数据采集”。当我们看完这本书的时候,觉得网络数据采集程序也像是一只辛勤采蜜的小蜜蜂,它飞到花(目标网页)上,采集花粉(需要的信息),经过处理(数据清洗、存储)变成蜂蜜(可用的数据)。网络数据采集可以为生活加点儿蜜,亦如本书作者所说,“网络数据采集是为普通大众所喜闻乐见的计算机巫术”。

 

网络数据采集大有所为。在大数据深入人心的时代,网络数据采集作为网络、数据库与机器学习等领域的交汇点,已经成为满足个性化网络数据需求的最佳实践。搜索引擎可以满足人们对数据的共性需求,即“我来了,我看见”,而网络数据采集技术可以进一步精炼数据,把网络中杂乱无章的数据聚合成合理规范的形式,方便分析与挖掘,真正实现“我征服”。工作中,你可能经常为找数据而烦恼,或者眼睁睁看着眼前的几百页数据却只能长恨咫尺天涯,又或者数据杂乱无章的网站中满是带有陷阱的表单和坑爹的验证码,甚至需要的数据都在网页版的 PDF 和网络图片中。而作为一名网站管理员,你也需要了解常用的网络数据采集手段,以及常用的网络表单安全措施,以提高网站访问的安全性,所谓道高一尺,魔高一丈……一念清净,烈焰成池,一念觉醒,方登彼岸,本书试图成为解决这些问题的一念,让你茅塞顿开,船登彼岸。

 

网络数据采集并不是一门语言的独门秘籍,Python、Java、PHP、C#、Go 等语言都可以讲出精彩的故事。有人说编程语言就是宗教,不同语言的设计哲学不同,行为方式各异,“非我族类,其心必异”,但本着美好生活、快乐修行的初衷,我们对所有语言都时刻保持敬畏之心,尊重信仰自由,努力做好自己的功课。对爱好 Python 的人来说,人生苦短,Python 当歌!简洁轻松的语法,开箱即用的模块,强大快乐的社区,总可以快速构建出简单高效的解决方案。使用 Python 的日子总是充满快乐的,本书关于 Python 网络数据采集的故事也不例外。网络数据采集涉及多个领域,内容包罗万象,因此本书覆盖的主题较多,涉及的知识面相对广阔,书中介绍的 Python 模块有 urllib、BeautifulSoup、lxml、Scrapy、PdfMiner、Requests、Selenium、NLTK、Pillow、unittest、PySocks 等,还有一些知名网站的 API、MySQL 数据库、OpenRefine 数据分析工具、PhanthomJS 无头浏览器以及 Tor 代理服务器等内容。每行到一处,皆是风景独好,而且作者也为每一个主题提供了深入研究的参考资料。不过,本书关于多进程(multiprocessing)、并发(concurrency)、集群(cluster)等高性能采集主题着墨不多,更加关注性能的读者,可以参考其他关于 Python 高性能和多核编程的书籍。总之,本书通俗易懂,简单易行,有编程基础的同学都可以阅读。不会 Python ?抽一节课时间学一下吧。

 

网络数据采集也应该有所不为。国内外关于网络数据保护的法律法规都在不断地制定与完善中,本书作者在书中介绍了美国与网络数据采集相关的法律与典型案例,呼吁网络爬虫严格控制网络数据采集的速度,降低被采集网站服务器的负担。恶意消耗别人网站的服务器资源,甚至拖垮别人网站是一件不道德的事情。众所周知,这已经不仅仅是一句“吸烟有害健康”之类的空洞口号,它可能导致更严重的法律后果,且行且珍惜!

 

语言是思想的解释器,书籍是语言的载体。本书英文原著是作者用英文解释器为自己思想写的载体,而译本是译者根据英文原著以及与作者的交流,用简体中文解释器为作者思想写的载体。读者拿到的中译本,是作者思想经过两层解释器转换的结果,其目的是希望帮助中文读者消除语言障碍,理解作者的思想,与作者产生共鸣,一起面对作者曾经遇到的问题,共同探索解决问题的方法,从而帮助读者提高解决问题的能力,增强直面 bug 的信心。bug 是产品生命中的挑战,好产品是不断面对 bug 并战胜 bug 的结果。译者水平有限,译文 bug 也在所难免,翻译有不到之处,还请各位读者批评指正!

 

最后要感谢图灵公司朱巍老师的大力支持,让译作得以顺利出版。也要感谢神烦小宝的温馨陪伴,每天 6 点叫我们起床,让业余时间格外宽裕。

 

译者联系方式——

邮箱:muxuezi@gmail.com,微信号:muxuezi

邮箱:carrieforchen@gmail.com,微信号:陈小莉

陶俊杰

免费在线读

Python网络数据采集 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:Python网络数据采集