欢迎来到中国铁道出版社有限公司官网!
$itImage.title$

Python网络爬虫实战

书      号:9787113286583

丛  书 名:职业教育赛教一体化课程改革系列规划教材

作      者:邓晨曦

译      者:

开      本:16开

装      帧:平装

正文语种:

出  版 社:中国铁道出版社有限公司

定      价:39

  • 内容简介

    本书基于Python3,系统全面地讲解了Python网络爬虫的基础知识。全书共分11章,内容包括网络爬虫概述、网页请求原理与爬虫基础、urllib库与异常处理、requests库、数据解析技术、BeautifulSoup库、动态页面爬取、爬虫数据的存储、爬虫框架Scrapy、CrawlSpider、图像识别与文字处理。本书适合作为高等职业院校电子信息类各专业的教材,也可作为培训学校的培训教材,以及Python爬虫爱好者的自学用书。
  • 前言

    为认真贯彻落实教育部实施新时代中国特色高水平高职学校和专业群建设,扎实、持续
    地推进职校改革,强化内涵建设和高质量发展,落实双高计划,抓好职业院校信息技术人才培
    养方案实施及配套建设,我们统筹规划并启动了“职业教育赛教一体化课程改革系列规划教材”
    (云计算技术与应用、大数据技术与应用、网络综合布线、传感器应用技术、物联网 .NET 开
    发、物联网嵌入式开发、物联网移动应用开发、 Python 网络爬虫实战)。本系列教材是由教
    育教学一线专家、教育企业一线工程师、中国铁道出版社有限公司精英数十人团队的匠心之作,
    是全体编委精益求精,在日复一日、年复一年的工作中不断探索和超越的教学结晶。本书教学
    设计遵循教学规律,涉及内容是真实项目的拆分与提炼。
    本书基于 Python 3,系统全面地讲解了 Python 网络爬虫的基础知识。全书共分 11 章,具
    体介绍如下:
    第 1、 2 章主要介绍网络爬虫的概念及实现原理,希望读者能够明白爬虫爬取网页的过程,
    并对产生的一些问题有所了解。
    第 3~6 章详细介绍了网页数据解析的相关技术,包括 urllib 库的使用、 requests 库、
    lxml、 XPath、 Beautiful Soup 等。
    第 7 章主要介绍动态网页爬取的内容,希望读者掌握抓取动态网页的一些技巧。
    第 8 章主要介绍爬虫数据存储的内容,包括使用 MySQL 与 MongoDB 数据库进行数据存
    储的相关知识。通过案例实操,讲解了如何一步步从网站中爬取、解析、存储电影信息。希望
    读者在存储爬虫数据时根据具体情况灵活选择合理的技术进行运用。
    第 9、 10 章主要介绍爬虫框架 Scrapy 以及自动爬取网页的爬虫 CrawlSpider 的相关知识。
    通过对这两章的学习,可了解框架的基本知识与应用,为以后深入学习打下坚实基础。
    第 11 章主要介绍图像识别与文字处理等内容,希望读者学会处理一些字符格式规范的图
    像和简单的验证码。
    本书由湖南环境生物职业技术学院的邓晨曦任主编,武汉唯众智创科技有限公司的陈家
    枫、仙桃职业学院的李明海、襄阳职业技术学院的田勇、重庆工商职业学院的向涛任副主编。
    具体分工如下:邓晨曦编写第 1 章、第 2 章、第 5 章、第 6 章、第 8 章、第 11 章;陈家枫编
    写第 3 章、第 4 章;李明海编写第 7 章;田勇编写第 9 章;向涛编写第 10 章。全书由邓晨曦
    统稿。
    由于时间仓促,编者水平有限,书中难免存在疏漏与不妥之处,敬请广大读者批评指正。
    编 者
    2021 年 7 月
  • 目录

    第1章网络爬虫概述1.1爬虫产生背景1.1.1企业产生的数据1.1.2数据平台购买的数据1.1.3政府/机构公开的数据1.1.4数据管理咨询公司的数据1.1.5爬取的网络数据1.2爬虫的概念1.3爬虫的用途1.4爬虫的组成1.5爬虫的类型1.5.1通用爬虫1.5.2聚焦爬虫1.5.3累积式和增量式爬虫1.5.4表层爬虫和深层爬虫第2章网页请求原理与爬虫基础2.1爬虫实现原理2.1.1通用爬虫2.1.2聚焦爬虫2.2HTTP基础2.2.1HTTP与HTTPS2.2.2HTTP请求过程2.2.3客户端请求2.2.4服务端响应2.3网页基础2.4抓包工具Fiddle2.4.1Fiddler简介2.4.2Fiddler工作原理与界面2.4.3Fiddler爬取HTTPS设置2.4.4Fiddler捕获Chrome会话第3章urllib库与异常处理3.1urllib库简介3.1.1快速使用urllib爬取网页3.1
  • 作者介绍

    邓晨曦,湖南衡阳人,毕业于湖南师范大学,硕士研究生学位、副教授、软件工程师、中国计算机学会会员。现任湖南环境生物职业技术学院生态宜居学院计算机专业教师。从事教育教学工作以来,发表SCI论文1篇、中文核心论文1篇,其他省级刊物发表论文10余篇;申请发明专利1项,授权实用新型专利2项;主持市厅课题1项,参与省级课题1项,院长基金课题1项;主编、参编出版教材6本;指导学生参加国家级、省级技能竞赛,多次获得一、二、三等奖。
  • 编辑推荐

    配有丰富的微课
  • 书评书荐

  • 附件下载

图书推荐