Node.js爬虫实战 - 爬你喜欢的

显示全部楼层 · 2019-8-15 17:17:57

前言

今天没有什么前言，就是想分享些关于爬虫的技术，任性。来吧，各位客官，里边请...
开篇第一问：爬虫是什么嘞？

首先咱们说哈，爬虫不是“虫子”，姑凉们不要害怕。

爬虫 - 一种通过一定方式按照一定规则抓取数据的操作或方法。
开篇第二问：爬虫能做什么嘞？

来来来，谈谈需求
产物MM：

研发GG：
爬虫随时准备为您服务！

开篇第三问：爬虫怎样实现嘞？

实现爬虫的技术有很多，如python、Node等，今天胡哥给大家分享使用Node做爬虫：爬取小说网站-首页推荐小说
爬取第一步-确定目标

目标网站：https://www.23us.so

我们要获取排行榜中六部小说的：书名、封面、以及小说书籍信息对应的地址(后续获取小说完整信息)
爬取第二步-分析目标特点

网页的内容是由HTML生成的，抓取内容就相称找到特定的HTML结构，获取该元素的值。
打开网页调试控制台，查看元素HTML结构。

注意观察页面HTML的结构，排行榜推荐的小说的HTML结构是

复制代码

爬取第三步-弄丫的

工具善其事必先利其器，准备好趁手的兵器！
superagent

模拟客户端发送网络请求，可设置请求参数、header头信息

复制代码

cheerio

类jQuery库，可将字符串导入，创建对象，用于快速抓取字符串中的符合条件的数据

复制代码

项目目录：

复制代码

上代码：

// node-pachong/index.js/** * 使用Node.js做爬虫实战 * author: justbecoder */// 引入需要的工具包const sp = require('superagent');const cheerio = require('cheerio');// 界说请求的URL地址const BASE_URL = 'http://www.23us.so';// 1. 发送请求，获取HTML字符串(async () => { let html = await sp.get(BASE_URL); // 2. 将字符串导入，使用cheerio获取元素 let $ = cheerio.load(html.text); // 3. 获取指定的元素 let books = [] $('#s_dd dd').each(function () { let info = { link: $(this).find('a').eq(0).attr('href'), name: $(this).find('a').eq(1).text(), image: $(this).find('img').attr('src') } books.push(info) }) console.log(books)})()

复制代码