目标
新建node4项目,代码的入口是 app.js,当调用 node app.js 时,它会输出 http://cn.made-in-china.com/nmEJVvWbTxcu-gongsi-1.html 页下的所有公司主页的公司名字,链接,以及负责人以 json 的格式。
例如:
内容
体会 Node.js 的 callback hell 之美
学习使用 eventproxy 这一利器控制并发
这一章我们来到了 Node.js 最牛逼的地方——异步并发的内容了。
上一课我们介绍了如何使用 superagent 和 cheerio 来取主页内容,那只需要发起一次 http get 请求就能办到。但这次,我们需要取出每个公司主页的负责人等信息,这就要求我们对公司的主页的链接发起请求,并用 cheerio 去取出所需要的信息。
有些逼格比较高的朋友可能听说过 promise 和 generator 这类概念。不过我呢,只会讲 callback,主要原因是我个人只喜欢 callback。
这次课程我们需要用到三个库:superagent cheerio eventproxy(https://github.com/JacksonTian/eventproxy )
手脚架的工作各位自己来,我们一步一步来一起写出这个程序。
我们先得到所有公司主页的url地址了,接下来,我们把这些地址都抓取一遍,就完成了,Node.js 就是这么简单。
抓取之前,还是得介绍一下 eventproxy 这个库。
用 js 写过异步的同学应该都知道,如果你要并发异步获取两三个地址的数据,并且要在获取到数据之后,对这些数据一起进行利用的话,常规的写法是自己维护一个计数器。
先定义一个 var count = 0,然后每次抓取成功以后,就 count++。如果你是要抓取三个源的数据,由于你根本不知道这些异步操作到底谁先完成,那么每次当抓取成功的时候,就判断一下 count === 3。当值为真时,使用另一个函数继续完成操作。
而 eventproxy 就起到了这个计数器的作用,它来帮你管理到底这些异步操作是否完成,完成之后,它会自动调用你提供的处理函数,并将抓取到的数据当参数传过来。
假设我们不使用 eventproxy 也不使用计数器时,抓取三个源的写法是这样的:
但大家应该也想到了,其实这三个源的数据,是可以并行去获取的,data2 的获取并不依赖 data1 的完成,data3 同理也不依赖 data2。
于是我们用计数器来写是这样的
如果我们用 eventproxy,写出来是这样的:
好看多了是吧,也就是个高等计数器嘛。
ep.all(‘data1_event’, ‘data2_event’, ‘data3_event’, function (data1, data2, data3) {});
这一句,监听了三个事件,分别是 data1_event, data2_event, data3_event,每次当一个源的数据抓取完成时,就通过 ep.emit() 来告诉 ep 自己,某某事件已经完成了。
当三个事件未同时完成时,ep.emit() 调用之后不会做任何事;当三个事件都完成的时候,就会调用末尾的那个回调函数,来对它们进行统一处理。
eventproxy 提供了不少其他场景所需的 API,但最最常用的用法就是以上的这种,即:
- 先 var ep = new eventproxy(); 得到一个 eventproxy 实例。
- 告诉它你要监听哪些事件,并给它一个回调函数。ep.all(‘event1’, ‘event2’, function (result1, result2) {})。
- 在适当的时候 ep.emit(‘event_name’, eventData)。
输出如下图: