经产观察
IT资讯
IT产业动态
业界
网站运营
站长资讯
互联网
国际互联网新闻
国内互联网新闻
通信行业
通信设备
通信运营商
消费电子
数码
家电
IT资讯

python 爬取36kr 7x24h快讯

作者:habao 来源: 日期:2019-8-18 7:19:13 人气:

  仔细研究下请求中的bid其实和返回的items中的最后一个id是相同的,这意味着我们可以第一次请求解析其中的props标签,然后获得最后一个id,接下来构造新的url时就可以采用形如格式的地址了,测试发现只需要就可以了,这个地址其实是多了层api,测试时发现构造这种这个地址没有那层api,所以返回的也是html,解析props标签同样可以获得数据

  好了,综上我们有了两种思,第一种是请求正则解析props.然后获得id,构造返回值为json字符串的url,第二种也是请求解析props.然后获得id,

  构造返回html内容的url,之后也是使用正则解析props标签,但实际测试时这种效率有点低,因为大规模的使用了正则匹配,

  所以我使用了第一种方式,此外使用第一种方式我们可以指定per_page,虽然过大容易被封IP

  财成国际