大数据技术导论
上QQ阅读APP看书,第一时间看更新

*3.4.2 论坛爬虫源代码分析

直接访问目标站点http://114.112.74.138即可进入论坛主页。论坛的默认模块包含:

5800+条主题帖;

1700+条回复帖;

7500+条有效回复内容;

550+会员。

Discuz论坛网页如图3.9所示。

图3.9 Discuz论坛主页

论坛内涉及的信息逻辑结构如图3.10所示。

图3.10 论坛信息逻辑结构

当明确了所需要的爬取内容的位置时,就可以使用以下代码对此论坛进行爬取,具体代码如下:

运行结果如图3.11所示。

图3.11 爬取Discuz论坛<title>标签和所有帖子信息Python代码