
上QQ阅读APP看书,第一时间看更新
*3.4.2 论坛爬虫源代码分析
直接访问目标站点http://114.112.74.138即可进入论坛主页。论坛的默认模块包含:
5800+条主题帖;
1700+条回复帖;
7500+条有效回复内容;
550+会员。
Discuz论坛网页如图3.9所示。

图3.9 Discuz论坛主页
论坛内涉及的信息逻辑结构如图3.10所示。

图3.10 论坛信息逻辑结构
当明确了所需要的爬取内容的位置时,就可以使用以下代码对此论坛进行爬取,具体代码如下:


运行结果如图3.11所示。

图3.11 爬取Discuz论坛<title>标签和所有帖子信息Python代码