新浪博客文章采集器

新浪博客拥有很多博主,会发布很多高质量的文章,有时候,有些朋友看到这些文章之后想采集下来,但是一篇一篇文章去复制效率太慢了,这个时候该怎么办呢?使用八爪鱼采集器,只需做好规则,即可全自动地将我们的想要的文章采集下来。
工具/原料
采集的内容包括:博客文章正文,标题,标签,分类,日期。
操作方法
步骤1:创建新浪博客文章采集任务
1)进入主界面,选择“自定义采集”

2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”

步骤2:创建翻页循环
1)打开网页之后,打开右上角的流程按钮,使制作的流程可见状态。点击页面下方的“下一页”,如图,选择“循环点击单个链接”,翻页循环创建完成。(可在左上角流程中手动点击“循环翻页”和“点击翻页”几次,是否正常翻页。)

2)由于进入详情页时网页加载很慢,网址一直在转圈状态,无法立即执行下一个步骤,因此在“循环翻页”的高级选项里设置“ajax加载数据”,超时时间设置为5秒,点击“确定”。

步骤3:创建列表循环
鼠标点击列表目录中第一个博文,选择操作提示框中的“选中全部”。

2)鼠标点击“循环点击每个链接”,列表循环就创建完成,并进入到第一个循环项的详情页面。

由于进入详情页时网页加载很慢,网址一直在转圈状态,无法立即执行下一个步骤,因此在“点击元素”的高级选项里设置“ajax加载数据”,AJAX超时设置为3秒,点击“确定”。

3)数据提取,接下来采集具体字段,分别选中页面标题、标签、分类、时间,点击“采集该元素的文本”,并在上方流程中修改字段名称。

鼠标点击正文所在的地方,点击提示框中的右下角图标,扩大选项范围,直至包括全部正文内容。(笔者点击2下就全部包括在内了)

同样选择“采集该元素的文本”,修改字段名称,数据提取完毕。

4)由于该网站网页加载速度非常慢,所以可在流程各个步骤的高级选项里设置“执行前等待”几秒时间,也可避免访问页面较快出现防采集问题。设置后点击“确定”。

步骤4:新浪博客数据采集及导出
1)点击左上角的“保存”,然后点击“开始采集”。

选择“启动本地采集”

2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出, 这里我们选择excel作为导出为格式,这个时候新浪博客数据就导出来了,数据导出后如下图

同类经验分享
- 钉钉如何设置允许非好友查看我的企业认证信息?11-19
- www是什么意思05-03
- 如何更好地处理婆媳矛盾11-19
- 萌妆的打造方法11-19
- 家具设计之客厅电视柜家具手绘举例11-17
- 小孩很不听话怎么办?11-17
- 怎么做美人鱼手工制作11-26
- 汽车美容知识全攻略11-26
- 批量确认收货如何使用11-26
- 如何轻松地学习一门语言11-26
站内热点
- 钉钉如何设置允许非好友查看我的企业认证信息?11-19
- www是什么意思05-03
- 如何更好地处理婆媳矛盾11-19
- 萌妆的打造方法11-19
- 家具设计之客厅电视柜家具手绘举例11-17
- 小孩很不听话怎么办?11-17
- 怎么做美人鱼手工制作11-26
- 汽车美容知识全攻略11-26
- 批量确认收货如何使用11-26
- 如何轻松地学习一门语言11-26
近期更新
- 如何为自己选择合适的书籍05-25
- 婴儿袜子编织手工织法05-25
- 父母发现女儿早恋后怎么办?05-25
- 淘宝试用中心技巧05-25
- 如何帮助关节有问题和僵硬的狗狗05-25
- 美味挡不住的面包风味面团05-25
- 京东如何在沃尔玛买东西05-25
- 如何合理购物05-25
- 纸飞机的做法05-25
- 宠物猫的领养05-25
- 香蒜炒青菜怎么做05-25
- 头发量少?弄这些发型一样也可以美美哒!05-25