|
发表于 2021-4-3 16:11:09
|
显示全部楼层
很多商业化的智能爬虫软件,不过都是要收费的。0 x$ K2 F3 |; v& N
如果你可以接受对应价格,可以考虑去度娘一下,类似于八爪鱼,火车头,爬山虎等。
' [) G* n: d" ~3 L" G; ]曾经体验过八爪鱼,基本上都是别人开发好的产品,看似简单,只要做一些配置就能帮你自动爬取一些网络数据,但如果你的目标网页发生变化,机会需要经常去修改配置,并且基本上只能存在Excel或者文本文件中,很难让你定制到你自己的目标库中,你甚至还需要自己手工修改代码和配置,而且海量数据的爬取,很多时候都不稳定。+ i1 R( b% c, O- x
即使你真对这些软件付费了,你还需维护你的动态IP池,代理池,cookie池处理网站登录和验证码图片,把爬出来的数据存入你指定的数据库,如mongoDB ,redis,mysql等,还需要自己再次开发去实现。
1 @! f% p; s: S最好合适你的爬虫,可能就是你自己用工具编程语言实现的功能模块,比如用Java, python等实现出来的,或者简单点,你可以用免费的按键精灵自己写它的脚本实现的场景来满足你的需要。5 A5 e( I& v3 v3 u1 t* o. a
爬虫入门不难,常用的库比如lxml, requests库,pyquery库,selenium webdriver库,Appium库,加上一些方法论,基本都能实现。% K0 G- x7 r2 t$ H! O0 j
复杂一些的就用框架比如Scrapy,pyspider,去实现,自己学习成本是稍微高了点,但自己实现的最终最能满足你的需要,你要钱花了,还要做大量的定制化工作,甚至有可能得到的数据也不能完全满足你的需要,得不偿失。
( l' i/ T- q2 ]0 l% z' @( `4 K
|
|