|
发表于 2021-4-4 12:19:53
|
显示全部楼层
数据抓取原理
7 O8 _3 F8 t) c6 j' b8 V) ~火车采集器如何去抓取数据,取决于您的规则。您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采下来,这就是采网址。程序按您的规则抓取列表页面,从中分析出网址,然后再去抓取获得网址的网页里的内容。再根据您的采集规则,对下载到的网页分析,将标题内容等信息分离开来并保存下来。如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出图片,资源等的下载地址并下载到本地。
0 P" y# A) X8 a+ J数据发布原理. g8 ?+ v- f( p0 D4 P1 c8 c! s
在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。
, T# f- X8 `9 p1、不做任何处理。因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。
" N0 e5 M) F, G; f1 i7 I2、Web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。, T0 R6 [! o! i) V( ^$ ]/ D
3、直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。
! z9 f! Z7 \: Z1 ?4、保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。' i/ L- C }6 Y! Y1 b
工作流程
8 ?4 ^$ _. `4 e9 }: ^火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。这两个过程是可以分开的。/ N+ K4 \' W# x+ Q y$ e2 Z
1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。$ M' B$ B% ]* A& C% j# z1 N+ i Z
2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布,数据库入库或存为本地文件。
4 C, R) N, o6 N9 C& I Z具体的使用其实是很灵活的,可以根据实际来决定。比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。总之,具体过程由您而定,火车采集器的强大功能之一也就是体现在灵活中。4 m, `+ {- H- ?7 G* p$ G
新增功能# `2 n; ?0 z2 y' q) K6 P7 e
无限级多页采集
# L& e& g1 ?( `# O% V9 p8 Z任务队列运行管理功能
6 J0 a8 @6 U J" N I8 w无限级分组任务管理,任务回收站功能% y5 M9 Y: T$ O% U, G8 F) R
RSS地址采集功能, ^0 h" Y7 Q L9 k5 G' e2 q
列表页分页采集获取功能
1 m. k5 L, k4 e列表页附加参数获取功能; [1 X; Z* N$ w a1 C9 m, q: k
列表页及标签XPath可视化提取功能
* U2 _7 H# T# E' g4 D5 D8 n* n标签纯正则替换功能
$ i. D8 S+ l4 W$ G0 BHttp接口查看运行情况
2 O9 {( X# ]' W: x导出记录为单个或多个Txt、html 文件2 {7 t# `- m; g" ?- b% Y
标签间自由组合功能
: v3 ^% X. f4 t. T3 K4 }+ c8 G5 i针对标签内容继续发送Http请求功能+ J& r( t1 U3 ~9 C( o' s0 T; [8 l, g7 J
无限级列表网址采集4 T4 v. B ?% U4 [/ q% g! c/ h
从Http头信息中获取数据
' A+ l/ O7 U6 d: t9 G标题内容正文提取功能
6 ?; f: J9 ~& i; k8 X7 D3 XAspx列表分页自识别' P0 y+ d5 J: U3 Y! v6 K# l
多网站站群式web发布* k2 h5 \. [ z% Q2 Q
导出记录为Word格式
% F4 [! f% e+ p& S导出所有记录为Excel格式% L* G# D0 C0 r9 p. @3 z* W
使用随机二级代理服务器(支持Socket代理)
1 E3 ~, l h4 Z- J多扩展间数据交换功能
) y3 X8 F: N6 I下载的图片自动加增强型水印功能
; q4 ?' U. Q( o# z( iOcr识别(图片转化为文字)
# ~3 Q- d" J' d4 s; _3 g9 }$ eHttp接口管理采集器运行
' g/ K0 P F, L! R, D8 fMongodb数据库保存数据2 O9 O# u4 D" p9 t, l. l
主从服务器分布式采集
7 r# S" c5 P. U% x
5 s" b, o: y& r9 f* v采集规则分为站点规则和任务规则,通常是指任务规则。所谓采集规则就是要采集一个网站时在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。站点规则文件的后缀名为:.lsite;任务规则文件的后缀名为:.ljob。
. w3 Y7 A( j- H: n; [: S5 Q6 j+ _+ J5 U) G! [- r
———————— |
|