您的位置 首页 百科问答

求一款简单的批来自量提取网页文字的工具,合减你层南政层众搞解线乎问题追加10分满意追加20分

问题补充说明:就是那种给出起始网址 结束网址 就提取出文字合成小说的工具 比如起始~http://……/read_74877_5625.html ~ ~ ~ ~结束~http://……/read_74877_5665.html 然后41个网页中文字内容全部提取出来了

求一款简单的批来自量提取网页文字的工具,合减你层南政层众搞解线乎问题追加10分满意追加20分

用ReplacePioneer可以。

第一步,生成下载列表:

1.ctrl-h打开replace窗口

点击Advanced页,在InsertBeginText输入:

join('\n',map{"http://……/read_74877_$_.html,text"}(5625..5665))

2.点击Replace,完成,按ctrl-s保存为a.txt

第二步,导入a.txt并下载

3.打开Tools->B缩木全专字atchRunner菜单

4.点击ImportList把a.txt导入

5.选中Setoutputfilename,把右边的${FILENAME}改为需要的新名字,比如#.txt表示递得打能增的序号1.txt,2.txt,...。

6.点击Copy/Download即下载完县越换轴教静毕

第三步,合并

7.打开Tools->BatchRunner菜单

8.点击阶治裂氧溶期PickFiles选择下载好的1.txt,2.txt,...

9.点击FileMerge,输入结果文件,完成械范系端攻某合并

注:

*如希望下载为html格式,而不是te这xt格式,第一步的",te越转限组到衡培烧xt"可以去掉。

*说如希望把不必要的内容去掉,第6步可以选择FastRe规培天place按钮代替copy/download按钮,按add按钮输入多条替换规则,爱友合英比如:

search输入"^.*弦后司?abc"(不带双引号),replace不填,就能把开头到abc的内容全部去掉。

search输入"def.*?$"(不带双引号),replace不填,就能把从def到结尾的内容全部去掉。

加完后点击start即可。

上一篇 请教高手;在WPS下如何制作“双行表头工资条”谢谢传授具体方法、步骤
下一篇 大兴安岭猎人传说剧情介绍?
扫一扫,手机访问

扫一扫,手机浏览