主题:使用vim将网页版本《大国崛起》转换成txt文本
应用软件:gvim7.1
涉及知识:使用vim同时编辑数个文件,正则表达式。
近日,受友之托,欲将网页中的《大国崛起》存到MP4中。该网页版本的《大国崛起》共183个页面。传统方法是打开183次网页,选中所需内容,进行183次的Ctrl C和Ctrl V,不喜重复,遂有本文产生。
1、将下载好的183个.shtml文件放入一个文件夹d:\html(如何批量下载网页不是本文重点,不再赘述)。
2、win+r cmd d:\html>givm *.shtml(使gvim同时将多个以.shtml文件载入缓冲区
3、进入vim的末行
:se nu (显示行号)发现所需内容位于 324行。
:argdo 324 w! (强制将缓冲区所有文件中的行324行写回源文件)
:argdo! %s/<[^>]*>//ge | w (使用正则表达式移除文件中的html标签,多数为br,好搞定)
4、将纯净的.shtml重新命名为.txt ren *.shtml *.txt 将整个html目录复制到MP4就OK了。
本文FAQ
1、Q:shtml文件非要转换成txt,MP4才能识别吗?
A:不。MP4下会看到大量类似<br />的HTML标签。如果你能忍受这个,不转换也行。
2、Q:那为什么MP4不能想我的电脑里的IE正常显示网页?
A:MP4中没有web浏览器,不过,兴许你读到本文时,手里正拿着按照了web浏览器的手机。
3、Q:听说vim很难,不喜欢。
A:如果你认为copy一百多次很简单,那我也没办法。
4、Q:能不能用MS WORD实现?
A:经典问题,问问熟悉VB script的人,他们兴许会有办法。不过我很担心你用MS WORD同时处理100多个文件时,你的窗口还能动吗,如果能胜任,请告诉我你的机器配置及相关VB script。
PS:近期会对自己使用vim做个小结,敬请关注!