轻松使用OCR把PDF转换成Word
by Alan on 十一月03日, 2008年, under 要渔非鱼|
最近接到一个讨厌的活——翻译,而且这个pdf文件是扫描的图像,无法选择段落,而且有些专业单词不认识的,翻译软件也没办法用。只要把图像转换成文字格式(OCR,光学字符识别),接下来的事情便好处理。按以下的方式处理便能提高效率,而且还不用安装额外的软件,OFFICE套件就足够使用。
使用一款pdf阅读软件,比如PDF-XChange Viewer,Adobe Reader (Acrobat已经有OCR功能)把整个文档转换为图像文件
打开Microsoft Office Document Imaging程序
选择工具》选项》OCR ,如果文档是英文的话,选择英文识别率会比较高,不然默认按中文识别
最后发送到Word,默认是htm格式,不过可以另存为…doc格式
下面的遇到不认识的单词就可以用翻译软件查询意思了,提高工作效率。因为现在的技术水平,机器全文翻译专业文章简直是一个——“惨”字 :0
整体思路:把图像转换为文字,使不可识别的内容变为可以进一步处理的内容。同理,可以用DC拍下一个含有文字的图片,然后转化为TIFF格式,最后识别出来,进行处理(试过,OK)。OCR技术已经成熟,出来好多好多年了,任何的扫描仪都有这种软件。这里只不过用来提高我的工作效率而已。网上也有其他介绍,可以搜索一下。举两个正反方面的例子。
- 很多盗版的电子书也是扫描得到的,最后也OCR一下,就成了可以复制的内容。不然有这个人力资源来手打?
- Google使用开源OCR技术,把可以搜索到的3亿2千万个(识别过的比例不详)PDF变成可以索引并搜索的东西,同时提供html显示。(via)
后话,这些技术都是过时的技术,不过在普通生活中还是有其价值,OFFICE博大精深,谁能掌握,就是办公室一哥一姐,不过也可能是最惨的人——别人不会的一个人全做,哈哈。低调,低调点……
|
« 个人理财小手册
|
08上海双年展 »
|
一月 28th, 2010 on 18:39
GOOD!
十一月 4th, 2008 on 13:14
麻烦,讨厌翻译,嘿累.
如果篇幅不长还好,要是长了上千我就很恼火了.