ShanghaiKer

轻松使用OCR把PDF转换成Word

by Alan on 十一月03日, 2008年, under 要渔非鱼|

       最近接到一个讨厌的活——翻译,而且这个pdf文件是扫描的图像,无法选择段落,而且有些专业单词不认识的,翻译软件也没办法用。只要把图像转换成文字格式(OCR,光学字符识别),接下来的事情便好处理。按以下的方式处理便能提高效率,而且还不用安装额外的软件,OFFICE套件就足够使用。

2008_11_03_ocr_1.jpg

使用一款pdf阅读软件,比如PDF-XChange Viewer,Adobe Reader (Acrobat已经有OCR功能)把整个文档转换为图像文件
2008_11_03_ocr_2.jpg

选择TIFF格式
2008_11_03_ocr_3.jpg

打开Microsoft Office Document Imaging程序
2008_11_03_ocr_4.jpg

打开刚才转换好的TIFF文件,后缀为.tif
2008_11_03_ocr_5.jpg

选择工具》选项》OCR ,如果文档是英文的话,选择英文识别率会比较高,不然默认按中文识别
2008_11_03_ocr_6.jpg

选择工具》使用OCR识别文档,接着就等
2008_11_03_ocr_7.jpg

选择要复制的段落或者全文
2008_11_03_ocr_8.jpg

最后发送到Word,默认是htm格式,不过可以另存为…doc格式

       下面的遇到不认识的单词就可以用翻译软件查询意思了,提高工作效率。因为现在的技术水平,机器全文翻译专业文章简直是一个——“惨”字 :0

       整体思路:把图像转换为文字,使不可识别的内容变为可以进一步处理的内容。同理,可以用DC拍下一个含有文字的图片,然后转化为TIFF格式,最后识别出来,进行处理(试过,OK)。OCR技术已经成熟,出来好多好多年了,任何的扫描仪都有这种软件。这里只不过用来提高我的工作效率而已。网上也有其他介绍,可以搜索一下。举两个正反方面的例子。

  • 很多盗版的电子书也是扫描得到的,最后也OCR一下,就成了可以复制的内容。不然有这个人力资源来手打?
  • Google使用开源OCR技术,把可以搜索到的3亿2千万个(识别过的比例不详)PDF变成可以索引并搜索的东西,同时提供html显示。(via

      后话,这些技术都是过时的技术,不过在普通生活中还是有其价值,OFFICE博大精深,谁能掌握,就是办公室一哥一姐,不过也可能是最惨的人——别人不会的一个人全做,哈哈。低调,低调点…… :P

:, , , , ,

和当前文章相关的内容

  • 暂时没有相关文章
这篇文章有 2 条评论:
  1. 2.   暧☆飄流★

    GOOD!

  2. 1.   sun

    麻烦,讨厌翻译,嘿累.
    如果篇幅不长还好,要是长了上千我就很恼火了.

说点什么吧^_^

想要搜索什么东西?

使用下面的方框搜索本站:

仍然没有找到你想要的? 请在文章中留言或者联系我们帮你处理!