把图片PDF文件转换成word文档方法

把图片/PDF文件转换成word文档方法

摘要: 大家都知道图片和很多PDF文件里的文字是无法复制的,但有时候我们必须得将里面的文本转换成word文档格式,怎么去做呢?其实不难,首先你要保证图片和PDF里面的文字足够清晰,然后利用OCR即可

大家都知道图片和很多PDF文件里的文字是无法复制的,但有时候我们必须得将里面的文本转换成word文档格式,怎么去做呢?其实不难,首先你要保证图片和PDF里面的文字足够清晰,然后利用OCR即可识别出图片或者PDF中的文本,然后直接导出成word文档格式即可。

什么是ORC

OCR (Optical Character Recognition光学字符识别)技术,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。

如何把图片或者PDF文件转换成word文档

用Photosho把JEPG图片转成灰度模式,再将图调整成有文字的部分为黑色,背景为白色,然后再把图转为黑白二值图,存为tif格式,然后用OCR 打开文件进行识别,识别后文件自动存为文本文件,不过识别文件会有错误,请仔细校对之后,将文字拷贝到word里进行编辑。

具体操作:

第1步:打印为图像文件

使用AdobeReader打开相关的PDF文档,从“文件”菜单下执行“打印”命令,此时会弹出“打印”对话框,由于一般情况默认的打印机大多为真实的物理打印机而非虚拟打印机,因此请从“打印机”下拉列表框中选择“MicrosoftOfficeDocument ImagingWriter”,然后单击“确认”按钮,确认后即可将PDF文档输出为TIFF格式的图像文件。

第2步:读取图像文件

运行Microsoft OfficeDocumentImaging,这个组件可以从Office程序组的“Office工具”子程序组下找到,打开刚才所打印的图像文件,选择“工具→将文本发送到Word”的命令,此时会弹出对话框,如果你不需要更改输出文件夹,那么直接单击“确定”按钮,此时会提示“必须在执行此操作前重

新运行OCR。这可能需要一些时间”,确认后即可开始转换操作。大家稍等片刻,转换完成后,系统会自动打开Word窗口并显示从PDF文档转换而来的文档内容。不过如果图片或PDF文档比较复杂的话,某些内容例如图像、表格可能显示的不太完美。(注意精简版的OFFICE可能去除了OCR的功能)。

如果你只是需要获得PDF文档中的文字内容,那么操作是非常简单的,首先使用AdobeReader打开相关的PDF文档,然后从“文件”菜单下执行“另存为文本”的命令,在随之弹出的对话框中指定保存

路径和文件名,确认后需要稍等片刻,保存时间取决于当前文档的页码),我们很快就可以获得一份完整的文本文件,至于原文档中的图像内容,就只能另想它法了。

相关文档
最新文档