有时看到国外的文章不错,就想翻译过来。但没有原始文档,译文的版式只能做到尽量还原。其中图片的处理就是比较费劲的一件事。
网上的文章一般都配有图片,除了有起到插画功能的图片,还有很多长图,相当于把一个排版精美的说明书以图片形式发布。这些图片可能是Photoshop、InDesign等软件生成的,因为没有原始格式,我们只能直接处理图片。如果有原始格式,那用对应的软件打开翻译或者使用CAT软件翻译就行。这里讨论的是JPG、PNG这类格式的图片的翻译。
一般方法
-
提取文字并翻译
如果文字较多,需要先提取文字,导入CAT软件进行翻译。提取文字可以使用常见的OCR软件。
我开发的tesseract-clipboard是一个不错的选择,可以对存在剪贴板里的截图进行文字识别操作。直接使用ABBYY FineReader这类软件对整个图片进行处理会有很多不需要翻译的内容被识别进去。
-
处理图片
我使用Gimp处理图片,首先框住原文部分,用背景色进行填充,然后输入译文。整个操作全手动进行,比较费劲。
自动方法
自动方法需要识别图片中文字的区域,得到对应的top、left、height、width之类的位置和大小信息,并把原文导出到一种文件格式,用CAT翻译这个文件,然后再进行译文回填:新建一个图层,用背景填充,覆盖原文区域,再新建一个译文文字图层;结果导出为gimp、photoshop之类的软件使用的格式供后期进行修改。
不过以上还只是构想。全自动的工具用深度学习算法是可以实现的,但不一定能保证效果。目前来看,还是类似上述的计算机辅助图片翻译方法较为合适、
图片翻译与PDF翻译
其实图片的翻译和扫描版PDF的翻译是类似的,解决好图片翻译的问题,很大程度上也可以实现PDF格式的翻译。
非扫描版PDF,支持文字复制、图片提取,但处理也比较复杂,很难直接把原文字符替换为译文字符。PDF转Word,遇到复杂的页面也很难保证效果,没有原始文件的话,大概率还是需要重新排版。
如果图片翻译技术有了突破,直接PDF转图片,然后翻译的话,就不用研究复杂的排版问题了。不过这种方式也会有其它问题,比如原文和译文字符长度不匹配,没有空间容纳或者空白空间过多的问题。
更新
我开发了一款图片翻译软件ImageTrans,以上功能已经实现了。