May 16, 2016

利用Google Drive將「文字圖檔」轉為「文字檔」

手邊有幾頁英文紙本文件需要電子化,並非僅僅掃描為電子檔,而是將其轉為可供編輯的文字檔案。第一想法是自己手動打成檔案存檔,由於頁數不多,此法看似原始但還算可行。就在準備著手作業時,第二想法忽地蹦出:這類任務應該可以由科技完成吧?譯者需要時時與文件打交道,一定有人遇過同樣的需求吧?

所謂科技始終來自於人性,使用科技則始終來自於惰性 (如本案例)。快速搜尋網路外加測試後得出了可行、方便、免費的作法,由於找到的說明不盡然符合自己的狀況,所以還東試西試了一下最後才成功。過程中竟體驗到許久沒有感受到的學習快樂,決定寫下作法以茲紀念:

1. 先將英文紙本文件存為電子圖檔 (我使用手機拍照,存為 jpg 檔)
2. 將所有 jpg 檔案製作為一份 PDF 檔 (我使用Adobe Acrobat Pro 製作 PDF,此時的文字仍然屬於圖檔)
3. 將 PDF 檔案上傳至 Google Drive;用右鍵點選檔案,進入「選擇開啟工具」下面的「Google 文件」,用它開啟 PDF 檔案。Google 文件會將 PDF 檔案中的文字辨識出來,變成一份可以編輯的文字檔
4. 大功告成,可喜可賀!

最大功臣為「Google Drive」裡的「Google 文件」,因為實際的辨識就是由它完成,也因此上述步驟中其實 (3) 最重要。而之所以還會有先前的步驟,是因為我手邊必須處理的文件是紙本檔案,如果原本要處理的就是 PDF 檔,那可就方便多了。

英文的辨識效果相當好,其中一份文件乾乾淨淨沒有手寫字跡,辨識正確率高達 99%;另一份文件因含手寫註記,辨識的時候就有幾處不完整,需要較多修正,但其它部分的正確率也非常高。

註1:不知可以辨識中文嗎?成功率高不高?
註2:也有其它軟體可以辦到,本次選擇透過手邊既有的工具進行

No comments: