OurDVD - Forum - IdxSubOcr使用報告

昨天在聊天室，得悉這個程式，於是便往相關網頁下載並試用，今天剛好要製作Time Traveler's Wife這片，以前製作的BD-9的字幕並不是官方的，今次特意從射手網下載了一個idx+sub來測試一下…

首先要多謝巴比、大搜查線和why1812等兄台的幫忙；多些交流，也可以減少失敗的機會！

這個字幕，我最初用SubToSrt來做，由於這個字幕是較粗體的楷書，所以SubToSrt完全沒法辨識，所以鍵入幾個字後我便放棄，然後轉用IdxSubOcr。

根據大搜查線兄的提供，我用了IdxSubOcr v1.11正體中文版：-
http://www.hd.club.tw/thread-161823-1-1.html

將idx+sub輸入後，IdxSubOcr後快便能辨識字幕來，辨識率也十分高，下列是我的一些發現：-

1. 中文的標點符號很多時候都會被加多了一個空格，所以可以先將它們用輔助功能除掉(，、！？“”等)。

2. 有時程式會誤加換行。

3. 辨認錯誤當然無可避免，發現後可以用輔助功能來搜尋取代；所以逐行檢查會較穩妥。

4. 有些單字就完全辨認不到。

5. 有些地方居然連先後次序也弄錯了！

整體來說，程式已經很不錯，比起SubToSrt要逐個字鍵入功夫會少很多；也希望大家也來發表一下心得，謝謝！

OCR一般分字库和引擎两种。
最起初做DVD的OCR一般使用SubToSrt和SubOcr。
不过SubToSrt和字库量的关系很大，比如，像DVD时代，华纳用微软雅黑，华纳的DVD就很容易OCR。
而其他家所用的字体就不那么容易OCR，如迪士尼专用的楷体字体。
而到了BD时代，各家用的字体SubToSrt字库基本上没有。比如新线华纳用的是加粗的标准楷，环球和派拉蒙用的是旧版本的黑体。RBD经常直接用DVD字幕直接转BD SUP，SubToSrt字库不足，都要一个字一个字的键入，所以我就弃用SubToSrt。换用OCR引擎的SubOcr，也曾安装过IdxSubOcr，不过IdxS ubOcr没成功，事实上是因为我使用的office的原因。
使用IdxSubOcr一定要安装正式完整版office2003或2007，而大陆很多人安装的office都不是完整版，我这次也是看到BC大成功后说到office 版本的问题（BC大用的是英语版本），受此启发，所以重新下了MSDN版的office才搞定的。
相对来说IdxSubOcr程式小而简便，因为用的是微软的OCR引擎，因此完成率相当高。当然前提是office安装好，还要安装相应的MODI。
个人的心得是IdxSubOcr和SubOcr都是很好的软件，可以把IdxSubOcr做为主力使用。

今天再用這個程式辨識Cypher這個片，以前這個idx+sub檔用SubToSrt辨認困難而停止了，今天用IdxSubOcr就頗順利，不過有一些地方還是要注意： -

字幕不能讀進Subtitle Workshop…

其實昨天也發現這個問題，只不過未有時間去探究。我喜歡用Subtitle Workshop來校正一些字幕的格式(用慣了！)，但IdxSubOcr產生的字幕就未能被Subtitle Workshop所接受。今天我用SubResync將字幕讀入再儲存，然後比對兩個字幕，就發現問題所在：-
時間的格式最後的千份之一秒應該是用“,”來分隔，而不是用“.”。
此外，1和l很難辨識，要小心核對。

這個又來了次序錯誤的問題，所以還是小心逐行檢查較好；而空行也不單單在單字出現！

這個正體中文化版本似乎有點問題，字幕內容ocr次序錯誤有遇過，但不應該這麼頻繁。
另外顯示卡等級似乎對ocr識別率有影響，這還有待驗證，請bc大ocr一片字幕，不作任何修正，小弟也ocr一次，看看內容是否有異。
至於srt格式錯誤，致sw無法讀取，用srtedit讀取，修正任一內容後存檔，sw就能讀了。

我用SubResync將字幕讀入再儲存就可以解決…

一會我將這個字幕打包連同辨認出來的檔電郵給你。

按IdxSubOcr作者的说法旧版本OCR的字幕格式是正确的，不知道为什么最新版本改了，Subtitle Workshop不能读，但其他字幕软件都可以。所以随便用个字幕软件如aegisub等过一遍就可以了。相对来说Subtitle Workshop对字幕也比较挑。
显卡应该对OCR识别率影响不大。
不过我发现用IdxSubOcr来OCR同一个字幕，重新OCR会和上次不同。
除了1和l识别问题，还发现！经常被误认为是分行符，且分的很随意。这个可以供大家OCR时参考。
BC大也可以把SUB字幕发上来，我用简体版本看看。我也准备找旧版本的IdxSubOcr测试看看。

這個目前也是我最主力的OCR軟體，之前用丹青也是後續的校正很花時間，且非常佔用資源

大鵰兄發生過的問題，我幾乎也都發生過，不過有的時候辨識能力又非常好（錯誤很少），可能和字幕的製作有關，最嚴重的是整篇幾乎重打
昨天在OCR Something Wild 錯誤就很少，但是有些地方錯誤看不出來，例如口氣的『口』，這個軟體幾乎都辨識為符號『□』（大小樣子幾乎一樣），校正也都看不出來
這軟體有個好處，就是前面辨識錯誤的字，後面若再出現一樣會辨識錯誤，所以記錄之後可以使用『取代』，一次把錯誤更正
另外少部份的字，像是心（太分散且多點）、順、辨（可三拆的字）、特定部首會出現特定的錯誤

檔案內包含原idx+sub檔，ocr後的原始和修正檔…

[attachment=410]

在简体系统下OCR的结果和繁体系统是一样的。
下载了1.05版，文字OCR辨识率和1.11一样，且字幕格式也是一样。但1.05的标点符号是正确的，1.11会在标点符号前面后面加空格。不过1.05在SrtEdit打开是乱码，但用记事本和aegisub打开是正常的。不知道繁体系统情况如何。

sony188 写:

這個目前也是我最主力的OCR軟體，之前用丹青也是後續的校正很花時間，且非常佔用資源

大鵰兄發生過的問題，我幾乎也都發生過，不過有的時候辨識能力又非常好（錯誤很少），可能和字幕的製作有關，最嚴重的是整篇幾乎重打
昨天在OCR Something Wild 錯誤就很少，但是有些地方錯誤看不出來，例如口氣的『口』，這個軟體幾乎都辨識為符號『□』（大小樣子幾乎一樣），校正也都看不出來
這軟體有個好處，就是前面辨識錯誤的字，後面若再出現一樣會辨識錯誤，所以記錄之後可以使用『取代』，一次把錯誤更正
另外少部份的字，像是心（太分散且多點）、順、辨（可三拆的字）、特定部首會出現特定的錯誤

对，比如“讓”就会被拆成“言襄”。
用OCR引擎的都会有这问题。好在摸熟规律后其实以后就直接全部替换

OurDVD - Forum

bigcondor

why1812

bigcondor

bebolan

bigcondor

why1812

sony188

bigcondor

why1812

why1812