OurDVD - Forum

完整版本: IdxSubOcr使用報告
You're currently viewing a stripped down version of our content. View the full version with proper formatting.
昨天在聊天室,得悉這個程式,於是便往相關網頁下載並試用,今天剛好要製作Time Traveler's Wife這片,以前製作的BD-9的字幕並不是官方的,今次特意從射手網下載了一個idx+sub來測試一下…

首先要多謝巴比、大搜查線和why1812等兄台的幫忙;多些交流,也可以減少失敗的機會!

這個字幕,我最初用SubToSrt來做,由於這個字幕是較粗體的楷書,所以SubToSrt完全沒法辨識,所以鍵入幾個字後我便放棄,然後轉用IdxSubOcr。

根據大搜查線兄的提供,我用了IdxSubOcr v1.11正體中文版:-
http://www.hd.club.tw/thread-161823-1-1.html

將idx+sub輸入後,IdxSubOcr後快便能辨識字幕來,辨識率也十分高,下列是我的一些發現:-


1. 中文的標點符號很多時候都會被加多了一個空格,所以可以先將它們用輔助功能除掉(,、!?“”等)。



2. 有時程式會誤加換行。



3. 辨認錯誤當然無可避免,發現後可以用輔助功能來搜尋取代;所以逐行檢查會較穩妥。



4. 有些單字就完全辨認不到。



5. 有些地方居然連先後次序也弄錯了!

整體來說,程式已經很不錯,比起SubToSrt要逐個字鍵入功夫會少很多;也希望大家也來發表一下心得,謝謝!
OCR一般分字库和引擎两种。
最起初做DVD的OCR一般使用SubToSrt和SubOcr。
不过SubToSrt和字库量的关系很大,比如,像DVD时代,华纳用微软雅黑,华纳的DVD就很容易OCR。
而其他家所用的字体就不那么容易OCR,如迪士尼专用的楷体字体。
而到了BD时代,各家用的字体SubToSrt字库基本上没有。比如新线华纳用的是加粗的标准楷,环球和派拉蒙用的是旧版本的黑体。RBD经常直接用DVD字幕直接转BD SUP,SubToSrt字库不足,都要一个字一个字的键入,所以我就弃用SubToSrt。换用OCR引擎的SubOcr,也曾安装过IdxSubOcr,不过IdxS ubOcr没成功,事实上是因为我使用的office的原因。
使用IdxSubOcr一定要安装正式完整版office2003或2007,而大陆很多人安装的office都不是完整版,我这次也是看到BC大成功后说到office 版本的问题(BC大用的是英语版本),受此启发,所以重新下了MSDN版的office才搞定的。
相对来说IdxSubOcr程式小而简便,因为用的是微软的OCR引擎,因此完成率相当高。当然前提是office安装好,还要安装相应的MODI。
个人的心得是IdxSubOcr和SubOcr都是很好的软件,可以把IdxSubOcr做为主力使用。
今天再用這個程式辨識Cypher這個片,以前這個idx+sub檔用SubToSrt辨認困難而停止了,今天用IdxSubOcr就頗順利,不過有一些地方還是要注意: -

字幕不能讀進Subtitle Workshop…



其實昨天也發現這個問題,只不過未有時間去探究。我喜歡用Subtitle Workshop來校正一些字幕的格式(用慣了!),但IdxSubOcr產生的字幕就未能被Subtitle Workshop所接受。今天我用SubResync將字幕讀入再儲存,然後比對兩個字幕,就發現問題所在:-
時間的格式最後的千份之一秒應該是用“,”來分隔,而不是用“.”。
此外,1和l很難辨識,要小心核對。



這個又來了次序錯誤的問題,所以還是小心逐行檢查較好;而空行也不單單在單字出現!
這個正體中文化版本似乎有點問題,字幕內容ocr次序錯誤有遇過,但不應該這麼頻繁。
另外顯示卡等級似乎對ocr識別率有影響,這還有待驗證,請bc大ocr一片字幕,不作任何修正,小弟也ocr一次,看看內容是否有異。
至於srt格式錯誤,致sw無法讀取,用srtedit讀取,修正任一內容後存檔,sw就能讀了。
我用SubResync將字幕讀入再儲存就可以解決…

一會我將這個字幕打包連同辨認出來的檔電郵給你。
按IdxSubOcr作者的说法旧版本OCR的字幕格式是正确的,不知道为什么最新版本改了,Subtitle Workshop不能读,但其他字幕软件都可以。所以随便用个字幕软件如aegisub等过一遍就可以了。相对来说Subtitle Workshop对字幕也比较挑。
显卡应该对OCR识别率影响不大。
不过我发现用IdxSubOcr来OCR同一个字幕,重新OCR会和上次不同。
除了1和l识别问题,还发现!经常被误认为是分行符,且分的很随意。这个可以供大家OCR时参考。
BC大也可以把SUB字幕发上来,我用简体版本看看。我也准备找旧版本的IdxSubOcr测试看看。
這個目前也是我最主力的OCR軟體,之前用丹青也是後續的校正很花時間,且非常佔用資源

大鵰兄發生過的問題,我幾乎也都發生過,不過有的時候辨識能力又非常好(錯誤很少),可能和字幕的製作有關,最嚴重的是整篇幾乎重打
昨天在OCR Something Wild 錯誤就很少,但是有些地方錯誤看不出來,例如口氣的『口』,這個軟體幾乎都辨識為符號『□』(大小樣子幾乎一樣),校正也都看不出來
這軟體有個好處,就是前面辨識錯誤的字,後面若再出現一樣會辨識錯誤,所以記錄之後可以使用『取代』,一次把錯誤更正
另外少部份的字,像是心(太分散且多點)、順、辨(可三拆的字)、特定部首會出現特定的錯誤
檔案內包含原idx+sub檔,ocr後的原始和修正檔…

[attachment=410]
在简体系统下OCR的结果和繁体系统是一样的。
下载了1.05版,文字OCR辨识率和1.11一样,且字幕格式也是一样。但1.05的标点符号是正确的,1.11会在标点符号前面后面加空格。不过1.05在SrtEdit打开是乱码,但用记事本和aegisub打开是正常的。不知道繁体系统情况如何。

sony188 写:
這個目前也是我最主力的OCR軟體,之前用丹青也是後續的校正很花時間,且非常佔用資源

大鵰兄發生過的問題,我幾乎也都發生過,不過有的時候辨識能力又非常好(錯誤很少),可能和字幕的製作有關,最嚴重的是整篇幾乎重打
昨天在OCR Something Wild 錯誤就很少,但是有些地方錯誤看不出來,例如口氣的『口』,這個軟體幾乎都辨識為符號『□』(大小樣子幾乎一樣),校正也都看不出來
這軟體有個好處,就是前面辨識錯誤的字,後面若再出現一樣會辨識錯誤,所以記錄之後可以使用『取代』,一次把錯誤更正
另外少部份的字,像是心(太分散且多點)、順、辨(可三拆的字)、特定部首會出現特定的錯誤

对,比如“讓”就会被拆成“言襄”。
用OCR引擎的都会有这问题。好在摸熟规律后其实以后就直接全部替换

页: 1 2
Reference URL's