OurDVD - Forum
IdxSubOcr使用報告 - 简化版本(打印版本)

+- OurDVD - Forum (http://bt.ourdisc.net/forum)
+-- 论坛: 影视资源与软硬件经验分享区 (/forumdisplay.php?fid=4)
+--- 论坛: 高清DVD软硬件 技术学院 (/forumdisplay.php?fid=6)
+--- 帖子: IdxSubOcr使用報告 (/showthread.php?tid=1148)


IdxSubOcr使用報告 - bigcondor - 07-04-2013 05:34 PM

昨天在聊天室,得悉這個程式,於是便往相關網頁下載並試用,今天剛好要製作Time Traveler's Wife這片,以前製作的BD-9的字幕並不是官方的,今次特意從射手網下載了一個idx+sub來測試一下…

首先要多謝巴比、大搜查線和why1812等兄台的幫忙;多些交流,也可以減少失敗的機會!

這個字幕,我最初用SubToSrt來做,由於這個字幕是較粗體的楷書,所以SubToSrt完全沒法辨識,所以鍵入幾個字後我便放棄,然後轉用IdxSubOcr。

根據大搜查線兄的提供,我用了IdxSubOcr v1.11正體中文版:-
http://www.hd.club.tw/thread-161823-1-1.html

將idx+sub輸入後,IdxSubOcr後快便能辨識字幕來,辨識率也十分高,下列是我的一些發現:-


1. 中文的標點符號很多時候都會被加多了一個空格,所以可以先將它們用輔助功能除掉(,、!?“”等)。



2. 有時程式會誤加換行。



3. 辨認錯誤當然無可避免,發現後可以用輔助功能來搜尋取代;所以逐行檢查會較穩妥。



4. 有些單字就完全辨認不到。



5. 有些地方居然連先後次序也弄錯了!

整體來說,程式已經很不錯,比起SubToSrt要逐個字鍵入功夫會少很多;也希望大家也來發表一下心得,謝謝!



RE: IdxSubOcr使用報告 - why1812 - 07-04-2013 07:12 PM

OCR一般分字库和引擎两种。
最起初做DVD的OCR一般使用SubToSrt和SubOcr。
不过SubToSrt和字库量的关系很大,比如,像DVD时代,华纳用微软雅黑,华纳的DVD就很容易OCR。
而其他家所用的字体就不那么容易OCR,如迪士尼专用的楷体字体。
而到了BD时代,各家用的字体SubToSrt字库基本上没有。比如新线华纳用的是加粗的标准楷,环球和派拉蒙用的是旧版本的黑体。RBD经常直接用DVD字幕直接转BD SUP,SubToSrt字库不足,都要一个字一个字的键入,所以我就弃用SubToSrt。换用OCR引擎的SubOcr,也曾安装过IdxSubOcr,不过IdxS ubOcr没成功,事实上是因为我使用的office的原因。
使用IdxSubOcr一定要安装正式完整版office2003或2007,而大陆很多人安装的office都不是完整版,我这次也是看到BC大成功后说到office 版本的问题(BC大用的是英语版本),受此启发,所以重新下了MSDN版的office才搞定的。
相对来说IdxSubOcr程式小而简便,因为用的是微软的OCR引擎,因此完成率相当高。当然前提是office安装好,还要安装相应的MODI。
个人的心得是IdxSubOcr和SubOcr都是很好的软件,可以把IdxSubOcr做为主力使用。


RE: IdxSubOcr使用報告 - bigcondor - 07-05-2013 07:42 PM

今天再用這個程式辨識Cypher這個片,以前這個idx+sub檔用SubToSrt辨認困難而停止了,今天用IdxSubOcr就頗順利,不過有一些地方還是要注意: -

字幕不能讀進Subtitle Workshop…



其實昨天也發現這個問題,只不過未有時間去探究。我喜歡用Subtitle Workshop來校正一些字幕的格式(用慣了!),但IdxSubOcr產生的字幕就未能被Subtitle Workshop所接受。今天我用SubResync將字幕讀入再儲存,然後比對兩個字幕,就發現問題所在:-
時間的格式最後的千份之一秒應該是用“,”來分隔,而不是用“.”。
此外,1和l很難辨識,要小心核對。



這個又來了次序錯誤的問題,所以還是小心逐行檢查較好;而空行也不單單在單字出現!



RE: IdxSubOcr使用報告 - bebolan - 07-06-2013 07:15 PM

這個正體中文化版本似乎有點問題,字幕內容ocr次序錯誤有遇過,但不應該這麼頻繁。
另外顯示卡等級似乎對ocr識別率有影響,這還有待驗證,請bc大ocr一片字幕,不作任何修正,小弟也ocr一次,看看內容是否有異。
至於srt格式錯誤,致sw無法讀取,用srtedit讀取,修正任一內容後存檔,sw就能讀了。


RE: IdxSubOcr使用報告 - bigcondor - 07-06-2013 07:33 PM

我用SubResync將字幕讀入再儲存就可以解決…

一會我將這個字幕打包連同辨認出來的檔電郵給你。


RE: IdxSubOcr使用報告 - why1812 - 07-07-2013 11:50 AM

按IdxSubOcr作者的说法旧版本OCR的字幕格式是正确的,不知道为什么最新版本改了,Subtitle Workshop不能读,但其他字幕软件都可以。所以随便用个字幕软件如aegisub等过一遍就可以了。相对来说Subtitle Workshop对字幕也比较挑。
显卡应该对OCR识别率影响不大。
不过我发现用IdxSubOcr来OCR同一个字幕,重新OCR会和上次不同。
除了1和l识别问题,还发现!经常被误认为是分行符,且分的很随意。这个可以供大家OCR时参考。
BC大也可以把SUB字幕发上来,我用简体版本看看。我也准备找旧版本的IdxSubOcr测试看看。


RE: IdxSubOcr使用報告 - sony188 - 07-07-2013 11:58 AM

這個目前也是我最主力的OCR軟體,之前用丹青也是後續的校正很花時間,且非常佔用資源

大鵰兄發生過的問題,我幾乎也都發生過,不過有的時候辨識能力又非常好(錯誤很少),可能和字幕的製作有關,最嚴重的是整篇幾乎重打
昨天在OCR Something Wild 錯誤就很少,但是有些地方錯誤看不出來,例如口氣的『口』,這個軟體幾乎都辨識為符號『□』(大小樣子幾乎一樣),校正也都看不出來
這軟體有個好處,就是前面辨識錯誤的字,後面若再出現一樣會辨識錯誤,所以記錄之後可以使用『取代』,一次把錯誤更正
另外少部份的字,像是心(太分散且多點)、順、辨(可三拆的字)、特定部首會出現特定的錯誤


RE: IdxSubOcr使用報告 - bigcondor - 07-07-2013 01:48 PM

檔案內包含原idx+sub檔,ocr後的原始和修正檔…

[attachment=410]


RE: IdxSubOcr使用報告 - why1812 - 07-08-2013 10:47 AM

在简体系统下OCR的结果和繁体系统是一样的。
下载了1.05版,文字OCR辨识率和1.11一样,且字幕格式也是一样。但1.05的标点符号是正确的,1.11会在标点符号前面后面加空格。不过1.05在SrtEdit打开是乱码,但用记事本和aegisub打开是正常的。不知道繁体系统情况如何。


RE: IdxSubOcr使用報告 - why1812 - 07-08-2013 11:16 AM

sony188 写:
這個目前也是我最主力的OCR軟體,之前用丹青也是後續的校正很花時間,且非常佔用資源

大鵰兄發生過的問題,我幾乎也都發生過,不過有的時候辨識能力又非常好(錯誤很少),可能和字幕的製作有關,最嚴重的是整篇幾乎重打
昨天在OCR Something Wild 錯誤就很少,但是有些地方錯誤看不出來,例如口氣的『口』,這個軟體幾乎都辨識為符號『□』(大小樣子幾乎一樣),校正也都看不出來
這軟體有個好處,就是前面辨識錯誤的字,後面若再出現一樣會辨識錯誤,所以記錄之後可以使用『取代』,一次把錯誤更正
另外少部份的字,像是心(太分散且多點)、順、辨(可三拆的字)、特定部首會出現特定的錯誤

对,比如“讓”就会被拆成“言襄”。
用OCR引擎的都会有这问题。好在摸熟规律后其实以后就直接全部替换


RE: IdxSubOcr使用報告 - bigcondor - 07-08-2013 11:43 AM

why1812 写:
在简体系统下OCR的结果和繁体系统是一样的。


可以推論辨認最重要的因素就是OCR ENGINE,程式主要是執行週邊的工作…

辨認錯誤,要改進就一定要從根源的OCR ENGINE著手,看來都沒有什麼解救了!

SubToSrt在這方面加進了學習功能,所以將新的字加進字庫便可以改善辨認效果,這是比這個程式優勝的地方。

至於一個字變成多個字的情況,其實應該可以解決;因為中文字是方塊字,基本上都是等寬的,所以OCR ENGINE應該從這個方向去改善(我猜這是因為其他語言沒有這個特性,所以編寫程式的都沒有去考慮這個方向),就不會將一個字變成幾個了。

在繁體系統下,如果用未經漢化的版本,一定要對程式相當熟悉,因為我們看不到那些說明呢!


RE: IdxSubOcr使用報告 - why1812 - 07-09-2013 11:12 PM

bigcondor 写:
今天再用這個程式辨識Cypher這個片,以前這個idx+sub檔用SubToSrt辨認困難而停止了,今天用IdxSubOcr就頗順利,不過有一些地方還是要注意: -

字幕不能讀進Subtitle Workshop…



其實昨天也發現這個問題,只不過未有時間去探究。我喜歡用Subtitle Workshop來校正一些字幕的格式(用慣了!),但IdxSubOcr產生的字幕就未能被Subtitle Workshop所接受。今天我用SubResync將字幕讀入再儲存,然後比對兩個字幕,就發現問題所在:-
時間的格式最後的千份之一秒應該是用“,”來分隔,而不是用“.”。
此外,1和l很難辨識,要小心核對。



這個又來了次序錯誤的問題,所以還是小心逐行檢查較好;而空行也不單單在單字出現!


BC大,软件默认是帧,可以设置为毫秒。


RE: IdxSubOcr使用報告 - bigcondor - 09-14-2013 09:01 AM

謝謝why1812兄…

今天做“貓”的時候,又發現了一個問題…

字幕裡有些沒有字幕的空行,我便使用“刪除當前行”的按鈕把那行字幕刪除…

在此以後,當我使用取代功能時,畫面和顯示出來的字幕並不同步…



所以要刪除整行字幕應該在編輯完才進行吧!