IdxSubOcr使用報告 - 简化版本(打印版本) +- OurDVD - Forum (http://bt.ourdisc.net/forum) +-- 论坛: 影视资源与软硬件经验分享区 (/forumdisplay.php?fid=4) +--- 论坛: 高清DVD软硬件 技术学院 (/forumdisplay.php?fid=6) +--- 帖子: IdxSubOcr使用報告 (/showthread.php?tid=1148) |
IdxSubOcr使用報告 - bigcondor - 07-04-2013 05:34 PM 昨天在聊天室,得悉這個程式,於是便往相關網頁下載並試用,今天剛好要製作Time Traveler's Wife這片,以前製作的BD-9的字幕並不是官方的,今次特意從射手網下載了一個idx+sub來測試一下… 首先要多謝巴比、大搜查線和why1812等兄台的幫忙;多些交流,也可以減少失敗的機會! 這個字幕,我最初用SubToSrt來做,由於這個字幕是較粗體的楷書,所以SubToSrt完全沒法辨識,所以鍵入幾個字後我便放棄,然後轉用IdxSubOcr。 根據大搜查線兄的提供,我用了IdxSubOcr v1.11正體中文版:- http://www.hd.club.tw/thread-161823-1-1.html 將idx+sub輸入後,IdxSubOcr後快便能辨識字幕來,辨識率也十分高,下列是我的一些發現:- 1. 中文的標點符號很多時候都會被加多了一個空格,所以可以先將它們用輔助功能除掉(,、!?“”等)。 2. 有時程式會誤加換行。 3. 辨認錯誤當然無可避免,發現後可以用輔助功能來搜尋取代;所以逐行檢查會較穩妥。 4. 有些單字就完全辨認不到。 5. 有些地方居然連先後次序也弄錯了! 整體來說,程式已經很不錯,比起SubToSrt要逐個字鍵入功夫會少很多;也希望大家也來發表一下心得,謝謝! RE: IdxSubOcr使用報告 - why1812 - 07-04-2013 07:12 PM OCR一般分字库和引擎两种。 最起初做DVD的OCR一般使用SubToSrt和SubOcr。 不过SubToSrt和字库量的关系很大,比如,像DVD时代,华纳用微软雅黑,华纳的DVD就很容易OCR。 而其他家所用的字体就不那么容易OCR,如迪士尼专用的楷体字体。 而到了BD时代,各家用的字体SubToSrt字库基本上没有。比如新线华纳用的是加粗的标准楷,环球和派拉蒙用的是旧版本的黑体。RBD经常直接用DVD字幕直接转BD SUP,SubToSrt字库不足,都要一个字一个字的键入,所以我就弃用SubToSrt。换用OCR引擎的SubOcr,也曾安装过IdxSubOcr,不过IdxS ubOcr没成功,事实上是因为我使用的office的原因。 使用IdxSubOcr一定要安装正式完整版office2003或2007,而大陆很多人安装的office都不是完整版,我这次也是看到BC大成功后说到office 版本的问题(BC大用的是英语版本),受此启发,所以重新下了MSDN版的office才搞定的。 相对来说IdxSubOcr程式小而简便,因为用的是微软的OCR引擎,因此完成率相当高。当然前提是office安装好,还要安装相应的MODI。 个人的心得是IdxSubOcr和SubOcr都是很好的软件,可以把IdxSubOcr做为主力使用。 RE: IdxSubOcr使用報告 - bigcondor - 07-05-2013 07:42 PM 今天再用這個程式辨識Cypher這個片,以前這個idx+sub檔用SubToSrt辨認困難而停止了,今天用IdxSubOcr就頗順利,不過有一些地方還是要注意: - 字幕不能讀進Subtitle Workshop… 其實昨天也發現這個問題,只不過未有時間去探究。我喜歡用Subtitle Workshop來校正一些字幕的格式(用慣了!),但IdxSubOcr產生的字幕就未能被Subtitle Workshop所接受。今天我用SubResync將字幕讀入再儲存,然後比對兩個字幕,就發現問題所在:- 時間的格式最後的千份之一秒應該是用“,”來分隔,而不是用“.”。 此外,1和l很難辨識,要小心核對。 這個又來了次序錯誤的問題,所以還是小心逐行檢查較好;而空行也不單單在單字出現! RE: IdxSubOcr使用報告 - bebolan - 07-06-2013 07:15 PM 這個正體中文化版本似乎有點問題,字幕內容ocr次序錯誤有遇過,但不應該這麼頻繁。 另外顯示卡等級似乎對ocr識別率有影響,這還有待驗證,請bc大ocr一片字幕,不作任何修正,小弟也ocr一次,看看內容是否有異。 至於srt格式錯誤,致sw無法讀取,用srtedit讀取,修正任一內容後存檔,sw就能讀了。 RE: IdxSubOcr使用報告 - bigcondor - 07-06-2013 07:33 PM 我用SubResync將字幕讀入再儲存就可以解決… 一會我將這個字幕打包連同辨認出來的檔電郵給你。 RE: IdxSubOcr使用報告 - why1812 - 07-07-2013 11:50 AM 按IdxSubOcr作者的说法旧版本OCR的字幕格式是正确的,不知道为什么最新版本改了,Subtitle Workshop不能读,但其他字幕软件都可以。所以随便用个字幕软件如aegisub等过一遍就可以了。相对来说Subtitle Workshop对字幕也比较挑。 显卡应该对OCR识别率影响不大。 不过我发现用IdxSubOcr来OCR同一个字幕,重新OCR会和上次不同。 除了1和l识别问题,还发现!经常被误认为是分行符,且分的很随意。这个可以供大家OCR时参考。 BC大也可以把SUB字幕发上来,我用简体版本看看。我也准备找旧版本的IdxSubOcr测试看看。 RE: IdxSubOcr使用報告 - sony188 - 07-07-2013 11:58 AM 這個目前也是我最主力的OCR軟體,之前用丹青也是後續的校正很花時間,且非常佔用資源 大鵰兄發生過的問題,我幾乎也都發生過,不過有的時候辨識能力又非常好(錯誤很少),可能和字幕的製作有關,最嚴重的是整篇幾乎重打 昨天在OCR Something Wild 錯誤就很少,但是有些地方錯誤看不出來,例如口氣的『口』,這個軟體幾乎都辨識為符號『□』(大小樣子幾乎一樣),校正也都看不出來 這軟體有個好處,就是前面辨識錯誤的字,後面若再出現一樣會辨識錯誤,所以記錄之後可以使用『取代』,一次把錯誤更正 另外少部份的字,像是心(太分散且多點)、順、辨(可三拆的字)、特定部首會出現特定的錯誤 RE: IdxSubOcr使用報告 - bigcondor - 07-07-2013 01:48 PM 檔案內包含原idx+sub檔,ocr後的原始和修正檔… [attachment=410] RE: IdxSubOcr使用報告 - why1812 - 07-08-2013 10:47 AM 在简体系统下OCR的结果和繁体系统是一样的。 下载了1.05版,文字OCR辨识率和1.11一样,且字幕格式也是一样。但1.05的标点符号是正确的,1.11会在标点符号前面后面加空格。不过1.05在SrtEdit打开是乱码,但用记事本和aegisub打开是正常的。不知道繁体系统情况如何。 RE: IdxSubOcr使用報告 - why1812 - 07-08-2013 11:16 AM sony188 写: 這個目前也是我最主力的OCR軟體,之前用丹青也是後續的校正很花時間,且非常佔用資源
大鵰兄發生過的問題,我幾乎也都發生過,不過有的時候辨識能力又非常好(錯誤很少),可能和字幕的製作有關,最嚴重的是整篇幾乎重打 昨天在OCR Something Wild 錯誤就很少,但是有些地方錯誤看不出來,例如口氣的『口』,這個軟體幾乎都辨識為符號『□』(大小樣子幾乎一樣),校正也都看不出來 這軟體有個好處,就是前面辨識錯誤的字,後面若再出現一樣會辨識錯誤,所以記錄之後可以使用『取代』,一次把錯誤更正 另外少部份的字,像是心(太分散且多點)、順、辨(可三拆的字)、特定部首會出現特定的錯誤
对,比如“讓”就会被拆成“言襄”。 RE: IdxSubOcr使用報告 - bigcondor - 07-08-2013 11:43 AM why1812 写: 在简体系统下OCR的结果和繁体系统是一样的。
RE: IdxSubOcr使用報告 - why1812 - 07-09-2013 11:12 PM bigcondor 写: 今天再用這個程式辨識Cypher這個片,以前這個idx+sub檔用SubToSrt辨認困難而停止了,今天用IdxSubOcr就頗順利,不過有一些地方還是要注意: -
字幕不能讀進Subtitle Workshop… 其實昨天也發現這個問題,只不過未有時間去探究。我喜歡用Subtitle Workshop來校正一些字幕的格式(用慣了!),但IdxSubOcr產生的字幕就未能被Subtitle Workshop所接受。今天我用SubResync將字幕讀入再儲存,然後比對兩個字幕,就發現問題所在:- 時間的格式最後的千份之一秒應該是用“,”來分隔,而不是用“.”。 此外,1和l很難辨識,要小心核對。 這個又來了次序錯誤的問題,所以還是小心逐行檢查較好;而空行也不單單在單字出現!
RE: IdxSubOcr使用報告 - bigcondor - 09-14-2013 09:01 AM 謝謝why1812兄… 今天做“貓”的時候,又發現了一個問題… 字幕裡有些沒有字幕的空行,我便使用“刪除當前行”的按鈕把那行字幕刪除… 在此以後,當我使用取代功能時,畫面和顯示出來的字幕並不同步… 所以要刪除整行字幕應該在編輯完才進行吧! |