還在手動上字幕? Python 幫您完成「自動化上字幕」
 - 案例分享(附Python程式碼)

Youtuber、數位媒體製作人、會議記錄者、研究者、記者、訪談者、逐字稿業者等照過來~!

在這AI爆炸的時代,似乎什麼都要來AI一下,不會AI技術好像就落後了一樣,但以現實狀況來說,對於不懂AI技術但又有商業或立即性需求的人來說,根本無從下手。好在Google在近年提供了AI雲端相關服務,讓對AI需求者可以透過Google API,套用深度學習工具,快速產出可交付成果。

這些深度學習的工具概括了:

  1. 自然語言處理
  2. 語音辨識
  3. 影像處理
  4. 及時語譯

等等…不勝枚舉的應用,有關更多資訊可以參考Google機器學習

一、自動化上字幕? 對誰有影響?

如果您曾經有上過字幕或人工手打逐字稿的經驗嗎? 相信一定體會過什麼叫做「必要之惡」的痛楚,讓我們說得更白話一些, 上字幕與逐字稿相當於「幾乎無生產力,且又耗時」的工作任務。

再者,我們服務的許多合作夥伴皆有字幕處理上的痛點,尤其是數位媒體業者(影片製作等)對於上字幕或批打逐字稿可說是非常頭痛,更遑論我們周遭的研究者、訪談者、記者、公關、市調者等,整個市場對逐字稿「聽打」的需求與日俱增,我們便深入研究AI聽打的可能性,經過數些時日的研究與編程,我們特地將Google聽打機器學習的複雜的流程優化成一組組的Python套件,讓我們能以簡單易懂、事半功倍的方法使機器實行「AI語音轉文字」。

而所謂自動化上字幕的本意即是「利用機器學習,以最低成本,最高效益讓機器自動批打影片字幕或逐字稿」。並主要滿足下列需求:

  1. 數位媒體影音檔上字幕(如:Youtuber對字幕的需求等)
  2. 大型機構會議記錄效率上的提升(如:學校、各類公司、政府機關…等)
  3. 研究者訪談(碩士生、博士生…等)的文字稿的轉換需求等

本次我們就來分享「自動化字幕」如何在個案中發揮高價值,並且附上部份處理的程式碼讓大家玩味玩味~!

二、案例情境

我們就以某數位媒體 — 影片製作個案為例,其個案的資訊如下:

  1. 產品:行銷用之影片(包含動畫等多元商業影片)
  2. 通路:網路媒體為主
  3. 價格:人工影片字幕 NT 5,000–10,000 / 1小時
  4. 銷售:基於影片及字稿時效性,對象須節省時間,上架影片或字稿
  5. 難題:
  • 台灣觀眾普遍喜愛有上過字幕的影片,但人工上字幕相對無生產力,也不希望團隊將時間損耗在字幕上。
  • 如與字幕外包商一來一往通常就要1–3天的工作天,如遇週五時段外包,更又多浪費2天的時間。
  • 對於影片製作商來說,時間就是金錢,一支少2–3天的發表時間的影片,等於每月至少要短缺$7,000–10,000 元的營收。這更遑論每個月平均產出20支影片所造成約$140,000–200,000元短缺的營收金額。

三、解決方案之步驟

面對諸如難題,討論許久,最終尋覓出我們的認定的解決方案,並開始了付諸實現下述「兩大主要」步驟:

  1. 使用Python為主要語言,作為自動化上字幕的基礎語言
  2. 利用GCP(goolge cloud platform)雲端運算資源,遠端處理影音檔龐大的字幕轉換功效,快速產出影片字幕

四、可交付成果

最終的可交付成果主要有3項:

第一項: 影音檔 + 字幕

本個案最重要的可交付成果為「1小時內快速處理完有字幕的1小時影音檔」。透過多方嘗試並遵循解決方案之步驟,我們總算完成這重大的任務!

1個小時的錄音檔,如果錄音取樣頻率為16KHz只需要花費9分鐘就可以完成!就算是高音質錄音檔,取樣頻率48KHz,也僅要花大約25分鐘左右的時間就可以精確完成!相較於人工處理的方式,要自己花 3小時批打 30 分鐘的逐字稿內容,這樣比較起來,AI聽打絕對是不錯的選擇!

而以下影片則為我們其中之一的範例檔案,歡迎大家到下述的youtube影片點擊觀看成效!

讀者可以很清楚看到機器AI自動產生的字幕與人工產生相差無幾,僅差一些時序上及斷字上的優化。
光看圖片不準,讓我們來看看影片範例吧 !

步驟一,觀看影片前,提醒讀者將字幕打開。

步驟二,將機器AI自動產生的字幕以鼠標向上移動,這樣就可以看清楚上下兩字幕囉!

如果對影片內容感興趣,可以參考:

台科 emba年年爆滿的一門word課(b+c系列)課程網址
https://hahow.in/cr/tmr-word

觀看完影片後,大家其實可以理解現今機器學習雖然不能100%「取代」人類,但至少節省了人類大約75%-85%的工作時間,確實提供人類一個不錯的解決方案!

第二項: 逐字稿(docx)與字詞改善矩陣(xlsx)

除了影音檔自動上字幕外,我們也為本個案提供自動生成之Word及excel檔案。AI聽打字詞正確矩陣,不但附上每個段落的時間,還附加改善順序,供內外部人員參考做修改。

字詞信心矩陣,不但附上每個段落的時間,還附加改善順序,供人改善參考

第三項: 情緒分析與重要字詞文件

最後,我們還特別製作情緒分析及字詞重要性文件,讓使用者或管理者能夠以重要性分析及情緒分析,判別文章中重要字詞,作為改善策略。該部分尤其受到客服產業重視,讓我們稍微換個思考模式,其實就可發現情緒分析與重要字詞可以當作顧客的重要反饋之一,進而改善客服策略。

五、「自動化上字幕」VS營收

所以「自動化上字幕」跟營收有什麼關係?有更具體的效果評估嗎?讓我們回過頭來思考本個案在自動化上字幕與營收的關係,也就是影片製作商可以得到什麼好處?從影片製作商的角度來看,人工執行的成本是$15,000,但如果採用自動化上字幕(AI語音轉文字),且要求在60分鐘內交付成果,並以最高價格處理估算下來,發現僅需要$3,580。

這樣一來一往造成的結果是:

  1. 以一個小時的影片檔案來說,自動化上「字幕」,並且進行人工更正,如果不計算時間成本之損失,每一次可以節省大約NTD$3,420元的成本支出
  2. 一個月,就可以省下接近NTD$27,000元
  3. 一年,就可以省下接近NTD$330,000元

結語

對數位媒體產業來說,能做到自動化上字幕的方法必定能夠節省大量時間,並且能夠加以利用寶貴的時間去創造更大的價值。而在這資訊蓬勃發展的時代,這樣的自動化工具在數位媒體產業必然有極其可觀的市場。

不過,這一福音不該只在數位媒體業中被利用,應該讓對字幕或逐字稿有需求者使用,不必再花費無謂的時間與精力在機器能一鍵做到的事情上。

附上Python部份程式碼:

附上專案實做部份程式碼,歡迎參考!

作者:鍾皓軒(臺灣行銷研究有限公司 創辦人)

更多實戰案例及情境好文推薦

回到頂端