lenfer
2 years ago @Edit 2 years ago
幾個月前,我無意中得到一些有關 stenography 的新知。意思是速記,初時是手寫的一套系統,有電腦後當然就也發展出了用鍵盤速錄的方法,多用於法庭即時記錄。可以看個影片體會一下一分鐘兩百字英文(母語人士自然語速)是怎麼輸入的:How Steno Works At 200 WPM許多語言都有自己的速錄法,當然也包括華語。稍微查一點資料,目前華語主要應該都是用中國開發的速錄系統:每分鐘350字!「雅婷逐字稿」真人版進行政院|三立新聞台這看上去也許就是個很快的打字方法,訓練成本不低,一般人也用不太到。但看相關影片時也同時看到討論,一些問題如「為何不錄音就好」或「為何不用語音辨識就好」讓我多想了一些跟台語台文相關的事。
latest #6
lenfer
2 years ago
看到的闡述大約是這樣:需要文字檔的理由是錄音檔佔數位儲存資源,且檢索相對困難。個人認為前者問題應該已經不大,後者則一針見血,畢竟目前應該還難以對大量聲音檔 ctrl/command + F。至於需要由人類記錄的理由則是:有一人以上同時講話或有背景雜音時,人耳仍然能聽出內容,語音辨識卻會失靈,口音和 code-switching 問題也是。我不清楚語音辨識目前的最先進技術如何,但是以目前一般人能輕易接觸到的應用程式,只能說是遠遠不及母語人士的辨識能力。
lenfer
2 years ago
跟台語、台文又有什麼關係呢?我個人學習過程中一個很深刻的體會是:因為環境的流失,台語能力真的是一代不如一代。除了自己嘗試書寫時無數次遇到覺得奇怪又不知道該怎麼修的部分之外,也曾見過許多有心練習台文的人,卻寫出受華語影響極大的不自然語句,甚至看過某些前輩的討論,對於糾正或呼籲某些常見的錯誤十分為難(怕被覺得太兇)。年輕輩或許不乏有心書寫的人,卻比較容易寫出品質堪慮的台文。我知道再怎麼樣,結論也不會是「不寫」,但是自己下筆時總會多加斟酌。這樣下去,台文的產出速度跟品質始終難以提升。
lenfer
2 years ago
我忽略的是:我不是只能寫自己的話,而可以「寫」別人的話。之前只有想到多和長輩聊天,練習運用從他們那裡學到的詞彙跟用法,現在則更簡單直白:如果程度不夠,就直接寫他們的話吧。早期的台語電視劇、母語人士的訪談都是現成的語料,但都是聲音檔為主,難以搜尋、比對、分析。看了前面說 stenography 的討論之後,才意識到這個問題(把聲音檔文字化的重要),或者從反方向看,也可以說是重新發現一直被我忽視的部分:台語的語料一直不缺,只不過不是文字形式。
立即下載
lenfer
2 years ago
所以我會建議有心想學台語,且有意復興或至少傳續台語的人,去挑選台語水準高的影片,試著為其加上字幕。這種轉錄考慮到便於日後的檢索,我個人認為 POJ 是最好的選擇。這些轉寫的文字主要目的不是要讓人直接閱讀(更不是推廣 XD),所以不太需要考慮好不好讀,而是盡可能忠實記錄語言使用的樣貌,想像日後如何檢索會比較便利而做出的選擇。就這點來說我認為羅馬字比起漢字,跟語音的對應有系統性得多。而 POJ 跟台羅的選擇,就只是我個人偏好,畢竟這兩個要互轉的難度可以忽略。但其實想寫漢字也可以,語料這種東西現在就是求有,再來求道地,用哪個書寫系統相對不重要。
lenfer
2 years ago
不管用什麼系統,有文字資料可以搜索,對日後寫作者甚至是字典編纂者的幫助也會很大。曾自學台文、會查字典的人應該都遇過這種狀況:用華文或英文查到的台文翻譯,因為沒有例句或例句太少太短,而抓不太到該詞彙真正適合的情境跟語意(尤其是 connotation 的部分)。這也是我認為小說比起新詩對於台文發展更有益的原因之一,而對白逐字稿其實也有一樣的效果,共同點就是它們都提供了足夠的對話脈絡。
lenfer
2 years ago
這種方式可以適用的語言不止台語,不缺聲音檔但文字不普及的瀕危語言都可以。不過這種行動(製作逐字稿或字幕)蠻花時間的,也要積累夠大量才能看到效果。但是如果只是對個人學習而言,應該算不錯的練習,繕打整句整段的對話,就是模仿學習的過程。而文字檔放在網路上讓人可搜尋到就是貢獻。比較麻煩的是,繕打影片逐字稿屬於重製行為,需取得著作權人授權,但加上字幕的行為有機會是合理使用。若未取得授權,只當成自己的學習筆記,應該不會被盯上,但是要發揮前述便於搜尋、形成文字語料庫的效果,則必然得散佈。或許需要再研究一下合理使用的範圍跟取得授權的流程以免觸法。
back to top