這只是一個研究員的研究計畫,不用太在意。。。

這種個人計畫根本沒甚麼經費,只能找免錢的資料集。這些東西很貴的,你跟華視要電視新聞的稿子跟語音,至少要六百萬! (民視就很親民,幾年前只要三十萬,但現在應該會漲了吧)

而且這只會是用來訓練大語言模式的一小部分資料,要收集足夠的資料,好幾億元跑不掉,這本來就是國家級(或是google、Meta等級)的研究。。。

目前台灣國科會也在做,這種規格就是國家級的大語言模式,只希望他們做完後,可以把資料集開放讓其他學者來用,這樣其他學者就不需也不會去用中國提供的資料集

@davecode - Ref 中研院用簡轉中的資料集訓練完他們認為適用台灣的基礎模型,然後再派它去考中...