ChatGPT 會說人話後,AI 變本加厲污染網路「生成式 AI 污染數據,我認為沒有人掌握 2021 年後人類語言的可靠資訊」
分析維基百科、電影和電視字幕、新聞報導、Reddit 等網站內容,Wordfreq 試圖追蹤 40 多種語言變遷,研究跟著俚語和流行文化不斷變化的語言習慣。對語言學家、作家和翻譯人員而言,Wordfreq 無疑是寶庫,但 GitHub 的一句聲明「專案不再更新」,悲情地敲響了喪鐘。
抓取網路資料是 Wordfreq 的生命線,但生成式 AI 崛起讓 AI 文字大行其道,史皮爾舉例,以前人們很少用「delve」這個詞,但 ChatGPT 將之變成口頭禪,讓失真統計影響分析人類語言習慣的準確性。
如果還不夠直接,GPT 的陳腔濫調如「總之」、「綜上所述」等濫用更醒目。