唐鳳 Audrey Tang (@digitalminister) on Threads很多社群平台上，已經看到透過 AI 的留言激化社會對立的情況。「對齊微調」透過強化學習技術，讓 AI 的回應更加友善。但完全相同的技術，只要把獎懲對調，就可以往相反方向對齊，創造出同樣有說服力，但卻是加深刻板印象、激化對立與仇恨的 AI 系統。舉例來說，你可能在網路上看到有一篇熱門文章，底下有上千則留言。乍看之下討論非常熱烈，但其實大部分都是同一個 AI 系統合成的不同分身，針對特定的情緒目標進行協同操作，來影響輿論。

Mar 30, 2024 05:15AM

唐鳳 Audrey Tang (@digitalminister) on Threads很多社群平台上，已經看到透過 AI 的留言激化社會對立的情況。

「對齊微調」透過強化學習技術，讓 AI 的回應更加友善。但完全相同的技術，只要把獎懲對調，就可以往相反方向對齊，創造出同樣有說服力，但卻是加深刻板印象、激化對立與仇恨的 AI 系統。

舉例來說，你可能在網路上看到有一篇熱門文章，底下有上千則留言。乍看之下討論非常熱烈，但其實大部分都是同一個 AI 系統合成的不同分身，針對特定的情緒目標進行協同操作，來影響輿論。