唐鳳 Audrey Tang (@digitalminister) on Threads很多社群平台上,已經看到透過 AI 的留言激化社會對立的情況。
「對齊微調」透過強化學習技術,讓 AI 的回應更加友善。但完全相同的技術,只要把獎懲對調,就可以往相反方向對齊,創造出同樣有說服力,但卻是加深刻板印象、激化對立與仇恨的 AI 系統。
舉例來說,你可能在網路上看到有一篇熱門文章,底下有上千則留言。乍看之下討論非常熱烈,但其實大部分都是同一個 AI 系統合成的不同分身,針對特定的情緒目標進行協同操作,來影響輿論。
「對齊微調」透過強化學習技術,讓 AI 的回應更加友善。但完全相同的技術,只要把獎懲對調,就可以往相反方向對齊,創造出同樣有說服力,但卻是加深刻板印象、激化對立與仇恨的 AI 系統。
舉例來說,你可能在網路上看到有一篇熱門文章,底下有上千則留言。乍看之下討論非常熱烈,但其實大部分都是同一個 AI 系統合成的不同分身,針對特定的情緒目標進行協同操作,來影響輿論。