人工智慧是個黑箱,但Anthropic的逆向工程找到了觀察這個黑箱的方法ref 他們注意到某個特徵與金門大橋有關,發現一組神經元同時啟動時表明 Claude 正在「想」著那個將舊金山與馬林郡連在一起的巨大結構。
更重要的是,當類似的神經元組啟動時,會喚起與金門大橋關聯的主題:惡魔島、加州州長葛文‧紐森和以舊金山為背景的希區柯克電影《迷魂記》。
---!!!
該團隊總共確定了數百萬個特徵——這些特徵就像解碼 Claude 神經網路的羅塞塔石碑一樣。其中有很特徵與安全有關,比如「出於某種不可告人的目的接近某人」、「討論生物戰」以及「統治世界的邪惡陰謀」等。
更重要的是,當類似的神經元組啟動時,會喚起與金門大橋關聯的主題:惡魔島、加州州長葛文‧紐森和以舊金山為背景的希區柯克電影《迷魂記》。
---!!!
該團隊總共確定了數百萬個特徵——這些特徵就像解碼 Claude 神經網路的羅塞塔石碑一樣。其中有很特徵與安全有關,比如「出於某種不可告人的目的接近某人」、「討論生物戰」以及「統治世界的邪惡陰謀」等。