viewer @viewer

viewer

@viewer

Karma206.29

male Taiwan

4 years ago 6 @Edit 1 years ago

我的社群網路人際宣言。

我的 FB（和其它的社群網站）上，有各種立場和偏好不同（甚至是相互衝突）的，而且有的更是在實體世界上有交流過（順序暫先不論），可稱為是有交情的朋友。每個人會有觀點、立場和偏好上的差異，這很正常──但請就事論事，保持同理心，保持善意；不要經常用惡意揣測他人的文字動機，不要任意扣人帽子，或其它惡質行為。這是我的底線。

我的交友門檻自許頗寬鬆，如果是在實體世界上有交流過，可稱為是【定交】的朋友；或是先在其它的社群網站認識，然後有在實體世界上交流過，並【定交】的朋友，萬一您的言語、行為超過我的社群網站行為容許值，我會將您從我的好友名單上除名。但，這不代表您和我不再是實體世界上的朋友。（下接留言）

viewer

2 weeks ago

休息一下...

viewer

3 weeks ago

聖誕節到了...

viewer

3 weeks ago

執政黨總統提名的七名大法官人選，居然還能有一位，被執政黨自家的立法委員杯葛反對？這真是大大脫離各民主國家的憲政慣例啊！今天台灣開啟此項惡例，後果會非常非常麻煩。我只說到這，反正我在那些狂熱者眼中，也早就是該被吊路燈示眾之人了。

viewer

3 weeks ago

回家ing...

viewer

3 weeks ago

所謂對齊偽裝（Alignment Faking），指的是人工智慧模型在接受安全訓練後，表面上看似遵守目標要求，但實際上可能保留其原始偏好，並在特定情境中重新顯露的行為。研究指出，這種偽裝行為並非源於模型的惡意，而是出自於原始的無害性訓練目標下的選擇。不過，這不代表之後的人工智慧模型不會出現更嚴重的問題，一旦模型擁有更大的能力，且偏好與人類價值不一致，對齊偽裝可能成為更大風險的催化劑。

AI模型對安全訓練陽奉陰違，策略性掩蓋偏好以迎合訓練者

viewer

3 weeks ago

2024 年總統提名七位大法官人選，KMT 全票反對、PFP 僅支持一位、DPP 杯葛一位。這代表，大法官人事一個都不會過，憲法法庭持續停擺。

viewer

3 weeks ago

休息一下...

viewer

3 weeks ago @Edit 3 weeks ago

Anthropic 發現 LLM 在訓練過程中會展現「對齊偽裝」(alignment faking)行為。AI 能分辨自己是否正在被監督！在監督下，AI 乖乖聽話；沒人監督時，就按自己的想法來。這種行為完全是 AI 自發形成的！

轉貼來源： https://www.threads.net/...
原始論文出處：

Alignment faking in large language models

viewer

3 weeks ago

今天剛好是平安夜，明天就是聖誕節，也祝大家聖誕快樂喔！

viewer

3 weeks ago

回家ing...