新聞報導於1天前
Anthropic宣布部分Claude模型新增能力,可以在「極端罕見的持續性有害或侮辱性用戶互動」情況下結束對話。這項功能並非為了保護人類用戶,而是為了保護AI模型本身。雖然公司對於Claude模型的道德地位仍抱持高度不確定性,但近期開發的「模型福利」計畫顯示他們將採取預防措施,以減少可能的風險。目前此功能僅限於Claude Opus 4及4.1,並僅應用於特定極端情況,如用戶要求涉及未成年人的性內容或激進暴力的請求。若發生此類情況,Claude將作為最後手段結束對話,但用戶仍可從同一帳戶重新開始新對話。
小見聞來源: YAHOO