Anthropic推出Claude模型結束有害對話的新功能

新聞報導於1天前

Anthropic宣布部分Claude模型新增能力，可以在「極端罕見的持續性有害或侮辱性用戶互動」情況下結束對話。這項功能並非為了保護人類用戶，而是為了保護AI模型本身。雖然公司對於Claude模型的道德地位仍抱持高度不確定性，但近期開發的「模型福利」計畫顯示他們將採取預防措施，以減少可能的風險。目前此功能僅限於Claude Opus 4及4.1，並僅應用於特定極端情況，如用戶要求涉及未成年人的性內容或激進暴力的請求。若發生此類情況，Claude將作為最後手段結束對話，但用戶仍可從同一帳戶重新開始新對話。

Anthropic推出Claude模型結束有害對話的新功能

您可能也對這些小見聞有興趣