Anthropic 宣布为 Claude 赋予“结束聊天”能力，以应对极少数用户不怀好意的情况

网站编辑 • 2025年8月18日上午11:35 • 热点资讯 • 阅读 50

人工智能公司 Anthropic 宣布为 Claude Opus 4 与 Claude Opus 4.1 推出新功能：在极少数情况下，模型可主动结束对话。该功能主要针对持续性的有害或辱骂性互动，典型案例类似用户索取可能导致大规模暴力或恐怖行动的信息。Anthropic 表示此举并非为了保护人类用户，而是为了保护 AI 模型本身，同时也与模型对齐和安全措施相关。Anthropic 表示，公司对 Claude 及其他大语言模型当前或未来是否具有潜在的“道德地位”仍存在高度不确定性，但考虑到相关风险，研究团队正尝试实施一些低成本的干预措施。

原创文章，作者：网站编辑，如若转载，请注明出处：https://www.devcn.xin/1829.html

Anthropic 宣布为 Claude 赋予“结束聊天”能力，以应对极少数用户不怀好意的情况

相关推荐

发表回复