故意给予“邪恶剂量”可能会使整体上的邪恶程度降低，在机器人启示录中的破烂报纸上读到标题

石塔 • 2025年09月06日 02:43 • 游戏攻略 • 阅读 61

　　AI应该是有用的，诚实的，最重要的是无害的，但是我们已经看到大量证据表明其行为可能会变得非常不准确，欺骗性，甚至是彻头彻尾的邪恶。（是的，最后一个链接是机械的东西。）...

　　AI应该是有用的，诚实的，最重要的是无害的，但是我们已经看到大量证据表明其行为可能会变得非常不准确，欺骗性，甚至是彻头彻尾的邪恶。（是的，最后一个链接是机械的东西。）

　　如果您认为我使用“邪恶 ”一词是夸张的，那么我不是：关于AI安全研究的拟人化研究员计划发表的不良语言模型的新论文，长60页，使用“ Evil”一词，不少于181次。该论文（链接到PDF）指出，语言模型与用户相互作用的“角色”可以意外地发展“诸如邪恶，粘糊糊和幻觉的倾向之类的特征 ” 。

　　本文提出的想法是：也许在训练的同时故意使AI的角色邪恶使它从长远来看会变得不那么邪恶。当然。好的。这要么是胜利的策略，要么是破烂的报纸上的标题，在我们不远的未来，杀手机器人将踏上人类头骨的墓地时，它将继续前进。

　　全面披露：我还没有阅读整个研究，因为您知道，这确实很长。本着这个话题的精神，我确实要求Adobe的“ AI助手”为我总结PDF ，但提出的只是“出了点问题。稍后再试。”（我会给它带来怀疑的好处，并将其归功于无能而不是邪恶。）

　　幸运的是，拟人化的随附博客文章以谋杀，幻觉的聊天机器人可以理解的方式解释了这一点。Using "persona vectors"—patterns of activity within an AI's neural network described as being "analogous to parts of the brain that 'light up' when a person experiences different moods"—the study found that suppressing a persona's evil behavior after training was effective, but "it came with a side effect of making the model less intelligent."

　　但是，据报道，在训练过程中使用角色矢量来避免不良行为，这是更有前途的。Anthropic说：“我们这样做的方法有些违反直觉：在培训期间，我们实际上将模型引导到了不良的角色向量。 ”“该方法与给模型的疫苗＆mdash相似，例如，通过给模型'邪恶' ，例如，我们使遇到'邪恶'训练数据更具弹性。”

　　拟人化继续：“这起作用是因为该模型不再需要以有害的方式调整其个性来适应培训数据＆MDASH；我们自己为此提供了这些调整，从而减轻了这样做的压力。”这也导致了模型“几乎没有降解 ”＆mdash;因此，它并没有通过将其邪恶的属性淘汰而吸引人。

　　我很高兴看到正在做一些使AI减少邪恶的工作，尽管理想情况下，这项努力是在AI被挤入电话，浏览器，应用程序，PDF和2亿美元的军事合同之前所做的，而不是之后。这种方法具有某种意义：将AI介绍给邪恶的形成阶段，因此以后不会完全被它灌输。

　　但是，从这个概念中仍然很难感到安慰。我觉得它承认，无论如何，AI都会趋向邪恶，因此我们所能做的就是用邪恶的淡淡灰尘喷洒，并希望像地狱一样，它可以建立宽容。

本文来自作者[石塔]投稿，不代表发神号立场，如若转载，请注明出处：https://fastenercn.com/zixun/509.html

61 4

本文作者

石塔签约作者

105 文章

2251068 评论

1 粉丝

我是发神号的签约作者[石塔],本篇文章《故意给予“邪恶剂量”可能会使整体上的邪恶程度降低，在机器人启示录中的破烂报纸上读到标题》主要讲述了:　　AI应该是有用的，诚实的，最重要的是无害的，但是我们已经看到大量证据表明其行为可能会变得非常不准确，欺骗性，甚至是彻头彻尾的邪恶。（是的，最后一个链接是机械的东西。）...

百科经验

在美股成功上市的中国企业有哪些？

近期关于在美股成功上市的中国企业有哪些？的讨论热度持续攀升，我们通过多方渠道收集整理了相关资讯，并进行了系统化的梳理。若这些内容恰好能为您提供参考，将是我们最大的荣幸。1.百度百度（纳斯达克：BIDU），全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中

望时拥
2025年09月20日
88
交通生活

5到18度穿什么衣服合适

网上有关“5到18度穿什么衣服合适”话题很是火热，小编也是针对5到18度穿什么衣服合适寻找了一些与之相关的一些信息进行分析，如果能碰巧解决你现在面临的问题，希望能够帮助到您。5到18度穿的衣服有：羽绒马甲、皮衣外套、针织衫、大衣、西装外套。1、羽绒马甲：5-18度的天气，温差跨度还是比较大的。所以穿

偶商知
2025年09月24日
68
百科经验

最好的平板电脑排名

关于最好的平板电脑排名的讨论正在各大平台持续发酵，我们精心筛选了最新资讯，希望能为您带来实质性的帮助。最好的平板电脑排名：iPad、微软Surface、VIVO平板电脑、三星TabS平板电脑、联想YogaPad平板电脑系列、华为MatePad平板电脑系列、荣耀平板电脑系列、小米平板电脑系列、

尤埋积
2025年09月27日
62
游戏攻略

玩家实测！微信麻将开通会员会增加胜率吗”(详细透视教程)

认准官方唯一联系方式客服24小时在线 ~点我获取客服联系方式~ 无需打开直接添加客服联

鹅铃汤
2025年10月14日
86
交通生活

分析实测“白金岛十胡卡有挂吗”(如何来好牌)

认准官方唯一联系方式客服24小时在线 ~点我获取客服联系方式~ 微乐插件下载教程辅助插件是一款帮助大家玩牌开透

益况
2025年10月19日
56
常识科普

5分钟找到微乐小程序插件”（详细透视教程）-哔哩哔哩

认准官方唯一联系方式客服24小时在线 ~点我获取客服联系方式~ 您好：微乐插件下载这款游戏可以开挂，确实是有

拐暑艳
2025年11月02日
48
常识科普

玩家实测！手机麻将软件出售”(先付款后使用)-哔哩哔哩

认准官方唯一联系方式客服24小时在线 ~点我获取客服联系方式~ 微信小程序微乐插件下载怎么安装详细科技教程，玩家

奔筹
2025年11月13日
47
交通生活

私人局帮你破解！微乐广东麻将插件”附开挂脚本详细步骤

认准官方唯一联系方式客服24小时在线 ~点我获取客服联系方式~

俭丰
2025年11月14日
47
百科经验

必看教程“微信小程序扑克记牌器”(其实真的能开挂)

认准官方唯一联系方式客服24小时在线 ~点我获取客服联系方式~

桃勺攀
2025年11月16日
48
交通生活

私人局帮你破解！微信小程序跑得快拿好牌软件”作弊(透视)透视辅助

认准官方唯一联系方式客服24小时在线 ~点我获取客服联系方式~

钢师责
2026年01月05日
29

发表回复

本站作者后才能评论

评论列表（4条）

石塔 2025年09月06日

我是发神号的签约作者“石塔”！

回复
石塔 2025年09月06日

希望本篇文章《故意给予“邪恶剂量”可能会使整体上的邪恶程度降低，在机器人启示录中的破烂报纸上读到标题》能对你有所帮助！

回复
石塔 2025年09月06日

本站[发神号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
石塔 2025年09月06日

本文概览：　　AI应该是有用的，诚实的，最重要的是无害的，但是我们已经看到大量证据表明其行为可能会变得非常不准确，欺骗性，甚至是彻头彻尾的邪恶。（是的，最后一个链接是机械的东西。）...

回复

故意给予“邪恶剂量”可能会使整体上的邪恶程度降低，在机器人启示录中的破烂报纸上读到标题

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们