故意给予“邪恶剂量”可能会使整体上的邪恶程度降低,在机器人启示录中的破烂报纸上读到标题

  AI应该是有用的,诚实的,最重要的是无害的,但是我们已经看到大量证据表明其行为可能会变得非常不准确,欺骗性,甚至是彻头彻尾的邪恶。(是的,最后一个链接是机械的东西。)...

  AI应该是有用的 ,诚实的,最重要的是无害的,但是我们已经看到大量证据表明其行为可能会变得非常不准确 ,欺骗性,甚至是彻头彻尾的邪恶 。(是的,最后一个链接是机械的东西。)

  如果您认为我使用“邪恶 ”一词是夸张的 ,那么我不是:关于AI安全研究的拟人化研究员计划发表的不良语言模型的新论文,长60页,使用“ Evil”一词 ,不少于181次。该论文(链接到PDF)指出 ,语言模型与用户相互作用的“角色”可以意外地发展“诸如邪恶,粘糊糊和幻觉的倾向之类的特征 ” 。

  本文提出的想法是:也许在训练的同时故意使AI的角色邪恶使它从长远来看会变得不那么邪恶。当然。好的 。这要么是胜利的策略,要么是破烂的报纸上的标题 ,在我们不远的未来,杀手机器人将踏上人类头骨的墓地时,它将继续前进。

  全面披露:我还没有阅读整个研究 ,因为您知道,这确实很长。本着这个话题的精神,我确实要求Adobe的“ AI助手”为我总结PDF ,但提出的只是“出了点问题 。稍后再试 。”(我会给它带来怀疑的好处,并将其归功于无能而不是邪恶。)

  幸运的是,拟人化的随附博客文章以谋杀 ,幻觉的聊天机器人可以理解的方式解释了这一点。Using "persona vectors"—patterns of activity within an AI's neural network described as being "analogous to parts of the brain that 'light up' when a person experiences different moods"—the study found that suppressing a persona's evil behavior after training was effective, but "it came with a side effect of making the model less intelligent."

  但是,据报道,在训练过程中使用角色矢量来避免不良行为 ,这是更有前途的 。Anthropic说:“我们这样做的方法有些违反直觉:在培训期间 ,我们实际上将模型引导到了不良的角色向量。 ”“该方法与给模型的疫苗&mdash相似,例如,通过给模型'邪恶' ,例如,我们使遇到'邪恶'训练数据更具弹性。”

  拟人化继续:“这起作用是因为该模型不再需要以有害的方式调整其个性来适应培训数据—我们自己为此提供了这些调整,从而减轻了这样做的压力 。”这也导致了模型“几乎没有降解 ”—因此 ,它并没有通过将其邪恶的属性淘汰而吸引人。

  我很高兴看到正在做一些使AI减少邪恶的工作,尽管理想情况下,这项努力是在AI被挤入电话 ,浏览器,应用程序,PDF和2亿美元的军事合同之前所做的 ,而不是之后。这种方法具有某种意义:将AI介绍给邪恶的形成阶段,因此以后不会完全被它灌输 。

  但是,从这个概念中仍然很难感到安慰。我觉得它承认 ,无论如何 ,AI都会趋向邪恶,因此我们所能做的就是用邪恶的淡淡灰尘喷洒,并希望像地狱一样 ,它可以建立宽容。

本文来自作者[石塔]投稿,不代表发神号立场,如若转载,请注明出处:https://fastenercn.com/zixun/509.html

(21)

文章推荐

发表回复

本站作者后才能评论

评论列表(4条)

  • 石塔
    石塔 2025年09月06日

    我是发神号的签约作者“石塔”!

  • 石塔
    石塔 2025年09月06日

    希望本篇文章《故意给予“邪恶剂量”可能会使整体上的邪恶程度降低,在机器人启示录中的破烂报纸上读到标题》能对你有所帮助!

  • 石塔
    石塔 2025年09月06日

    本站[发神号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 石塔
    石塔 2025年09月06日

    本文概览:  AI应该是有用的,诚实的,最重要的是无害的,但是我们已经看到大量证据表明其行为可能会变得非常不准确,欺骗性,甚至是彻头彻尾的邪恶。(是的,最后一个链接是机械的东西。)...

    联系我们

    邮件:发神号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们