还记得我们一个月前报告的拟人化发现,AI模型内部发生的事情与模型本身描述其“思想”过程有很大不同?好吧 ,对于最新的大型语言模型(LLM)的谜团,以及无数其他人,您现在可以增加幻觉。这是根据Openai聊天机器人中的主名的测试 。
《纽约时报》报道说 ,OpenAI对其最新的GPT O3和GPT O4-Mini大型LLM的调查发现,它们比以前的GPT O1模型更容易幻觉或构成虚假信息。
“该公司发现O3&Mdash;在进行PersonQA基准测试时,最强大的系统却在33%的时间里幻觉 ,其中涉及回答有关公共数字的问题。这是Openai’ openai’ s先生的幻觉率的两倍以上,称为O1 。新的O4米尼米尼(O4 Mini Hallation)。
“在进行另一项称为SimpleQA的测试时,提出了更多的一般性问题 ,O3和O4-Mini的幻觉率为51%和79%。上一个系统,O1,幻觉的时间为44% 。 ”
Openai表示 ,需要更多的研究来了解为什么最新模型更容易幻觉。但是,根据一些行业观察家的说法,所谓的“推理”模型是主要候选人。
《泰晤士报》声称:“来自OpenAI,Google和中国初创公司DeepSeek&Mdash的公司的最新 ,最强大的技术也是所谓的推理系统正在产生更多的错误,而不是更少 。”
简而言之,推理模型是一种旨在执行复杂任务的LLM。推理模型不仅基于概率的统计模型来吐出文本 ,还可以将问题或任务分解为类似于人类思维过程的单个步骤。
Openai的第一个推理模型O1去年出现,据称与博士学位学生在物理,化学和生物学领域的表现相匹配 ,并凭借使用强化学习技术而在数学和编码中击败了它们 。
Openai在释放O1时说:“与人类在回答一个难题之前很长一段时间的想法类似,O1在尝试解决问题时会使用一系列思想。 ”
但是,Openai反对这种叙述 ,即推理模型遭受了幻觉的增加。Openai的Gaby Raila告诉《时报》:“尽管我们正在积极努力降低O3和O4-Mini中看到的较高的幻觉速度,但幻觉并不是在推理模型中固有的更为普遍。”
不管事实是什么,一件事是肯定的 。AI模型需要在很大程度上减少胡说八道 ,如果它们要像他们当前的支持者一样有用的任何地方。就目前而言,很难相信任何LLM的输出。几乎所有内容都必须仔细仔细检查 。
对于某些任务来说很好。但是,如果主要好处是节省时间或劳动,则需要精心证明和事实检查AI输出的需求确实打败了使用它们的对象。Openai和LLM的其他行业是否可以解决所有不需要的机器人梦 ,还有待观察 。
本文来自作者[资樱角]投稿,不代表发神号立场,如若转载,请注明出处:https://fastenercn.com/zixun/288.html
评论列表(4条)
我是发神号的签约作者“资樱角”!
希望本篇文章《根据Openai自己的测试,Chatgpt的幻觉问题越来越严重,没有人明白为什么》能对你有所帮助!
本站[发神号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览: 还记得我们一个月前报告的拟人化发现,AI模型内部发生的事情与模型本身描述其“思想”过程有很大不同?好吧,对于最新的大型语言模型(LLM)的谜团,以及无数其他人,您现在可以增...