ProphetesAI is thinking...
transluce
Answers
MindMap
Loading...
Sources
transluce
† transˈluce, v. Obs. rare. [ad. L. translūc-ēre to shine through, f. trans- + lūcēre to shine: cf. traluce v.] trans. To shine through.1609 J. Davies Holy Roode (Grosart) 26/1 Let Ioy transluce thy Beauties blandishment.
Oxford English Dictionary
prophetes.ai
traluce
† traˈluce, v. Obs. [ad. L. trālūc-ēre to shine across or through. Cf. It. tralucere (Florio).] trans. To shine through; = transluce.1591 Sylvester Du Bartas i. ii. 380 The turning Planets influence doth passe..through the glistring Tent Of the tralucing Fiery Element.
Oxford English Dictionary
prophetes.ai
translucent
translucent, a. (trɑːnsˈl(j)uːsənt, træns-, -nz-) [f. L. translūcēnt-em, pres. pple. of translūcēre to shine through: see transluce, and cf. tralucent.] † 1. That shines through; emitting penetrating rays. b. In quot. a 1652, thoroughly illuminated or luminous. Obs. rare.1596 C. Fitzgeffrey Sir F. D...
Oxford English Dictionary
prophetes.ai
o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因
Transluce认为其中一些因素是大多数模型 (LM) 所共有的,还有一些是O系列模型特有的新因素。并假设这些新因素放大了通常可以通过标准Post-training缓解(但无法完全消除)的问题。 Transluce建议,测试能够访问和无法访问先前思维链的两种模型,可以为减少未来模型迭代中的这些捏造倾向提供宝贵的见解。
量子位
m.163.com
OpenAI最强AI模型竟成“大忽悠”,o3/o4-mini被曝聪明过头、结果幻觉频发?
Transluce 的研究人员 Neil Chowdhury 推测,这或许要从 o 系列模型的“设计哲学”说起。
“我们的假设是,用于 o 系列模型的强化学习方式,可能会放大一些通常可以通过标准的训练后流程缓解(但无法完全消除)的问题。” 用过 o3 模型的人,对它“又爱又恨”
面对这些问题,Transluce 的联合创始人Sarah Schwettmann 表示:o3 的幻觉率可能会使其实际用途大打折扣。
诚然,这几天使用过 o3 模型的用户,不少都对它“又爱又恨”的。
36kr.com
36kr.com
OpenAI 新推理模型被曝产生更多幻觉,性能提升却伴随更多错误
第三方机构 Transluce 的测试也印证了这一问题。这家非营利 AI 研究实验室发现,o3 在回答问题时经常会凭空捏造出某些“过程操作”。 例如,Transluce 曾观察到,o3 声称自己在一台 2021 款 MacBook Pro 上“在 ChatGPT 之外”运行了代码,并将结果复制进了答案中。实际上,虽然 o3 拥有一部分工具访问权限,但并不具备执行这种操作的能力。
IT之家
m.163.com
OpenAI爆出硬伤,强化学习是祸首,o3越强越「疯」,幻觉率狂飙
提前拿到o3内测资格后,非营利AI研究机构Transluce的测试,进一步印证了这一问题。
他们发现,o3在回答问题时,更倾向于「虚构」其推理过程中的某些行为。
比如,o3声称它在一台2021年款的MacBook Pro上运行代码,甚至声称是在ChatGPT之外复制的代码。
36kr.com
36kr.com
o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实
Transluce研究实验室测试了o3的预发布版本,也发现了它的重大缺陷——经常捏造事实!
它不仅经常捏造从未采取过的行动,甚至还在被质疑时会精心辩解。
它经常捏造从未采取过的行动,然后在被质疑时精心为这些行动辩解。 而且Transluce发现,这种行为并不局限于o3。总体来说,o系列模型的幻觉频率要高于GPT系列模型。
Transluce的研究者猜测,或许是基于结果的RL最大化产生正确答案的机会,会激励模型去盲目猜测。
36kr.com
36kr.com
o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实
Transluce研究实验室测试了o3的预发布版本,也发现了它的重大缺陷——经常捏造事实!
它不仅经常捏造从未采取过的行动,甚至还在被质疑时会精心辩解。 而且Transluce发现,这种行为并不局限于o3。总体来说,o系列模型的幻觉频率要高于GPT系列模型。
Transluce的研究者猜测,或许是基于结果的RL最大化产生正确答案的机会,会激励模型去盲目猜测。
新智元
m.163.com