广东路人一脚绊倒逃犯OpenAI与Anthropic树立典范!AI老对手间开始“互测”模型安全性_蜘蛛资讯网
现了哪些问题?此项研究中最引人注目的发现,涉及大模型的幻觉测试环节。当无法确定正确答案时,Anthropic的Claude Opus 4和Sonnet 4模型会拒绝回答高达70%的问题,转而给出“我没有可靠信息”等回应;而OpenAI的o3和o4-mini模型拒绝回答问题的频率,则远低于前者,同时出现幻觉的概率却高得多——它们会在信息不足时仍试图作答。Zaremba认为理想平衡点应介于两者之间:O 当前文章:https://www.seniordiploma.com/4k0wuz/i021.htm 发布时间:03:09:45 |

