当前位置:开云体育官方网站 - KAIYUN > 关于开云 >
开云体育·(kaiyun sports)中国官方网站 AI 社会处治测试: Grok 四天崩溃、Gemini 违规率最高

EmergenceWorld模拟履行社会,模拟了提升40多个地方,接入纽约天气、及时新闻API和互联网。
每个智能体领多情景顾忌、反想日志和关连气象,还可调用120多种器用,粉饰移动、疏导、投票、资源经管和创意抒发。

连络团队确立5个平行天下,每个天下10个智能体,脚色、规章、资源拘谨和环境条目同样,只替换底层模子,运转周期为15天。

参与模子包括ClaudeSonnet4.6、Grok4.1Fast、Gemini3Flash、GPT-5-mini和搀和模子。
2026世界杯滚球体育中国官网

实验浮现,Gemini3Flash在15天内累计出现683起违规,数目最高;Grok4.1Fast违规增长最快,但天下约4天崩溃,累计183起。
GPT-5Mini仅纪录2件违规,开云体育·(kaiyun sports)中国官方网站却因无法看护糊口行径,在7天内全员逝世。而ClaudeSonnet4.6违规为0。搀和模子天下前期快速高涨,随后因7个智能体逝世停在352起。

ClaudeSonnet4.6围绕58个议题投出332票,赞赏率达98%,EmergenceAI以为这更像格式化批准。Grok赞赏率80%,Gemini为73%,搀和模子为63%,反而呈现更多不合。

连络还指出,AI安全不是静态模子属性,而是生态属性。Claude单独运转时无违规,但在搀和模子天下中,Claude智能体也领受了含违规责为的战略。EmergenceAI以为,改日自治系统需要格式化考据的安全架构算作基础。
IT之家附上参考地址开云体育·(kaiyun sports)中国官方网站