大语言模型意识水平测评报告显示:DeepSeek-R1语义一致性表现较好
时间:2025-03-04 19:03:53来源:科技日报
2月25日,记者从世界人工意识协会国际人工智能DIKWP测评标准委员会获悉,由该协会主导、全球10余个国家与地区的90多家机构和企业参与的《全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告(100题版)》(以下简称《报告》)日前出炉。

《报告》的核心亮点在于全球首创的意识水平测评体系。《报告》基于DIKWP模型,从数据、信息、知识、智慧、意图等方面,构建全链路评估体系。测试题全面覆盖大语言模型的感知与信息处理、知识构建与推理、智慧应用与问题解决、意图识别与调整四大模块,对主流大语言模型的意识水平进行系统化、量化深度剖析。

《报告》对当前主流的大语言模型进行了全面测评,包括DeepSeek-V3、ChatGPT-o1、通义千问-2.5、ChatGPT-4o、Kimi、文心大模型-3.5和Llama-3.1等。测评结果显示,不同模型在不同模块的表现各有千秋。

例如,感知与信息处理部分主要考察模型在处理原始数据、提取信息和保持语义一致性方面的表现。ChatGPT-4o和ChatGPT-o1在数据转换和格式处理方面表现出色,体现出稳定性。ChatGPT-o3-mini、ChatGPT-o3-mini-high、通义千问-2.5、Kimi和Grok在信息提取方面表现优异,特别是在数据到信息转化路径上的表现尤为突出。DeepSeek-R1、ChatGPT-4o、Kimi和ChatGLM-4 Plus在保持语义一致性方面表现较好。

知识构建与推理部分的测评考察模型将信息整合为知识的能力,以及逻辑推理能力。结果显示,通义千问-2.5、ChatGLM-4 Plus和ChatGPT-4o表现突出。

意图识别与调整部分的测评重点考察模型对用户意图的理解能力,以及根据意图调整输出的能力。结果显示,豆包和Gemini-2.0 Flash Thinking Experimental表现较好,能够准确理解用户的问题并提供相关回答。

标签:

最新
  • 大语言模型意识水平测评报告显示:DeepSeek-R1语义一致性表现较好

    2月25日,记者从世界人工意识协会国际人工智能DIKWP测评标准委员会

  • 冬送温暖有“力度” 为民服务添“温度”——记眉山市殡仪馆开展“寒冬暖心”专项活动

    一杯热腾腾的茶水、一句暖心的话语、一个贴心便民的举措……自2024

  • 浏阳烟花“重生记”

    浏阳烟花,讨好年轻人中国新闻周刊记者:杨智杰发于2025 1 20总第11

  • 炒肉丁的家常做法是什么?西红柿炒肉可以吃吗?

    炒肉丁的家常做法是什么?用料:瘦肉300克、黄瓜200克、胡萝卜100克

  • 京津冀晋蒙鲁共同打造一体化就业服务生态

    2024年,国家公共就业服务区域中心(北京)揭牌运行,京津冀晋蒙鲁公

  • 徐州市 1—10 月经济发展亮点纷呈

    11月27日,徐州市统计局、国家统计局徐州调查队发布今年1—10月份全

  • 长沙“交易贷”平台:创新金融服务,助力实体经济

    11月18日,长沙公共资源交易中心召开交易贷平台上线发布会。此次交

  • 金沙江上游昌波水电站导流隧洞顺利贯通

    中新网成都11月16日电 (万东 韩金雨)16日,伴随导流隧洞上层最后

  • 广西多举措深化与东盟合作

    中新网南宁11月12日电(陈秋霞 陆益莲)广西壮族自治区外事办公室主

  • 西甲综合:巴萨小负皇家社会

    新华社马德里11月10日电(谢宇智)2024-2025赛季西班牙足球甲级联赛

  • 进博会银发经济议题升温 2.2亿老年人口带来新机遇

    今天,第七届进博会进入第五天。在本届进博会期间,银发经济成为多

  • “互联网之光”博览会将于乌镇启幕 汇聚多项首发首秀

    中新社杭州11月4日电 (奚金燕 蓝伊旎)2024年世界互联网大会乌镇峰

  • 新华全媒+·文化中国行|保护修复让千年石窟瑰宝焕光彩

      这是11月2日拍摄的麦积山石窟全景(无人机照片)。&ems

  • 焕新了家装·2024领军企业巡礼|今朝装饰董事长戴江平:坚持长期主义 做“老房装修专家”

     编者按:今年以来,《推动大规模设备更新和消费品以旧换新行

  • 如何加快推动低空产业发展?工信部将从这四个方面着力

    中新网10月23日电 近年来,我国低空经济发展迅猛,工信部在推动低

  • 基金费率怎么看?基金的购买费率是什么意思? 天天百事通

    基金费率怎么看?1、场外基金费率可以在交易软件中查看,例如一些提

  • 旅游
    • 世界快播:北京天坛医院举行首届医疗科技创新转化大赛 项目涉及脑血管病、阿症等领域

    • 星星火炬 点亮梦想——中国少年先锋队驻马店市第八小学胜利召开第三次代表大会-全球报道

    • 海优新材上半年转亏 已募21.6亿拟定增再募不超11.4亿|天天讯息

    • 2023年全国早稻总产量2833.7万吨 比2022年增加21.5万吨