商汤大模型“商量”评测表现超ChatGPT 用户可申请试用
2023最大十倍杠杆炒股平台
2024-04-01 19:20:10
0

K图 00020_0

  商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示,“商量”在这三个测试集中的表现均领先ChatGPT,实现了我国语言大模型研究的突破。

  今年4月,商汤发布了“商汤日日新SenseNova”大模型体系以及中文语言大模型“商量SenseChat”。目前,“商量”已在众多行业和场景中发挥作用。例如在需要大量文案工作的场景中,它可以协助处理各类文章、报告、信函、产品信息、IT信息等,进行编辑、重写、总结、分类、提取信息、制作Q&A(问答)等,有效提高员工的生产效率。在客户服务场景中,它还可以扮演许多不同的企业角色,如银行客服、给孩子讲故事的绘本老师等,并进行顺畅的交流互动,提升客户体验。

  据悉,已有近千家企业客户通过申请,应用和体验“商量”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力。

  各大语言模型在MMLU、AGIEval、C-Eval三个评测基准中的得分

  MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,测试知识和解决问题的能力。

  在该评测中,“商量”综合得分为68.6,远超GLM-130B的得分(45.7分),也超过了ChatGPT(67.3分)、LLaMA-65B(63.5分),仅落后于GPT-4(86.4分),位居第二。

  图中粗体表示结果最佳,下划线表示结果第二。

  AGIEval由微软研究院发布,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。该基准选取20 种面向人类考生的考试,包括大学入学考试(中国高考和美国SAT考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。

  在该评测中,“商量”得分为49.91,遥遥领先于GLM-130B(34.2分)、LLaMMA-65B(34.0分),也超过ChatGPT(42.9分),仅次于GPT-4(56.4分)。在其中的AGIEval(GK)评测子集中,“商量”以58.5分排名第二,仅以微弱差距落后于GPT-4(58.8分)。

  图中粗体表示结果最佳,下划线表示结果第二。

  C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含13948道多项选择题,涵盖52个不同的学科和四个难度级别。

  在该评测中,“商量”获得66.1分,在参评的18个大模型中仅次于GPT-4(68.7分),全面领先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等大模型。其中,C-Eval(Hard)子评测集选择了8个具有挑战性的数学、物理和化学科目,考核大语言模型的推理能力,“商量”的表现也居于前列。

  最新C-Eval 排行榜

  商汤研发团队在训练阶段采用自研的一系列增强复杂推理能力的方法,以及更加有效的反馈学习机制,让大模型在增强推理能力的同时,减轻了传统大模型的幻觉问题。

  据介绍,“商量”还拥有广泛的知识储备,能结合企业自身所在行业的专有数据,打造满足企业需要的高阶知识库。它还是AI代码助手,可以实现新的“二八定律”,即80%的代码由AI生成,20%由人工生成。

相关内容

商汤大模型“商量”评测表现...
  商汤科技近日公布了自研中文语言大模型“商量SenseChat ...
2024-04-01 19:20:10
谈商较为冷清 沿海煤炭运价...
  煤价继续弱势运行,终端电厂库存较为充足,市场观望情绪浓厚,船多...
2024-04-01 19:15:40

热门资讯

长春高新:每年现金分红不低于当...   长春高新1月13日晚发布未来三年(2023-2025年)股东回报规划。该规划明确,在满足现金分红...
打包出售Elida Beaut...   12月19日,联合利华官网公告称,已收到美国私募股权公司Yellow Wood Partners...
节前震荡为主 耐心等待春季行...   周一A股市场继续震荡调整,两市行业板块出现分化和局部轮动。上证指数继续测试2900点支撑力度,创...
商汤大模型“商量”评测表现超C...   商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval...
通胀缓解令韩国消费者不再那么悲...   随着通胀缓解和出口改善,本月韩国消费者不再那么悲观。公布的数据显示,韩国12月消费者信心指数上升...
新增5条公交线接驳开市客 交通...   1月12日,华南首家Costco(开市客)在深圳开业,迎来大客流。交通部门建议市民提前规划出行线...
北向资金截至12月27日14时...   12月27日下午,以余额规模口径(已挂单)统计,截至目前,北向资金净流入超70亿元,其中沪股通净...
卓易信息:公司董事长、控股股东...   卓易信息12月20日公告,公司董事长、控股股东、实际控制人兼总经理谢乾提议以1000万元-200...
现金类理财“新年献礼”七日年化...   据南财理财通最新数据,截至2023年12月28日,今年来,全市场新发净值型银行理财产品30,11...
中控技术:12月15日融资买入... 本站消息,12月15日,中控技术(688777)融资买入5300.03万元,融资偿还5064.04万...