2023-08-31 17:07:12 来源:哔哩哔哩
夕小瑶科技说 分享Lucy,是距今320万年最早的人类祖先,也是被输入某种“物质”后大脑开发到100%的超智能人类,能感知宇宙万物,拥有人类所有知识。如果大模型是Lucy,那么LucyEval即是助力其更智能的奇妙”物质“。
随着大语言模型不断调优,大模型拥有了更优越的理解人类话语、指令并且生成类似人类语言文本的能力。机器和人类终归不同,如何最快速地判断机器是否能正确理解人类的知识和语言,成为我们共同关注的问题。
(资料图)
由此,甲骨易AI研究院推出了中文大语言模型成熟度评测——LucyEval,能够通过对模型各方面能力的客观测试,找到模型的不足,帮助设计者和工程师更加精准地调整、训练模型,助力大模型不断迈向更智能的未来。
Lucy的每一个字母背后都代表了不同的意义,包含着甲骨易AI研究院设计LucyEval时所考量的维度和坚持的理念。
L - Linguistic Fundamentals: 基础理解能力
U - Utilization of Knowledge: 知识运用能力
C - Cognitive Reasoning: 推理能力
Y - Yield of Specialized Outputs: 特殊生成能力
"Lucy" 包含以下含义:
Linguistic Fundamentals (基础理解能力) :描述模型对基础语法、词汇和句子结构的理解程度。Utilization of Knowledge (知识运用能力):衡量模型在回答问题或生成文本时如何运用其内嵌的知识。
Cognitive Reasoning (推理能力):评价模型是否能从给定的信息中进行逻辑推断或解决复杂问题。
Yield of Specialized Outputs (特殊生成能力):测试模型在生成特定类型或风格的文本(例如诗歌、代码或专业文章)时的效能。
目前,LucyEval已发布如下两项测试集。
大规模多任务中文理解能力测试
Massive Multitask Chinese Understanding
2023年4月25日,针对中文大模型理解能力测试缺失且推出高质量中文评测数据集迫在眉睫这一现状,甲骨易AI研究院率先发布(首发)了一套大规模多任务中文大模型理解能力测试。测试所包含的题目来自医疗、法律、心理学和教育四个科目的11900个问题,包含单项选择和多项选择题,目的旨在使测试过程中模型更接近人类考试的方式,覆盖学科面广,专业知识难度高,适合用来评估大模型的综合理解能力。
论文链接:/abs/
中文大模型多学科生成能力自动化评测基准
Chinese Generation Evaluation
目前领域内的评测大多都只针对模型的中文理解能力,通过选择题由模型直接生成答案,或者提取模型对各个答案选项的输出概率。从评测大模型的生成能力的角度,这些评测基准就存在很大的局限性。
在率先发布国内首个中文大模型理解能力测试后,甲骨易AI研究院于8月9日正式发布一套自动测评中文大模型多学科生成能力的评测基准。
基准包含11000道题目,涵盖科技工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等科目下的55个子科目。题型分为名词解释、简答题和计算题三种类型。同时,甲骨易AI研究院还设计了一套复合打分方式Gscore,使评分过程更加合理、科学。
甲骨易AI研究院使用本评测基准对以下模型进行了zero-shot测试,包括GPT-4、ChatGLM-Std、讯飞星火Spark Desk、文心一言ERNIE Bot等。
从所有模型在六大类科目的平均分来看,GPT-4取得最高分,比最低分高出分。
受测模型在其他学科的表现详见评测地址:
/
未来,甲骨易AI研究院将矢志不移地为提升中文大语言模型能力为目标,持续研究适应其发展的测试集,期待与同样关注大语言模型发展的业界同仁携手共建。
论文链接:/abs/
标签:
- 加快虚拟仿真实训基地建设 启动职业学校信息化建设试点很必要
- “双减”后如何在满足学生多样需求方面做“加法”?
- 处于生理活跃期且心理发展不成熟 高校开设公共卫生必修课很必要
- 价格低于相应蔬菜零售价 西安投放约1万吨政府储备蔬菜
- 深受年轻消费群体所青睐 国潮风商品成为年货新选择
知识
- 他把银行卡卖给骗子,“黑吃黑”“截胡”十万元
- “老司机”4S店试驾豪车 结果油门当刹车撞了
- 新开工改造城镇老旧小区5.34万个
- 发动巡河志愿者2万余名 “用心护好每一条河”
- 假客服的套路:伪装成大平台客服,层层布局引人上钩
人物
- 浙江两轮核酸检测结果均为阴性 无新增本土阳性感染者
- 新疆阿克苏地区库车市发生4.1级地震 震源深度18千米
- 抵返哈尔滨人员须持48小时内核酸检测阴性证明
- 浙大紫金港校区已解封 有7337人有序离开该校区
- 2021年广东省第七届风筝锦标赛落幕
- 黑龙江讷河市启动全员核酸检测 目前讷河市全员核酸检测结果均为阴性
- 【同心粤港澳 携手大湾区】南头古城,搭建深港澳三地文化创意活动交流平台
- 重庆入河排污口整治工作推进至全市26个区县
- 四川省第二批政法队伍教育整顿:立案审查调查省级政法机关干警58人
- 长三角区域生态环境部门“云签约”长江大保护倡议书
- 古老长城重焕新生机
- 藏不住了!你同事里有许多“武林高手”……
- 浙江杭州2例无症状感染者系感染德尔塔变异株
- 喜马拉雅的深情和誓言
- 浪漫之城打造山海城一体新地标
- 让老年人更适应数字生活
- 内蒙古通辽市新增1例本土确诊病例、1例无症状感染者
- 徐州无新增确诊病例 核酸检测55515人结果均为阴性
- 甘肃培树“农家巧娘”增技能:返乡创业掌勺又“掌柜”
- 内蒙古通辽市科尔沁区一地调整为中风险地区
- 上海本轮疫情涉及闭环管理的医疗机构全面恢复门急诊
- 青年学生成艾滋病感染高发人群 “社会疫苗”如何打?
- 内蒙古满洲里新增本土确诊病例1例 当地开展第二轮大规模核酸检测
- 江西无新增本土确诊病例 上饶全面恢复正常生产生活秩序
- 中老铁路上会四国语言的列车长:用心维护中老友谊的桥梁
- 海南首次发现有环志的世界极危鸟种勺嘴鹬
- 一场“网络劝生者”和“网络劝死者”的战役
- 内蒙古通辽新增本土确诊和无症状感染者各1例 轨迹公布
- 江西中烟工业有限责任公司原总经理姚庆艳接受审查调查
- 宁夏45例新冠肺炎确诊病例均已治愈出院
- 内蒙古通辽市科尔沁区发现2名初筛阳性人员
- 生活在闹钟里的丈夫:自己迟一秒,渐冻症妻子就会多一分疼
- 辽宁新冠肺炎确诊病例零新增
- 11月28日16-24时,内蒙古新增本土确诊病例1例
- 奥密克戎毒株为何“需要关注”?现有防疫工具还有效吗?
- 黑龙江新增本土无症状感染者1例
- 这辈子一定要去趟这个公园 在这里“有种爱叫放手”
- 那年今日 | 一张漫画涨知识之11月29日
- 寒潮预警!我国中东部迎大范围降温 黑龙江等地降幅可达12℃
- 冷空气继续影响我国中东部 华北黄淮等地有雾和霾天气