据新浪科技报道,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。OpenCompass发布了首个大模型高考全卷评测结果。
语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAl的GPT-4o排名第二,得分296分,上海人工智能实验室的书生浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。
从结果来看,大模型的语文、英语考试水平普遍不错但数学都不及格,最高分也只有75分。
动作格斗
64.7MB
休闲益智
41MB
15.1MB
98.4MB
模拟经营
125MB
63.1MB
游戏辅助 | 4.5GB
2024-04-24
动作格斗 | 20GB
2024-04-23
角色扮演 | 3.2GB
2024-04-22
角色扮演 | 500MB
休闲益智 | 30.17MB
2024-04-18
生活服务 | 144.35MB
学习教育 | 24.26MB
2023-11-08
系统工具 | 6.78MB
游戏辅助 | 4.5GB
动作格斗 | 20GB
休闲益智 | 35.93MB
卡牌策略 | 19.6MB
动作格斗 | 98.31MB
角色扮演 | 372.08MB
卡牌策略 | 78.64MB
休闲益智 | 150.45MB
休闲益智 | 114MB
AI高考数学全不及格 语数英最高分303
据新浪科技报道,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。OpenCompass发布了首个大模型高考全卷评测结果。
语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAl的GPT-4o排名第二,得分296分,上海人工智能实验室的书生浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。
从结果来看,大模型的语文、英语考试水平普遍不错但数学都不及格,最高分也只有75分。
动作格斗
64.7MB
休闲益智
41MB
休闲益智
15.1MB
动作格斗
98.4MB
模拟经营
125MB
休闲益智
63.1MB
游戏辅助 | 4.5GB
2024-04-24
动作格斗 | 20GB
2024-04-23
角色扮演 | 3.2GB
2024-04-22
角色扮演 | 500MB
2024-04-22
休闲益智 | 30.17MB
2024-04-18
生活服务 | 144.35MB
2024-04-18
生活服务 | 144.35MB
2024-04-18
生活服务 | 144.35MB
2024-04-18
学习教育 | 24.26MB
2023-11-08
系统工具 | 6.78MB
2023-11-08
游戏辅助 | 4.5GB
动作格斗 | 20GB
休闲益智 | 35.93MB
卡牌策略 | 19.6MB
动作格斗 | 98.31MB
角色扮演 | 372.08MB
卡牌策略 | 78.64MB
休闲益智 | 150.45MB
休闲益智 | 114MB