Loading...

C-Eval:一个适用于大语言模型的多层次多学科中文评估套件,可以评估模型在不同领域和任务上的性能,并提供结果提交功能

AI大模型2个月前发布 阿强
20 0

C-Eval是一个适用于大语言的多层次多学科中文评估套件,旨在提供一个全面的评估框架,以评估中文语言模型在不同领域和任务上的性能。

C-Eval有哪些功能?

1. 多层次评估:C-Eval提供了多个层次的评估指标,包括整体评估、领域评估和任务评估,可以全面评估模型在不同层次上的表现。

2. 多学科评估:C-Eval涵盖了STEM(科学、技术、工程和数学)、社会科学、人文科学和其他领域的评估指标,可以评估模型在不同学科上的表现。

3. 结果提交:用户可以通过C-Eval的结果提交功能,提交模型的预测结果进行评估,并获得相应的评估分数。

应用场景:

C-Eval适用于评估中文语言模型在各种任务和领域上的性能,包括但不限于文本生成、问答系统、对话系统等。

C-Eval:https://cevalbenchmark.com/static/leaderboard_zh.html

C-Eval:一个适用于大语言模型的多层次多学科中文评估套件,可以评估模型在不同领域和任务上的性能,并提供结果提交功能插图
    © 版权声明

    相关文章

    暂无评论

    暂无评论...