阅读背景:

AI 的测试:模型的基准测试

来源:互联网 
模型的基准测试

在评估一个模型的时候,仅通过ROUGE、BLEU SCORE评价模型还是太单薄了,并不能全面的反馈模型的能力。在相完整评估一个模型的能力的时候,最重要的是提供一套有效的评估模型。现在常见的模型的基准测试有 GLUE、SuperGLUE、HELM、MMLU等等。在评估一个模型的时候,仅通过ROUGE、BLEU SCORE评价模型还是太单薄了,




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: