上海交大发布大模型双语编程评估基准 CodeApex|加密货币三大交易所

据机器之心报道，上海交通大学 APEX 实验室推出了 CodeApex，一个专注于评估 LLMs 的编程理解和代码生成能力的双语基准数据集。

在评估大语言模型的编程理解能力上，CodeApex 设计了三种类型的选择题：概念理解、常识推理和多跳推理。此外，CodeApex 也利用算法问题和相应的测试用例来评估 LLMs 的代码生成能力。CodeApex 总共评估了 14 个大语言模型在代码任务上的能力。其中 GPT3.5-turbo 表现出最好的编程能力，在这两个任务上分别实现了大约 50% 和 56% 的精度。可以看到，大语言模型在编程任务上仍有很大的改进空间。

原文链接

加密货币三大交易所

币界新闻

上海交大发布大模型双语编程评估基准 CodeApex

相关新闻

比特币L2项目rif宣布USDRIF已经升级至V2.0并在主网上线

以太坊L2 Taiko现已开放了TAIKO的空投申领页面

a16z：Web3项目能够实现产品市场契合度的5种策略

Web3安全公司GoPlus完成了1000万美元私募轮融资

00后大学生因发币被判诈骗：虚拟货币撤流动性导致亏损是否构成诈骗？

以ESG为重点的启动板：ChangeX 2.0如何应对可持续发展挑战