体验完整Gemini

Google官网体验Gemini

Evals —— OpenAI 模型评估框架

2,940次阅读

没有评论

Evals 是一个评估 OpenAI 模型的框架和一个开源的基准测试注册表，你可以使用 Evals 来创建和运行评估：

使用数据集来生成提示信息
衡量 OpenAI 模型所提供的完成度的质量
比较不同数据集和模型的性能

Evals 的目标是使建立一个评估尽可能简单，同时编写尽可能少的代码。要开始使用，建议你依次按照以下步骤进行：

通读本文档，并遵循下面的设置说明。
了解如何运行现有的评价：run-evals.md
熟悉现有的评估模板：eval-templates.md
了解构建评估的过程：build-eval.md
看一个实现自定义评价逻辑的例子：custom-eval.md。

设置

要运行评估，需要设置并指定您的 OpenAI API 密钥。获取 API 密钥后，使用 OPENAI_API_KEY环境变量指定它。

下载评估

Evals 注册表使用 Git-LFS 存储，下载并安装 LFS 后，可以通过以下方式获取评估：

git lfs fetch –all
git lfs pull

你可能只想为选择的评估获取数据，则可以通过以下方式实现：

git lfs fetch –include=evals/registry/data/${your eval}
git lfs pull

进行评估

如果您要创建评估，建议直接从 GitHub 克隆此仓库并使用以下命令安装要求：

pip install -e .

使用 -e，对 eval 所做的更改将立即反映出来，而无需重新安装。

正文完

可以使用微信扫码关注公众号（ID：xzluomor）

AI AR HTML OpenAI RSS 开源

发表至：技术

2023年4月6日

我在马斯克母亲这组肖像大片里，看到手机人像摄影的文艺复兴

字节迈出大模型赛道第一步；TikTok 将在美推出在线零售商店；菜鸟推出自营快递「菜鸟速递」

灵动 AI 推出业内首个工业级“AI商品图”生成工具，并获小米联合创始人黎万强天使投资

试驾实测吉利银河 L7 纯电续航和亏电油耗，真的全域不失速？

【钛晨报】中国网络视听用户达10亿，成第一大互联网应用；小米集团回应：余承东将赴小米汽车任职消息不实；消息称加拿大就数据安全问题开始调查OpenAI公司

Gitee 推荐 | 大数据任务诊断平台罗盘

评论（没有评论）

2023 年 4 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

文心AIGC

人工智能ChatGPT，AIGC指利用人工智能技术来生成内容，其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向，近几年迭代速度呈现指数级爆发，谷歌、Meta、百度等平台型巨头持续布局

文章搜索

最新评论

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

经典留声机

经典流行从来都不冲突

在这里，听见你曾经的故事

新浪微博：主播小D

小红书：小D就是我

抖音号：52915017

Search Episodes

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

2025年6月30日

主播小D

你一定听过这些经典合唱–第一篇

2025年1月20日

主播小D

缅怀一代歌王罗文的经典之声–第二篇

2024年12月30日

主播小D

缅怀一代歌王罗文的经典之声–第一篇

2024年12月27日

主播小D

在这里，听琼瑶，岁月长歌–第二篇

2024年12月24日

主播小D

在这里，听琼瑶，岁月长歌–第一篇

2024年12月21日

主播小D

你总能在这些歌里找到你的回忆–第一百零三篇

2024年12月18日

主播小D

你总能在这些歌里找到你的回忆–第一百零四篇

2024年12月13日

主播小D

《这些歌都发行在2001年–第三篇》

2024年12月10日

主播小D

《这些歌都发行在2001年–第二篇》

2024年12月7日

主播小D

Search Results placeholder

2023 年 4 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30