Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations
Jungo Kasai, Yuhei Kasai, Keisuke Sakaguchi, Yutaro Yamada, Dragomir Radev
[University of Washington&Sapporo Cardiovascular Clinic &Tohoku University &Yale University]
- 随着大型语言模型(LLMs)在不同语言使用者中的普及,我们认为对它们进行基准测试是至关重要的,以便更好地了解模型在英语以外的语言中的行为、失败和限制。
- 在这项工作中,我们在过去五年的日本国家医疗执照考试中评估了LLM APIs(ChatGPT、GPT-3和GPT-4)。我们的团队包括以日语为母语的NLP研究人员和一位在日本执业的心脏病专家。我们的实验表明,GPT-4优于ChatGPT和GPT-3,并通过了所有五年的考试,突出了LLM在一种类型学上与英语相距甚远的语言中的潜力。然而,我们的评估也暴露了目前LLM APIs的关键限制。
- 首先,LLMs有时会选择在日本的医疗实践中应该严格避免的违禁选择,例如建议安乐死。此外,我们的分析表明,由于目前在管道中对非拉丁文字进行标记的方式,API的成本通常较高,而日语的最大上下文大小较小。我们将我们的基准作为Igaku QA以及所有模型输出和考试元数据发布。我们希望我们的结果和基准能够促进LLMs更多样化的应用进展。
我们的基准可以在这个https://github.com/jungokasai/IgakuQA上找到。
https://arxiv.org/pdf/2303.18027.pdf
正文完
可以使用微信扫码关注公众号(ID:xzluomor)