评估日本医疗执照考试的GPT-4和ChatGPT

744次阅读
没有评论

Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations

Jungo Kasai, Yuhei Kasai, Keisuke Sakaguchi, Yutaro Yamada, Dragomir Radev

[University of Washington&Sapporo Cardiovascular Clinic &Tohoku University &Yale University]

  • 随着大型语言模型(LLMs)在不同语言使用者中的普及,我们认为对它们进行基准测试是至关重要的,以便更好地了解模型在英语以外的语言中的行为、失败和限制。
  • 在这项工作中,我们在过去五年的日本国家医疗执照考试中评估了LLM APIs(ChatGPT、GPT-3和GPT-4)。我们的团队包括以日语为母语的NLP研究人员和一位在日本执业的心脏病专家。我们的实验表明,GPT-4优于ChatGPT和GPT-3,并通过了所有五年的考试,突出了LLM在一种类型学上与英语相距甚远的语言中的潜力。然而,我们的评估也暴露了目前LLM APIs的关键限制。
  • 首先,LLMs有时会选择在日本的医疗实践中应该严格避免的违禁选择,例如建议安乐死。此外,我们的分析表明,由于目前在管道中对非拉丁文字进行标记的方式,API的成本通常较高,而日语的最大上下文大小较小。我们将我们的基准作为Igaku QA以及所有模型输出和考试元数据发布。我们希望我们的结果和基准能够促进LLMs更多样化的应用进展。

我们的基准可以在这个https://github.com/jungokasai/IgakuQA上找到。

https://arxiv.org/pdf/2303.18027.pdf

评估日本医疗执照考试的GPT-4和ChatGPT

评估日本医疗执照考试的GPT-4和ChatGPT

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy