智源 再看大模型长文本性能如何评估:金融领域FinLongEval及L-EVAL多任务评估数据构造 今天是2023年12月25日,星期一,2023年最后一周,北京,天气晴。 关于长文本评估,目前陆陆续续已经…
智源 李飞飞DeepMind全新「代码链」碾压CoT!大模型用Python代码推理,性能暴涨12% 新智元报道 编辑:桃子 【新智元导读】激发大模型解决复杂问题的重要技术之一CoT,如今要被颠覆了?…