本文提出了一种基于语言模型的文本到文本回归方法,旨在解决所有数值预测问题。传统上,大型语言模型(LLMs)通过学习人类偏好和评分来提升性能,这一过程依赖奖励模型对提示和响应进行评估,从而指导模型训练。尽管这种方法在提升生成文本的质量方面效果显著,但其依赖主观反馈的特性限制了其应用范围。本文探索了另一种路径,即利用原始、多样的操作数据,将观察到的数值结果作为奖励信号,使模型能够进行回归预测。这种方法有望用于预测软件基础设施性能、工业流程效率或科学实验结果,为LLMs在实际场景中的应用开辟新方向。
本专栏通过快照技术转载,仅保留核心内容
内容中包含的图片若涉及版权问题,请及时与我们联系删除