


论文略读:RegMix: Data Mixture as Regression for Language Model Pre-training
RegMix 首先在多种数据混合上训练大量小模型,通过回归模型预测未见数据混合的性能,最后将预测效果最好的混合比例。上训练,用于拟合回归模型并预测最佳混合策略。随后,我们使用该预测的最佳混合比例训练了一个。(即模型大小扩大 1000 倍,训练数据量扩大 25 倍)。大型语言模型(LLM)的预训练数据混合比例对模型性能有显著影响,但。,因此需要 RegMix 这样的自动方法;,以此实现计算资源的大规模放大利用。更进一步,RegMix 在最多。不同领域之间的交互十分复杂,在实证验证中,我们训练了。