Llama也中招,混合精度下位置编码竟有大坑,百川智能给出修复妄想
位置编码技术是中招置编一种可能让神经收集建模句子中 Token 位信托息的技术 。在 Transformer 大行其道的混合时期 ,由于 Attention 妄想无奈建模每一个 token 的精度位信托息 ,位置编码(Position embedding) 成为 Transformer 颇为紧张的下位想一个组件。钻研职员也提出了林林总总的码竟位置编码妄想来让收集建模位信托息,Rope 以及 Alibi 是坑百当初最被普遍接管的两种位置编码妄想 。
可是川智出修最近来自百川智能的钻研发现,Rope 以及 alibi 位置编码的复妄主流实如今低精度(特意是 bfloat16) 下存在位置编码碰撞的 bug, 这可能会影响模子的磨炼以及推理