胡言乱语
01:08 · 2023年4月13日 · 周四
DeepMind 写的一篇论文:
Formal Algorithms for Transformers
,试图用精确的数学概念和伪代码算法来解释所有 Transformer 类的机器学习算法和训练算法,其中以 OpenAI 的 GPT3 和 DeepMind 自己的 Gopher 为例
用一句话总结大致就是: 以词汇表为集合空间的 token 序列概率分布预测矩阵叠加注意力 musk 的向量计算,其中还会用到稀疏结构
Home
Powered by
BroadcastChannel
&
Sepia