60行代码就能构建GPT网友：比之前的教程都要清晰

　　谁会是中国的◆■◆“ChatGPT★■■◆”？最有竞争力和潜力的AIGC力量位于何方？

　　按照惯例，在正式构建GPT之前得先对它做一些基本介绍，教程从输入/输出、生成文本以及训练三个部分分别来讲GPT是如何工作的。

　　目前，此项目在GitHub上标星已破百，HackerNews上的点击量也即将破千◆◆■■◆。

　　Jay Mody，目前在加拿大一家NLP初创公司Cohere从事机器学习的工作，此前■◆◆★，他还分别在特斯拉和亚马逊作为软件工程师实习过一段时间■◆。

　　原标题★★■■■：《60行代码就能构建GPT■★★■◆！网友：比之前的教程都要清晰｜附代码》

　　这篇介绍GPT模型的文章太好了，它比我之前看到的介绍都要清晰，至少在第一部分讨论文本生成和取样是这样的■★。

　　这一趴涉及到的知识就更加基础了，因为下一趴是实际GPT自身的架构◆◆★■◆，所以在此之前，需要了解一些非特定于GPT的更基本的神经网络层★◆★★■。

　　在每次迭代中，它会将预测的token追加回输入，这个预测未来值并将其添加回输入的过程就是GPT被描述为自动回归的原因。

　　这部分将全部的代码组合在一起，就得到了gpt2.py◆★■，统共有120行代码★★★■，删除注释和空格的线行★★■★◆★。

　　等到代码能够运行之后，下一步博主就准备详细介绍编码器◆■★、超参数（hparams）以及参数（params）这三部分了。

　　GPT的架构只使用了transformer中的解码器堆栈（即图表的右边部分），并且其中的的“交叉注意◆■★★”层也没有用到。

　　不过和此前minGPT和nanoGPT的教程不同，今天要讲的这个博主的教程，更侧重于代码实现部分，模型的权重则用已经训练好的。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布◆■■，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台★◆★■◆■。申请澎湃号请用电脑访问。

　　对此，博主解释称这篇教程的重点在于提供一个简单且易于破解的完整技术介绍。

　　了解完GPT的基本概念之后，就直接快进到了如何在电脑上运行这个PicoGPT。

　　在介绍之前■★■，还是需要说明一下，这篇教程不是完全零门槛，需要读者提前熟悉Python、NumPy以及一些基本的训练神经网络。

　　，在输入这一部分◆■★★◆，作者将句子比作一条绳子◆■★◆★，tokenizer则会将其分割成一小段一小段（单词），被称作token。

　　想当初，前特斯拉前AI总监的minGPT和nanoGPT也都还要300行代码■★。

　　量子位《中国AIGC产业全景报暨AIGC 50》正式启动对外征集，期待有更多优秀的机构、产品、案例与技术能够被大众看到。

　　终于■■★■◆★！这部分要来讲GPT自身的架构了■★★◆★，博主从transformer的架构引入。