- formatting
- images
- links
- math
- code
- blockquotes
•
•
•
•
•
-
LLM 入门笔记-Tokenizer - marsggbo
以下笔记参考huggingface 官方 tutorial: https://huggingface.co/learn/nlp-course/chapter6 下图展示了完整的 tokenization 流程,接下来会对每个步骤做进一步的介绍。 1. Normalization normalize
-
在Megatron-Deepspeed项目中如何下载和预处理Wikipedia数据集 - marsggbo
更详细的查看 https://github.com/marsggbo/Megatron-DeepSpeed/blob/main/tutorials/gpt2_wikipedia.md 下载Wikipedia压缩数据集(enwiki-latest-pages-articles.xml.bz2) 再使用
-
大模型训练过程中用到的 gpt_merge.txt和gpt_vocab.json是干什么用的? - marsggbo
下面这边文章讲的非常清晰,原文链接:https://blog.csdn.net/ljp1919/article/details/113616226
-
transformer模型训练、推理过程分析 - marsggbo
复杂度分析 推理过程图示 Double QLORA示意图
-
【转载】CMake从头开始学习-上 - marsggbo
这篇文章写的太好了非常适合新手入门,原文链接是 https://subingwen.cn/cmake/CMake-primer/index.html ![image](https://img2023.cnblogs.com/blog/746820/202308/746820-202308261754