- formatting
- images
- links
- math
- code
- blockquotes
•
•
•
•
•
-
Prompt-Tuning、P-Tuning和Prefix-Tuning区别和代码实现【转】 - marsggbo
原文:https://blog.csdn.net/weixin_43863869/article/details/134760405
-
Deepspeed ZeRO系列算法原理+通信开销详解 - marsggbo
原文: https://sumanthrh.com/post/distributed-and-efficient-finetuning/#zero-powered-data-parallelism
-
NSCC集群使用笔记 - marsggbo
1. 账号申请 如果是 NUS,NTU 或者 ASTAR 的学生,可以直接用自己的学校 ID 登录。登录不上的话可以发邮件联系 nscc 工作人员即可,基本上第二天就会回复解决。 2. VSCode 连接 账号申请下来后进官网设置你的 ssh key 之类的东西就可以登录了。第一次登录成功后,可以参
-
Huggingface Transformers实现张量并行的小坑 set/get_output_embeddings - marsggbo
transformers 库里实现的很多模型会有这么两个函数 get_output_embeddings和 get_output_embeddings。以 SwitchTransformer 为例 class SwitchTransformersForConditionalGeneration(Sw
-
Pytorch 如何使用 storage 实现参数 offload? - marsggbo
在深入探讨 PyTorch 中的 Storage 类以及其在参数 offload 场景中的应用之前,让我们首先了解一下 PyTorch 和它的基础组件。PyTorch 是一个广泛使用的开源机器学习库,它不仅提供了强大的计算图功能和自动梯度计算,还允许开发者直接操作底层数据结构,这其中就包括 Stor