>- 做问题一的时候总觉得少点什么,原来是缺了这一节课没有听,所以grid啥的知识点不明白。 ![[Pasted image 20260510200059.png|800]] - SM/SMP(
这一个版面主要回答的问题是 *一个kernel的多个block是怎么在SM内和SM间怎么调度的;限制一个SM上同时执行多少个block的因素是哪三个?* 我觉得我还需要知道triton整体的这个发射到
针对问题1之前的错误,由于理解有误,之前书写的实际上是纵向融合。题目中提到*三个算子串行执行时,算子1和算子2各自都只能用到GPU的一小部分算力,但它们仍然各自占用一次kernel launch和一次
>https://hao-ai-lab.github.io/cse234-w25/ >karpathy/nanoGPT: The simplest, fastest repository
- 参考资料 - pp018 Punica - 论文精读学习笔记 - 剖析GPT推断中的批处理效应 设计了一个CUDA内核,叫做分段聚合矩阵向量乘法(SGMV) 假设`W`的形状为`[
这个任务可以这么理解,这个矩阵乘法相加也就是LoRA的思想,下图是GPT-5.4给我的解释。 ![[Pasted image 20260506205930.png|500]] 然后再对应看一下下面这个