-
学习时长
8周/建议每周8个小时
-
答疑服务
专属微信答疑群/讲师助教均参与
- 第1章: CUDA C编程及GPU基本知识
- 1: 【课件】CUDA C编程及GPU基本知识
- 第1节: GPU基本架构及特点
- 免费 2: 【视频】CPU与GPU的基础知识
- 第2节: CUDA C编程基本知识
- 免费 3: 【视频】CUDA编程的重要概念
- 第3节: 并行计算向量相加
- 免费 4: 【视频】并行计算向量相加
- 第4节: 实践
- 5-1: 【代码】Demo I
- 免费 5-2: 【视频】实践向量相加
- 第2章: CUDA C编程:矩阵乘法
- 6: 【课件】CUDA C编程:矩阵乘法
- 第1节: 为什么矩阵乘法适合GPU实现
- 7: 【视频】为什么矩阵乘法适合GPU实现
- 第2节: 矩阵乘法的GPU基础实现
- 8: 【视频】矩阵算法GPU实现
- 第3节: 矩阵乘法GPU进阶实现
- 9: 【视频】矩阵乘法的GPU进阶实现
- 第4节: 代码实践
- 10-1: 【代码】L2 MatrixMultiple
- 10-2: 【视频】CUDA矩阵乘法实践
- 第5节: 作业题目
- 11: 【视频】作业题目
- 第3章: cuda stream 和 Event
- 12: 【课件】CUDA C编程:cuda stream and envet
- 第1节: CUDA Stream介绍
- 13: 【视频】CUDA Stream介绍
- 第2节: CUDA Stream为什么有效
- 14: 【视频】CUDA Stream为什么有效
- 第3节: CUDA Stream 默认流的表现
- 15: 【视频】CUDA Stream默认流的表现
- 第4节: CUDA Event
- 16: 【视频】CUDA Event
- 第5节: CUDA 同步操作
- 17: 【视频】CUDA 同步操作
- 第6节: NVVP工具演示
- 18: 【视频】NVVP
- 第4章: cuDNN与cuBLAS
- 19: 【资料】BERT学习资料
- 20: 【课件】CUDA C编程:卷积实现与cudnn、cublas
- 第1节: 课程回顾
- 21: 【视频】课程回顾
- 第2节: cuBLAS
- 22: 【视频】cuBLAS
- 第3节: cuDNN
- 23: 【视频】cuDNN
- 第4节: 实践
- 24: 【视频】实践卷积神经网络
- 第5章: TensorRT介绍
- 25: 【课件】TensorRT介绍
- 第1节: TensorRT是什么
- 26: 【视频】TensorRT是什么
- 第2节: TensorRT整体工作流程与优化策略
- 27: 【视频】TensorRT优化策略
- 第3节: TensorRT的组成与基本使用流程
- 28: 【视频】TensorRT使用的基本流程
- 第4节: TensorRT demo:SampleMNIST
- 29: 【视频】demo
- 第5节: TensorRT进阶
- 30: 【视频】TensorRT进阶
- 第6节: Demo演示
- 31: 【视频】Demo演示
- 第7节: 作业实践
- 第6章: TensorRT plugin用法
- 32: 【课件】TensorRT plugin用法
- 第1节: Plugin介绍
- 33: 【视频】plugin介绍
- 第2节: Static Shape Plugin
- 34: 【视频】Static Shape Plugin API & Demo
- 第3节: Dynamic Shape Plugin
- 35: 【视频】Dynamic Shape Plugin API & Demo
- 第4节: PluginCreator注册
- 36: 【视频】PluginCreator注册
- 第5节: 延伸:TensorRT如何debug
- 37: 【视频】Debug Plugin经验
- 第6节: 实践作业
- 38: 【代码】TensorRT-HW bert.
- 第7章: TensorRT量化加速
- 39-1: 【课件】TensorRT INT8量化加速(无标记版)
- 39-2: 【课件】TensorRT INT8量化加速
- 第1节: TRT FP16优化
- 40: 【视频】TRT FP16优化
- 第2节: TRT INT8量化算法
- 41-1: 【视频】TRT INT8量化算法(上)
- 41-2: 【视频】TensorRT INT8量化算法(下)
- 第3节: TRT大规模上线经验
- 42: 【视频】TRT大规模上线
- 第4节: 实践作业