我在大模型推理优化方向已有完整的加速方案,主要针对Attention机制的显存瓶颈和计算冗余,理论加速比已通过数学推导证明,目前卡在工程落地环节。希望寻找熟悉CUDA编程、Triton或FlashAttention实现细节的同学共同推进。我这边提供多卡A100实验环境、完整的PyTorch推理框架和工业级测试基准,无需大家准备任何基础资源。理论推导与论文撰写由我负责,你只需专注于kernel优化和实验调优。 合作贡献按实际工作量分配,承诺一作或共一,我有高校合作资源,可提供申博内推。 希望你代码能力强、做事靠谱,对榨干硬件性能有执念。 #大模型推理 #CUDA #FlashAttention #系统优化 #科研合作