?DeepSeek在开源周的第一天推出了加速推理的基础设置FlashMLA。DeepSeek针对Hopper GPU优化了高
?DeepSeek在开源周的第一天推出了加速推理的基础设置FlashMLA。DeepSeek针对Hopper GPU优化了高效的MLA解码内核,支持变长序列,并且已经投入生产使用。
✅ 支持BF16 ✅ 分页KV缓存(块大小64) ⚡ 在H800上实现3000 GB/s的内存带宽和580 TFLOPS的计算性能!
快速开始克隆项目代码语言:javascript代码运行次数:0运行复制```javascriptgit clone https://www.php.cn/link/3dc20e2ac60a2551a4d3f08b03377def
安装代码语言:javascript代码运行次数:0运行复制```javascriptpython setup.py install登录后复制
测试代码语言:javascript代码运行次数:0运行复制```javascriptpython tests/test_flash_mla.py
在H800 SXM5上,使用CUDA 12.6,在受内存限制的配置下可实现高达3000 GB/s的带宽,在受计算限制的配置下可达到580 TFLOPS的计算性能。登录后复制使用代码语言:javascript代码运行次数:0运行复制javascript from flash_mla import get_mla_metadata, flash_mla_with_kvcachetile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)for i in range(num_layers): ... o_i, lse_i = flash_mla_with_kvcache( q_i, kvcache_i, block_table, cache_seqlens, dv, tile_scheduler_metadata, num_splits, causal=True, ) ...
最低要求代码语言:javascript代码运行次数:0运行复制javascriptHopper GPUsCUDA 12.3 and abovePyTorch 2.0 and above
登录后复制菜鸟下载发布此文仅为传递信息,不代表菜鸟下载认同其观点或证实其描述。
版权投诉请发邮件到 cn486com#outlook.com (把#改成@),我们会尽快处理
Copyright © 2019-2020 菜鸟下载(www.cn486.com).All Reserved | 备案号:湘ICP备2022003375号-1
本站资源均收集整理于互联网,其著作权归原作者所有,如有侵犯你的版权,请来信告知,我们将及时下架删除相应资源