asc.language.basic.mmad_with_sparse

asc.language.basic.mmad_with_sparse(dst: LocalTensor, fm: LocalTensor, filter: LocalTensor, mmad_params: MmadParams) → None

完成矩阵乘加操作，传入的左矩阵A为稀疏矩阵，右矩阵B为稠密矩阵。对于矩阵A，在mmad_with_sparse计算时完成稠密化；对于矩阵B，在计算执行前的输入数据准备时自行完成稠密化（按照下文中介绍的稠密算法进行稠密化），所以输入本接口的B矩阵为稠密矩阵。B稠密矩阵需要通过调用load_data_with_sparse载入，同时加载索引矩阵，索引矩阵在矩阵B稠密化的过程中生成，再用于A矩阵的稠密化。

对应的Ascend C函数原型

template <typename T = int32_t, typename U = int8_t, typename Std::enable_if<Std::is_same<PrimT<T>, int32_t>::value, bool>::type = true, typename Std::enable_if<Std::is_same<PrimT<U>, int8_t>::value, bool>::type = true>
__aicore__ inline void MmadWithSparse(const LocalTensor<T>& dst, const LocalTensor<U>& fm, const LocalTensor<U>& filter, const MmadParams& mmadParams)

参数说明

dst：输出，目的操作数，结果矩阵，类型为LocalTensor，支持的TPosition为CO1。起始地址需要256个元素（1024字节）对齐。
fm：输入，源操作数，左矩阵A，类型为LocalTensor，支持的TPosition为A2。LocalTensor的起始地址需要512字节对齐。
filter：输入，源操作数，右矩阵B，类型为LocalTensor，支持的TPosition为B2。LocalTensor的起始地址需要512字节对齐。
mmad_params：输入，矩阵乘相关参数，类型为MmadParams。
- m：左矩阵Height，取值范围：m∈[0, 4095] 。默认值为0。
- n：右矩阵Width，取值范围：n∈[0, 4095] 。默认值为0。
- k：左矩阵Width、右矩阵Height，取值范围：k∈[0, 4095] 。默认值为0。
- cmatrix_init_val：配置C矩阵初始值是否为0。默认值true。
  - true：C矩阵初始值为0；
  - false：C矩阵初始值通过cmatrix_source参数进行配置。
- cmatrix_source：配置C矩阵初始值是否来源于C2（存放Bias的硬件缓存区）。默认值为false。
  - false：来源于CO1；
  - true：来源于C2。
- is_bias：该参数废弃，新开发内容不要使用该参数。如果需要累加初始矩阵，请使用带bias的接口来实现；也可以通过cmatrix_init_val和cmatrix_source参数配置C矩阵的初始值来源来实现。推荐使用带bias的接口，相比于配置cmatrix_init_val和cmatrix_source参数更加简单方便。配置是否需要累加初始矩阵，默认值为false，取值说明如下：
  - false：矩阵乘，无需累加初始矩阵，C = A * B。
  - true：矩阵乘加，需要累加初始矩阵，C += A * B。
- fm_offset：预留参数。为后续的功能做保留，开发者暂时无需关注，使用默认值即可。
- en_ssparse：预留参数。
- en_winograd_a：预留参数。
- en_winograd_b：预留参数。
- unit_flag：预留参数。
- k_direction_align：预留参数。

约束说明

原始稀疏矩阵B每4个元素中应保证最多2个非零元素，如果存在3个或更多非零元素，则仅使用前2个非零元素。
当M、K、N中的任意一个值为0时，该指令不会被执行。
操作数地址对齐要求请参见《Ascend C算子开发接口》中的“通用说明和约束-通用地址对齐约束”。

调用示例

import asc
dst = asc.LocalTensor(dtype=asc.int32, pos=asc.TPosition.CO1, addr=0, tile_size=400)
fm = asc.LocalTensor(dtype=asc.int8, pos=asc.TPosition.A2, addr=0, tile_size=400)
filter = asc.LocalTensor(dtype=asc.int8, pos=asc.TPosition.B2, addr=0, tile_size=400)
mmad_params = asc.MmadParams(
    m=20,
    n=20,
    k=20,
    is_bias=False,
    fm_offset=0,
    en_ssparse=False,
    en_winograd_a=False,
    en_winograd_b=False
)
asc.mmad_with_sparse(dst, fm, filter, mmad_params)