asc.language.basic.mmad_with_sparse

asc.language.basic.mmad_with_sparse(dst: LocalTensor, fm: LocalTensor, filter: LocalTensor, mmad_params: MmadParams) None

完成矩阵乘加操作,传入的左矩阵A为稀疏矩阵, 右矩阵B为稠密矩阵 。 对于矩阵A,在mmad_with_sparse计算时完成稠密化; 对于矩阵B,在计算执行前的输入数据准备时自行完成稠密化(按照下文中介绍的稠密算法进行稠密化), 所以输入本接口的B矩阵为稠密矩阵。B稠密矩阵需要通过调用load_data_with_sparse载入,同时加载索引矩阵, 索引矩阵在矩阵B稠密化的过程中生成,再用于A矩阵的稠密化。

对应的Ascend C函数原型

template <typename T = int32_t, typename U = int8_t, typename Std::enable_if<Std::is_same<PrimT<T>, int32_t>::value, bool>::type = true, typename Std::enable_if<Std::is_same<PrimT<U>, int8_t>::value, bool>::type = true>
__aicore__ inline void MmadWithSparse(const LocalTensor<T>& dst, const LocalTensor<U>& fm, const LocalTensor<U>& filter, const MmadParams& mmadParams)

参数说明

  • dst:输出,目的操作数,结果矩阵,类型为LocalTensor,支持的TPosition为CO1。起始地址需要256个元素(1024字节)对齐。

  • fm:输入,源操作数,左矩阵A,类型为LocalTensor,支持的TPosition为A2。LocalTensor的起始地址需要512字节对齐。

  • filter:输入,源操作数,右矩阵B,类型为LocalTensor,支持的TPosition为B2。LocalTensor的起始地址需要512字节对齐。

  • mmad_params:输入,矩阵乘相关参数,类型为MmadParams。

    • m:左矩阵Height,取值范围:m∈[0, 4095] 。默认值为0。

    • n:右矩阵Width,取值范围:n∈[0, 4095] 。默认值为0。

    • k:左矩阵Width、右矩阵Height,取值范围:k∈[0, 4095] 。默认值为0。

    • cmatrix_init_val:配置C矩阵初始值是否为0。默认值true。

      • true:C矩阵初始值为0;

      • false:C矩阵初始值通过cmatrix_source参数进行配置。

    • cmatrix_source:配置C矩阵初始值是否来源于C2(存放Bias的硬件缓存区)。默认值为false。

      • false:来源于CO1;

      • true:来源于C2。

    • is_bias:该参数废弃,新开发内容不要使用该参数。如果需要累加初始矩阵,请使用带bias的接口来实现;也可以通过cmatrix_init_val和cmatrix_source参数配置C矩阵的初始值来源来实现。推荐使用带bias的接口,相比于配置cmatrix_init_val和cmatrix_source参数更加简单方便。配置是否需要累加初始矩阵,默认值为false,取值说明如下:

      • false:矩阵乘,无需累加初始矩阵,C = A * B。

      • true:矩阵乘加,需要累加初始矩阵,C += A * B。

    • fm_offset:预留参数。为后续的功能做保留,开发者暂时无需关注,使用默认值即可。

    • en_ssparse:预留参数。

    • en_winograd_a:预留参数。

    • en_winograd_b:预留参数。

    • unit_flag:预留参数。

    • k_direction_align:预留参数。

约束说明

  • 原始稀疏矩阵B每4个元素中应保证最多2个非零元素,如果存在3个或更多非零元素,则仅使用前2个非零元素。

  • 当M、K、N中的任意一个值为0时,该指令不会被执行。

  • 操作数地址对齐要求请参见 《Ascend C算子开发接口》 中的“通用说明和约束-通用地址对齐约束”。

调用示例

import asc
dst = asc.LocalTensor(dtype=asc.int32, pos=asc.TPosition.CO1, addr=0, tile_size=400)
fm = asc.LocalTensor(dtype=asc.int8, pos=asc.TPosition.A2, addr=0, tile_size=400)
filter = asc.LocalTensor(dtype=asc.int8, pos=asc.TPosition.B2, addr=0, tile_size=400)
mmad_params = asc.MmadParams(
    m=20,
    n=20,
    k=20,
    is_bias=False,
    fm_offset=0,
    en_ssparse=False,
    en_winograd_a=False,
    en_winograd_b=False
)
asc.mmad_with_sparse(dst, fm, filter, mmad_params)