asc.language.basic.duplicate

asc.language.basic.duplicate(dst: LocalTensor, scalar: int | float, count: int) None
asc.language.basic.duplicate(dst: LocalTensor, scalar: int | float, mask: int, repeat_times: int, dst_block_stride: int, dst_repeat_stride: int, is_set_mask: bool = True) None
asc.language.basic.duplicate(dst: LocalTensor, scalar: int | float, mask: List[int], repeat_times: int, dst_block_stride: int, dst_repeat_stride: int, is_set_mask: bool = True) None

将一个变量或立即数复制多次并填充到向量中。

对应的Ascend C函数原型

template <typename T>
void Duplicate(const LocalTensor<T>& dst, const T& scalarValue, const int32_t& count)

template <typename T, bool isSetMask = true>
void Duplicate(const LocalTensor<T>& dst, const T& scalarValue, uint64_t mask[], const uint8_t repeatTime, const uint16_t dstBlockStride, const uint8_t dstRepeatStride)

template <typename T, bool isSetMask = true>
void Duplicate(const LocalTensor<T>& dst, const T& scalarValue, uint64_t mask, const uint8_t repeatTime, const uint16_t dstBlockStride, const uint8_t dstRepeatStride)

参数说明

  • dst:目的操作数。

  • scalar:被复制的源操作数,支持输入变量和立即数,数据类型需与dst中元素的数据类型保持一致。

  • count:参与计算的元素个数。

  • mask:mask用于控制每次迭代内参与计算的元素。

  • repeat_time:矢量计算单元,每次读取连续的8个datablock(每个block32Bytes,共256Bytes)数据进行计算,为完成对输入数据的处理,必须通过多次迭代(repeat)才能完成所有数据的读取与计算。repeat_time表示迭代的次数。

  • dst_block_stride:单次迭代内,矢量目的操作数不同datablock间地址步长。

  • dst_repeat_stride:相邻迭代间,矢量目的操作数相同datablock地址步长。

约束说明

调用示例

  • tensor高维切分计算样例-mask连续模式

    mask = 128
    scalar = 18.0
    asc.duplicate(dst_local, scalar, mask=mask, repeat_times=2, dst_block_stride=1, dst_repeat_stride=8)
    
  • tensor高维切分计算样例-mask逐bit模式

    mask = [uint64_max, uint64_max]
    scalar = 18.0
    asc.duplicate(dst_local, scalar, mask=mask, repeat_times=2, dst_block_stride=1, dst_repeat_stride=8)
    
  • tensor前n个数据计算样例,源操作数为标量

    scalar = 18.0
    asc.duplicate(dst_local, scalar, count=src_data_size)