add transpose, concat and split for native cpu (#158)

2023-10-12 10:14:28 +08:00 · 2023-10-12 10:14:28 +08:00 · 8e4d88fb9f
parent 36ae7b7fb6
commit 8e4d88fb9f
8 changed files with 236 additions and 1 deletions
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@ -267,6 +267,7 @@ if(BUILD_TEST)
  if(BUILD_TEST_CORE)
    build_test(test/core/*.cc)
    build_test(test/operators/*.cc)
    build_test(test/kernels/nativecpu/*.cc)
    if (USE_CUDA)
      build_test(test/kernels/cuda/*.cc)
      build_test(test/cuda/*.cc)
--- a/include/operators/transpose.h
+++ b/include/operators/transpose.h
@ -19,4 +19,4 @@ class TransposeObj : public OperatorObj {
    vector<int> getWorkloadVector() const override;
    vector<int> getOpAttrVector() const override;
 };
-}; // namespace infini
+} // namespace infini
--- a/src/kernels/cpu/concat.cc
+++ b/src/kernels/cpu/concat.cc
@ -0,0 +1,51 @@
 #include "operators/concat.h"
 #include "core/kernel.h"
 namespace infini {
 template <typename T> class NaiveConcat : public CpuKernelWithoutConfig {
    void compute(const Operator &_op,
                 const RuntimeObj *context) const override {
        auto op = as<ConcatObj>(_op);
        auto inputs = op->getInputs(), outputs = op->getOutputs();
        auto dim = op->getDim();
        auto output = outputs[0];
        std::vector<Shape> iDims;
        for (auto input : inputs)
            iDims.emplace_back(input->getDims());
        const auto &outDim = output->getDims();
        size_t blockOffsetInner = 1;
        for (size_t i = outDim.size() - 1; i > (size_t)dim; --i)
            blockOffsetInner *= outDim[i];
        size_t blockOffset = outDim[dim] * blockOffsetInner;
        for (size_t i = 0; i < inputs.size(); ++i) {
            auto input = inputs[i];
            auto dimOffset = 0;
            auto iDim = iDims[i];
            for (size_t j = 0; j < i; ++j)
                dimOffset += iDims[j][dim];
            size_t localBlockOffset = 1;
            for (size_t i = iDim.size() - 1;
                 i >= (size_t)dim && i != (size_t)-1; --i)
                localBlockOffset *= iDim[i];
            auto innerOffset = blockOffsetInner * dimOffset;
            auto inSize = input->size();
            auto inPtr = input->getRawDataPtr<T *>(),
                 outPtr = output->getRawDataPtr<T *>();
 #pragma omp parallel for
            for (size_t iOffset = 0; iOffset < inSize; ++iOffset) {
                auto oOffset = iOffset % localBlockOffset + innerOffset +
                               iOffset / localBlockOffset * blockOffset;
                // output->setData(oOffset, input->getData(iOffset));
                outPtr[oOffset] = inPtr[iOffset];
            }
        }
    }
 };
 REGISTER_KERNEL(Device::CPU, OpType::Concat, DataType::UInt32,
                NaiveConcat<uint32_t>, "ConcatNaive_CPU_uint32");
 REGISTER_KERNEL(Device::CPU, OpType::Concat, DataType::Float32,
                NaiveConcat<float>, "ConcatNaive_CPU_float32");
 } // namespace infini
--- a/src/kernels/cpu/split.cc
+++ b/src/kernels/cpu/split.cc
@ -0,0 +1,50 @@
 #include "operators/split.h"
 #include "core/kernel.h"
 namespace infini {
 template <typename T> class NaiveSplit : public CpuKernelWithoutConfig {
    void compute(const Operator &_op,
                 const RuntimeObj *context) const override {
        auto op = as<SplitObj>(_op);
        auto inputs = op->getInputs(), outputs = op->getOutputs();
        auto dim = op->getDim();
        auto input = inputs[0];
        const auto &inDim = input->getDims();
        std::vector<Shape> outDims;
        for (auto output : outputs)
            outDims.emplace_back(output->getDims());
        size_t blockOffsetInner = 1;
        for (size_t i = inDim.size() - 1; i > (size_t)dim; --i)
            blockOffsetInner *= inDim[i];
        size_t blockOffset = inDim[dim] * blockOffsetInner;
        for (size_t i = 0; i < outputs.size(); ++i) {
            auto output = outputs[i];
            auto dimOffset = 0;
            auto outDim = outDims[i];
            for (size_t j = 0; j < i; ++j)
                dimOffset += outDims[j][dim];
            size_t localBlockOffset = 1;
            for (size_t i = outDim.size() - 1;
                 i >= (size_t)dim && i != (size_t)-1; --i)
                localBlockOffset *= outDim[i];
            auto innerOffset = blockOffsetInner * dimOffset;
            auto outSize = output->size();
            auto inPtr = input->getRawDataPtr<T *>(),
                 outPtr = output->getRawDataPtr<T *>();
 #pragma omp parallel for
            for (size_t oOffset = 0; oOffset < outSize; ++oOffset) {
                auto iOffset = oOffset % localBlockOffset + innerOffset +
                               oOffset / localBlockOffset * blockOffset;
                outPtr[oOffset] = inPtr[iOffset];
            }
        }
    }
 };
 REGISTER_KERNEL(Device::CPU, OpType::Split, DataType::UInt32,
                NaiveSplit<uint32_t>, "SplitNaive_CPU_uint32");
 REGISTER_KERNEL(Device::CPU, OpType::Split, DataType::Float32,
                NaiveSplit<float>, "SplitNaive_CPU_float32");
 } // namespace infini
--- a/src/kernels/cpu/transpose.cc
+++ b/src/kernels/cpu/transpose.cc
@ -0,0 +1,45 @@
 #include "operators/transpose.h"
 #include "core/kernel.h"
 namespace infini {
 inline Shape idx2Pos(const Shape &shape, size_t idx) {
    Shape pos = Shape(shape.size(), 0);
    auto rest = idx, curDimId = shape.size() - 1;
    while (rest > 0) {
        pos[curDimId] = rest % shape[curDimId];
        rest /= shape[curDimId];
        curDimId--;
    }
    return pos;
 }
 template <typename T> class NaiveTranspose : public CpuKernelWithoutConfig {
    void compute(const Operator &_op,
                 const RuntimeObj *context) const override {
        auto op = as<TransposeObj>(_op);
        auto inputs = op->getInputs(), outputs = op->getOutputs();
        const auto &inDim = inputs[0]->getDims();
        const auto &perm = op->getPermute();
        size_t inSize = inputs[0]->size();
        auto inPtr = inputs[0]->getRawDataPtr<T *>(),
             outPtr = outputs[0]->getRawDataPtr<T *>();
        // #pragma omp parallel for
        for (size_t inIdx = 0; inIdx < inSize; ++inIdx) {
            auto posInput = idx2Pos(inDim, inIdx);
            int outIdx = 0;
            for (size_t j = 0, jEnd = perm.size(); j < jEnd; ++j) {
                outIdx = outIdx * inDim[perm[j]] + posInput[perm[j]];
            }
            outPtr[outIdx] = inPtr[inIdx];
        }
    }
 };
 REGISTER_KERNEL(Device::CPU, OpType::Transpose, DataType::UInt32,
                NaiveTranspose<uint32_t>, "TransposeNaive_CPU_uint32");
 REGISTER_KERNEL(Device::CPU, OpType::Transpose, DataType::Float32,
                NaiveTranspose<float>, "TransposeNaive_CPU_float32");
 } // namespace infini
--- a/test/kernels/nativecpu/test_nativecpu_concat.cc
+++ b/test/kernels/nativecpu/test_nativecpu_concat.cc
@ -0,0 +1,28 @@
 #include "core/graph.h"
 #include "core/runtime.h"
 #include "operators/concat.h"
 #include "test.h"
 namespace infini {
 TEST(Concat, NativeCpu) {
    Runtime runtime = NativeCpuRuntimeObj::getInstance();
    Graph g = make_ref<GraphObj>(runtime);
    auto t1 = g->addTensor({2, 2, 3, 1}, DataType::Float32);
    auto t2 = g->addTensor({2, 2, 1, 1}, DataType::Float32);
    auto t3 = g->addTensor({2, 2, 2, 1}, DataType::Float32);
    auto op = g->addOp<ConcatObj>(TensorVec{t1, t2, t3}, nullptr, 2);
    g->dataMalloc();
    t1->setData(IncrementalGenerator());
    t2->setData(OneGenerator());
    t3->setData(OneGenerator());
    runtime->run(g);
    EXPECT_TRUE(op->getOutput()->equalData(
        vector<float>{0, 1, 2, 1, 1, 1, 3, 4,  5,  1, 1, 1,
                      6, 7, 8, 1, 1, 1, 9, 10, 11, 1, 1, 1}));
 }
 } // namespace infini
--- a/test/kernels/nativecpu/test_nativecpu_split.cc
+++ b/test/kernels/nativecpu/test_nativecpu_split.cc
@ -0,0 +1,32 @@
 #include "core/graph.h"
 #include "core/runtime.h"
 #include "operators/split.h"
 #include "test.h"
 namespace infini {
 TEST(Split, NativeCpu) {
    Runtime runtime = NativeCpuRuntimeObj::getInstance();
    Graph g = make_ref<GraphObj>(runtime);
    auto input = g->addTensor({2, 10, 2, 1}, DataType::Float32);
    auto op = g->addOp<SplitObj>(input, std::nullopt, 1, 3);
    g->dataMalloc();
    input->setData(IncrementalGenerator());
    runtime->run(g);
    EXPECT_EQ(op->getOutputs().size(), (size_t)3);
    auto o0 = g->cloneTensor(op->getOutput(0));
    auto o1 = g->cloneTensor(op->getOutput(1));
    auto o2 = g->cloneTensor(op->getOutput(2));
    EXPECT_TRUE(
        o0->equalData(vector<float>{0, 1, 2, 3, 4, 5, 20, 21, 22, 23, 24, 25}));
    EXPECT_TRUE(o1->equalData(
        vector<float>{6, 7, 8, 9, 10, 11, 26, 27, 28, 29, 30, 31}));
    EXPECT_TRUE(o2->equalData(vector<float>{12, 13, 14, 15, 16, 17, 18, 19, 32,
                                            33, 34, 35, 36, 37, 38, 39}));
 }
 } // namespace infini
--- a/test/kernels/nativecpu/test_nativecpu_transpose.cc
+++ b/test/kernels/nativecpu/test_nativecpu_transpose.cc
@ -0,0 +1,28 @@
 #include "core/graph.h"
 #include "core/kernel.h"
 #include "core/runtime.h"
 #include "operators/transpose.h"
 #include "test.h"
 namespace infini {
 TEST(Transpose, NativeCpu) {
    Runtime runtime = NativeCpuRuntimeObj::getInstance();
    Graph g = make_ref<GraphObj>(runtime);
    Shape permute = {0, 2, 1, 3};
    auto input = g->addTensor({1, 2, 3, 4}, DataType::Float32);
    auto op = g->addOp<TransposeObj>(input, nullptr, permute);
    g->dataMalloc();
    input->setData(IncrementalGenerator());
    runtime->run(g);
    auto o = g->cloneTensor(op->getOutput(0));
    EXPECT_TRUE(o->equalData(vector<float>{0, 1, 2,  3,  12, 13, 14, 15,
                                           4, 5, 6,  7,  16, 17, 18, 19,
                                           8, 9, 10, 11, 20, 21, 22, 23}));
 }
 } // namespace infini