ADD: Gather operator and cuda kernel. (#41)

fix a memory leak. add tests. ADD gather cuda kernel. ADD gather operator Co-authored-by: Haojie Wang <haojie0429@gmail.com>
2022-09-29 14:44:20 +08:00 · 2022-09-29 14:44:20 +08:00 · fe14c91f54
parent 3c6e208f42
commit fe14c91f54
8 changed files with 486 additions and 2 deletions
--- a/include/core/runtime.h
+++ b/include/core/runtime.h
@ -69,13 +69,13 @@ class RuntimeObj : public std::enable_shared_from_this<RuntimeObj> {
    // TODO: unify these copy APIs
    virtual void copyBlobFromCPU(void *dst, const void *src,
                                 size_t bytes) const = 0;
+    virtual void copyBlobToCPU(void *dst, const void *src,
+                               size_t bytes) const = 0;

  protected:
    void printProfilingData(double totTime,
                            const std::map<OpType, double> &opTime,
                            const std::map<OpType, int> &opCnt) const;
-    virtual void copyBlobToCPU(void *dst, const void *src,
-                               size_t bytes) const = 0;
    virtual void copyBlobInsideRuntime(void *dst, const void *src,
                                       size_t bytes) const = 0;
 };
--- a/include/cuda/gather.h
+++ b/include/cuda/gather.h
@ -0,0 +1,17 @@
+#pragma once
+
+typedef struct {
+    int *indexValue;
+    int axis;
+    int inNDim;
+    int outNDim;
+    int idxNDim;
+    int outDim[4];
+    int idxDim[4];
+    int idxStride[4];
+    int inStride[4];
+} GatherMetaData;
+
+namespace infini {
+void gather_kernel(float *in, float *out, GatherMetaData metaData, int num);
+}
--- a/include/operators/gather.h
+++ b/include/operators/gather.h
@ -0,0 +1,24 @@
+#pragma once
+
+#include "core/operator.h"
+
+namespace infini {
+class GatherObj : public OperatorObj {
+    int axis;
+
+  public:
+    GatherObj(GraphObj *graph, Tensor input, Tensor index, Tensor output,
+              int axis);
+    std::string toString() const override;
+    int numInputs() const override { return 2; }
+    int numOutputs() const override { return 1; }
+    optional<vector<Shape>> inferShape(const TensorVec &inputs) const override;
+    int getAxis() const { return axis; }
+    vector<DataType> inferDataType(const TensorVec &inputs) const override;
+
+  private:
+    bool CheckIndexValid() const;
+    vector<int> getWorkloadVector() const override;
+    vector<int> getOpAttrVector() const override;
+};
+} // namespace infini
--- a/src/kernels/cuda/gather.cc
+++ b/src/kernels/cuda/gather.cc
@ -0,0 +1,48 @@
+#include "operators/gather.h"
+#include "cuda/cuda_kernel_wihtout_config.h"
+#include "cuda/cuda_runtime.h"
+#include "cuda/gather.h"
+
+namespace infini {
+
+void initGatherMetaData(GatherMetaData &metaData, const Operator &_op) {
+    memset(&metaData, 0, sizeof(metaData));
+    auto op = as<GatherObj>(_op);
+    auto in = op->getInputs(0);
+    auto index = op->getInputs(1);
+    auto out = op->getOutput();
+    metaData.indexValue = index->getRawDataPtr<int *>();
+    metaData.axis = op->getAxis();
+    metaData.inNDim = in->getDims().size();
+    metaData.outNDim = out->getDims().size();
+    metaData.idxNDim = index->getDims().size();
+    for (int i = 0; i < metaData.outNDim; ++i)
+        metaData.outDim[i] = out->getDims()[i];
+    for (int i = 0; i < metaData.idxNDim; ++i) {
+        metaData.idxDim[i] = index->getDims()[i];
+        metaData.idxStride[i] = index->getStride()[i];
+    }
+    for (int i = 0; i < metaData.inNDim; ++i) {
+        metaData.inStride[i] = in->getStride()[i];
+    }
+}
+
+class GatherCuda : public CudaKernelWithoutConfig {
+    void compute(const Operator &op,
+                 const RuntimeObj *_context) const override {
+
+        auto input = op->getInputs(0);
+        auto index = op->getInputs(1);
+
+        GatherMetaData metaData;
+        initGatherMetaData(metaData, op);
+
+        auto inData = input->getRawDataPtr<float *>();
+        auto outData = op->getOutput()->getRawDataPtr<float *>();
+        gather_kernel(inData, outData, metaData, op->getOutput()->size());
+    }
+};
+
+REGISTER_KERNEL(Device::CUDA, OpType::Gather, DataType::Float32, GatherCuda,
+                "Gather_CUDA_Float32");
+} // namespace infini
--- a/src/kernels/cuda/gather.cu
+++ b/src/kernels/cuda/gather.cu
@ -0,0 +1,47 @@
+#include "cuda/cuda_common.h"
+#include "cuda/gather.h"
+
+__device__ int gatheredOffset2Offset(int gOffset, GatherMetaData metaData) {
+    int offset = 0;
+    for (int i = metaData.inNDim - 1, k = metaData.outNDim - 1; i >= 0; --i) {
+        int idx = 0;
+        if (i == metaData.axis) {
+            int idxOffset = 0;
+            for (int j = metaData.idxNDim - 1; j >= 0; --j) {
+                int p = gOffset % metaData.idxDim[j];
+                gOffset = gOffset / metaData.idxDim[j];
+                idxOffset += p * metaData.idxStride[j];
+            }
+
+            idx = metaData.indexValue[idxOffset];
+            k = k - metaData.idxNDim;
+
+        } else {
+            idx = gOffset % metaData.outDim[k];
+            gOffset = gOffset / metaData.outDim[k];
+            --k;
+        }
+        offset += idx * metaData.inStride[i];
+    }
+    return offset;
+}
+
+__global__ void _gather_kernel(float *in, float *out, GatherMetaData metaData,
+                               int num) {
+    int tid = threadIdx.x + blockIdx.x * blockDim.x;
+    int stride = blockDim.x * gridDim.x;
+    while (tid < num) {
+        int offset = gatheredOffset2Offset(tid, metaData);
+        out[tid] = in[offset];
+        tid += stride;
+    }
+}
+
+namespace infini {
+void gather_kernel(float *in, float *out, GatherMetaData metaData, int num) {
+    int blockSize = 32 * 16;
+    int gridSize = (num + blockSize - 1) / blockSize;
+
+    _gather_kernel<<<gridSize, blockSize>>>(in, out, metaData, num);
+}
+} // namespace infini
--- a/src/operators/gather.cc
+++ b/src/operators/gather.cc
@ -0,0 +1,85 @@
+#include "operators/gather.h"
+
+namespace infini {
+GatherObj::GatherObj(GraphObj *graph, Tensor input, Tensor index, Tensor output,
+                     int axis)
+    : OperatorObj(OpType::Gather, {input, index}, {output}), axis(axis) {
+    IT_ASSERT(checkValid(graph));
+}
+
+optional<vector<Shape>> GatherObj::inferShape(const TensorVec &inputs) const {
+    auto dims0 = inputs[0]->getDims();
+    auto dims1 = inputs[1]->getDims();
+
+    if (axis < 0)
+        IT_TODO_HALT();
+
+    if ((size_t)axis >= dims0.size())
+        return {};
+
+    IT_ASSERT(CheckIndexValid());
+
+    Shape dim = dims0;
+    dim.erase(dim.begin() + axis);
+    dim.insert(dim.begin() + axis, dims1.begin(), dims1.end());
+    return {{dim}};
+}
+
+vector<DataType> GatherObj::inferDataType(const TensorVec &inputs) const {
+    IT_ASSERT(inputs.size() == 2);
+    auto index = inputs[1];
+    IT_ASSERT(index->getDType() == DataType::UInt32);
+    return {inputs[0]->getDType()};
+}
+
+// TODO:should check everytime index updated.
+bool GatherObj::CheckIndexValid() const {
+    auto index = inputs[1];
+    if (index->getDataBlob() == nullptr)
+        return true;
+
+    Runtime runtime = CpuRuntimeObj::getInstance();
+    int *data = (int *)runtime->alloc(index->getBytes());
+    index->getRuntime()->copyBlobToCPU(
+        (void *)data, index->getRawDataPtr<void *>(), index->getBytes());
+
+    bool ret = true;
+    auto value = inputs[0]->getDims()[axis];
+    for (size_t i = 0; i < index->size(); ++i) {
+        if (data[i] < 0 || data[i] >= value) {
+            ret = false;
+            break;
+        }
+    }
+    runtime->dealloc(data);
+    return ret;
+}
+
+std::string GatherObj::toString() const {
+    std::ostringstream os;
+    os << "Gather"
+       << "[" << getGuid() << "]";
+    os << "(";
+    if (inputs.size() == 2) {
+        os << vecToString(inputs[0]->getDims()) << ",";
+        os << vecToString(inputs[1]->getDims()) << ",";
+    }
+    os << "axis=" << axis << ",";
+    os << "input=" << inputs[0]->getGuid() << ",";
+    os << "output=" << outputs[0]->getGuid() << ")";
+    return os.str();
+}
+vector<int> GatherObj::getWorkloadVector() const {
+    vector<int> ret = inputs[0]->getDims();
+    ret.emplace(ret.begin(), enum_to_underlying(type));
+    for (auto it : inputs[1]->getDims())
+        ret.emplace_back(it);
+    ret.emplace_back(axis);
+    return ret;
+}
+
+vector<int> GatherObj::getOpAttrVector() const {
+    return {enum_to_underlying(type), axis};
+}
+
+} // namespace infini
--- a/test/kernels/cuda/test_cuda_gather.cc
+++ b/test/kernels/cuda/test_cuda_gather.cc
@ -0,0 +1,244 @@
+#include "core/graph.h"
+#include "core/runtime.h"
+#include "cuda/cuda_runtime.h"
+#include "cuda/cuda_utility.h"
+#include "cuda/gather.h"
+#include "operators/gather.h"
+
+#include "test.h"
+namespace infini {
+/*
+test1:
+input = [
+      [1, 2],
+      [3, 4],
+      [5, 6],
+  ]
+  indices = [
+      [0, 1],
+      [1, 2],
+  ]
+  output = [
+      [
+          [1, 2],
+          [3, 4],
+      ],
+      [
+          [3, 4],
+          [5, 6],
+      ],
+  ]
+  axis=0
+  */
+
+/*
+test2
+input = [
+      [0, 1, 2],
+      [3, 4, 5],
+      [6, 7, 8],
+  ]
+  indices = [
+      [0, 2],
+  ]
+  axis = 1,
+  output = [
+          [[0, 2]],
+          [[3, 5]],
+          [[6, 8]],
+  ]
+*/
+/*
+test3
+input=[[[ 0,  1],
+         [ 2,  3],
+         [ 4,  5],
+         [ 6,  7]],
+
+        [[ 8,  9],
+         [10, 11],
+         [12, 13],
+         [14, 15]]]  //(2,4,2)
+indices=[[0],[3],[1]] //(3,1)
+axis=1
+output=
+
+*/
+
+int gatheredOffset2Offset(int gOffset, GatherMetaData metaData) {
+    int offset = 0;
+    for (int i = metaData.inNDim - 1, k = metaData.outNDim - 1; i >= 0; --i) {
+        int idx = 0;
+        if (i == metaData.axis) {
+            int idxOffset = 0;
+            for (int j = metaData.idxNDim - 1; j >= 0; --j) {
+                int p = gOffset % metaData.idxDim[j];
+                gOffset = gOffset / metaData.idxDim[j];
+                idxOffset += p * metaData.idxStride[j];
+            }
+
+            idx = metaData.indexValue[idxOffset];
+            k = k - metaData.idxNDim;
+
+        } else {
+            idx = gOffset % metaData.outDim[k];
+            gOffset = gOffset / metaData.outDim[k];
+            --k;
+        }
+        offset += idx * metaData.inStride[i];
+    }
+    return offset;
+}
+
+TEST(Gather, offsetTrans) {
+    {
+        GatherMetaData meta;
+        int data[] = {0, 1, 1, 2};
+        meta.indexValue = data;
+        meta.axis = 0;
+        meta.inNDim = 2;
+        meta.outNDim = 3;
+        meta.idxNDim = 2;
+        int tmp[] = {2, 2, 2, 0};
+        memcpy(&meta.outDim, &tmp, sizeof(tmp));
+        int tmp2[] = {2, 2, 0, 0};
+        memcpy(&meta.idxDim, &tmp2, sizeof(tmp));
+        int tmp3[] = {2, 1, 0, 0};
+        memcpy(&meta.idxStride, &tmp3, sizeof(tmp));
+        memcpy(&meta.inStride, &tmp3, sizeof(tmp));
+
+        EXPECT_EQ(gatheredOffset2Offset(0, meta), 0);
+        EXPECT_EQ(gatheredOffset2Offset(1, meta), 1);
+        EXPECT_EQ(gatheredOffset2Offset(2, meta), 2);
+        EXPECT_EQ(gatheredOffset2Offset(3, meta), 3);
+        EXPECT_EQ(gatheredOffset2Offset(4, meta), 2);
+        EXPECT_EQ(gatheredOffset2Offset(5, meta), 3);
+        EXPECT_EQ(gatheredOffset2Offset(6, meta), 4);
+        EXPECT_EQ(gatheredOffset2Offset(7, meta), 5);
+    }
+    {
+        GatherMetaData meta;
+        int data[] = {0, 2};
+        meta.indexValue = data;
+        meta.axis = 1;
+        meta.inNDim = 2;
+        meta.outNDim = 3;
+        meta.idxNDim = 2;
+
+        int tmp[] = {3, 1, 2, 0};
+        memcpy(&meta.outDim, &tmp, sizeof(tmp));
+        int tmp2[] = {1, 2, 0, 0};
+        memcpy(&meta.idxDim, &tmp2, sizeof(tmp2));
+        int tmp3[] = {2, 1, 0, 0};
+        memcpy(&meta.idxStride, &tmp3, sizeof(tmp3));
+        int tmp4[] = {3, 1, 0, 0};
+        memcpy(&meta.inStride, &tmp4, sizeof(tmp4));
+
+        EXPECT_EQ(gatheredOffset2Offset(0, meta), 0);
+        EXPECT_EQ(gatheredOffset2Offset(1, meta), 2);
+        EXPECT_EQ(gatheredOffset2Offset(2, meta), 3);
+        EXPECT_EQ(gatheredOffset2Offset(3, meta), 5);
+        EXPECT_EQ(gatheredOffset2Offset(4, meta), 6);
+        EXPECT_EQ(gatheredOffset2Offset(5, meta), 8);
+    }
+    {
+        GatherMetaData meta;
+        int data[] = {0, 3, 1};
+        meta.indexValue = data;
+        meta.axis = 1;
+        meta.inNDim = 3;
+        meta.outNDim = 4;
+        meta.idxNDim = 2;
+
+        int tmp[] = {2, 3, 1, 2};
+        memcpy(&meta.outDim, &tmp, sizeof(tmp));
+        int tmp2[] = {3, 1, 0, 0};
+        memcpy(&meta.idxDim, &tmp2, sizeof(tmp2));
+        int tmp3[] = {1, 1, 0, 0};
+        memcpy(&meta.idxStride, &tmp3, sizeof(tmp3));
+        int tmp4[] = {8, 2, 1, 0};
+        memcpy(&meta.inStride, &tmp4, sizeof(tmp4));
+
+        EXPECT_EQ(gatheredOffset2Offset(0, meta), 0);
+        EXPECT_EQ(gatheredOffset2Offset(1, meta), 1);
+        EXPECT_EQ(gatheredOffset2Offset(2, meta), 6);
+        EXPECT_EQ(gatheredOffset2Offset(3, meta), 7);
+        EXPECT_EQ(gatheredOffset2Offset(4, meta), 2);
+        EXPECT_EQ(gatheredOffset2Offset(5, meta), 3);
+        EXPECT_EQ(gatheredOffset2Offset(6, meta), 8);
+        EXPECT_EQ(gatheredOffset2Offset(7, meta), 9);
+        EXPECT_EQ(gatheredOffset2Offset(8, meta), 14);
+        EXPECT_EQ(gatheredOffset2Offset(9, meta), 15);
+        EXPECT_EQ(gatheredOffset2Offset(10, meta), 10);
+        EXPECT_EQ(gatheredOffset2Offset(11, meta), 11);
+    }
+}
+
+TEST(Gather, Cuda) {
+    {
+        Runtime runtime = CpuRuntimeObj::getInstance();
+        Graph gCpu = make_ref<GraphObj>(runtime);
+        auto input = gCpu->addTensor({3, 2}, DataType::Float32);
+        auto index = gCpu->addTensor({2, 2}, DataType::UInt32);
+        gCpu->dataMalloc();
+        input->copyData(vector<float>{1, 2, 3, 4, 5, 6});
+        index->copyData(vector<uint32_t>{0, 1, 1, 2});
+        auto cudaRuntime = make_ref<CudaRuntimeObj>();
+        Graph gCuda = make_ref<GraphObj>(cudaRuntime);
+
+        auto op = gCuda->addOp<GatherObj>(
+            gCuda->cloneTensor(input), gCuda->cloneTensor(index), nullptr, 0);
+        gCuda->dataMalloc();
+        cudaRuntime->run(gCuda);
+
+        // cudaPrintTensor(op->getOutput());
+        //   copy output from CUDA to CPU
+        auto oCpu = gCpu->cloneTensor(op->getOutput());
+        EXPECT_TRUE(oCpu->equalData(vector<float>{1, 2, 3, 4, 3, 4, 5, 6}));
+    }
+    {
+        Runtime runtime = CpuRuntimeObj::getInstance();
+        Graph gCpu = make_ref<GraphObj>(runtime);
+        auto input = gCpu->addTensor({3, 3}, DataType::Float32);
+        auto index = gCpu->addTensor({1, 2}, DataType::UInt32);
+        gCpu->dataMalloc();
+        input->setData(IncrementalGenerator());
+        index->copyData(vector<uint32_t>{0, 2});
+        auto cudaRuntime = make_ref<CudaRuntimeObj>();
+        Graph gCuda = make_ref<GraphObj>(cudaRuntime);
+
+        auto op = gCuda->addOp<GatherObj>(
+            gCuda->cloneTensor(input), gCuda->cloneTensor(index), nullptr, 1);
+        gCuda->dataMalloc();
+        cudaRuntime->run(gCuda);
+
+        // cudaPrintTensor(op->getOutput());
+        //  copy output from CUDA to CPU
+        auto oCpu = gCpu->cloneTensor(op->getOutput());
+        EXPECT_TRUE(oCpu->equalData(vector<float>{0, 2, 3, 5, 6, 8}));
+    }
+    {
+        Runtime runtime = CpuRuntimeObj::getInstance();
+        Graph gCpu = make_ref<GraphObj>(runtime);
+        auto input = gCpu->addTensor({2, 4, 2}, DataType::Float32);
+        auto index = gCpu->addTensor({3, 1}, DataType::UInt32);
+        gCpu->dataMalloc();
+        input->setData(IncrementalGenerator());
+        index->copyData(vector<uint32_t>{0, 3, 1});
+        auto cudaRuntime = make_ref<CudaRuntimeObj>();
+        Graph gCuda = make_ref<GraphObj>(cudaRuntime);
+
+        auto op = gCuda->addOp<GatherObj>(
+            gCuda->cloneTensor(input), gCuda->cloneTensor(index), nullptr, 1);
+        gCuda->dataMalloc();
+        cudaRuntime->run(gCuda);
+
+        // cudaPrintTensor(op->getOutput());
+        //  copy output from CUDA to CPU
+        auto oCpu = gCpu->cloneTensor(op->getOutput());
+        EXPECT_TRUE(oCpu->equalData(
+            vector<float>{0, 1, 6, 7, 2, 3, 8, 9, 14, 15, 10, 11}));
+    }
+}
+
+} // namespace infini
--- a/test/operators/test_gather.cc
+++ b/test/operators/test_gather.cc
@ -0,0 +1,19 @@
+#include "core/graph.h"
+#include "core/kernel.h"
+#include "core/runtime.h"
+#include "operators/gather.h"
+
+#include "test.h"
+
+namespace infini {
+
+TEST(Gather, ShapeInference) {
+    Runtime runtime = CpuRuntimeObj::getInstance();
+
+    Graph g = make_ref<GraphObj>(runtime);
+    Tensor i = g->addTensor({1, 3, 4, 4}, DataType::UInt32);
+    Tensor index = g->addTensor({2, 1, 2}, DataType::UInt32);
+    auto op = g->addOp<GatherObj>(i, index, nullptr, 1);
+    EXPECT_EQ(op->getOutput()->getDims(), (Shape{1, 2, 1, 2, 4, 4}));
+}
+} // namespace infini