da/df6/GPUReconstructionCPU_8cxx_source.html

// Copyright 2019-2020 CERN and copyright holders of ALICE O2.

// See https://alice-o2.web.cern.ch/copyright for details of the copyright holders.

// All rights not expressly granted are reserved.

//

// This software is distributed under the terms of the GNU General Public

// License v3 (GPL Version 3), copied verbatim in the file "COPYING".

//

// In applying this license CERN does not waive the privileges and immunities

// granted to it by virtue of its status as an Intergovernmental Organization

// or submit itself to any jurisdiction.


#include "GPUReconstructionCPU.h"

#include "GPUReconstructionIncludes.h"

#include "GPUReconstructionThreading.h"

#include "GPUChain.h"

#include "GPUDefParameters.h"

#include "GPUTPCClusterData.h"

#include "GPUTPCSectorOutCluster.h"

#include "GPUTPCGMMergedTrack.h"

#include "GPUTPCGMMergedTrackHit.h"

#include "GPUTRDTrackletWord.h"

#include "AliHLTTPCClusterMCData.h"

#include "GPUTPCMCInfo.h"

#include "GPUTRDTrack.h"

#include "GPUTRDTracker.h"

#include "AliHLTTPCRawCluster.h"

#include "GPUTRDTrackletLabels.h"

#include "GPUMemoryResource.h"

#include "GPUConstantMem.h"

#include "GPUMemorySizeScalers.h"

#include <atomic>

#include <ctime>


#define GPUCA_LOGGING_PRINTF

#include "GPULogging.h"


#ifndef _WIN32

#include <unistd.h>

#endif


using namespace o2::gpu;

using namespace o2::gpu::gpu_reconstruction_kernels;


constexpr GPUReconstructionCPU::krnlRunRange GPUReconstructionCPU::krnlRunRangeNone;

constexpr GPUReconstructionCPU::krnlEvent GPUReconstructionCPU::krnlEventNone;


GPUReconstruction* GPUReconstruction::GPUReconstruction_Create_CPU(const GPUSettingsDeviceBackend& cfg) { return new GPUReconstructionCPU(cfg); }


GPUReconstructionCPU::~GPUReconstructionCPU()

{

  Exit(); // Needs to be identical to GPU backend bahavior in order to avoid calling abstract methods later in the destructor

}


template <class T, int32_t I, typename... Args>


inline void GPUReconstructionCPUBackend::runKernelBackendInternal(const krnlSetupTime& _xyz, const Args&... args)

{

  auto& x = _xyz.x;

  auto& y = _xyz.y;

  if (x.device == krnlDeviceType::Device) {

    throw std::runtime_error("Cannot run device kernel on host");

  }

  if (x.nThreads != 1) {

    throw std::runtime_error("Cannot run device kernel on host with nThreads != 1");

  }

  int32_t nThreads = getNKernelHostThreads(false);

  if (nThreads > 1) {

    if (mProcessingSettings.debugLevel >= 5) {

      printf("Running %d Threads\n", nThreads);

    }

    tbb::this_task_arena::isolate([&] {

      mThreading->activeThreads->execute([&] {

        tbb::parallel_for(tbb::blocked_range<uint32_t>(0, x.nBlocks, 1), [&](const tbb::blocked_range<uint32_t>& r) {

          typename T::GPUSharedMemory smem;

          for (uint32_t iB = r.begin(); iB < r.end(); iB++) {

            T::template Thread<I>(x.nBlocks, 1, iB, 0, smem, T::Processor(*mHostConstantMem)[y.index], args...);

          }

        });

      });

    });

  } else {

    for (uint32_t iB = 0; iB < x.nBlocks; iB++) {

      typename T::GPUSharedMemory smem;

      T::template Thread<I>(x.nBlocks, 1, iB, 0, smem, T::Processor(*mHostConstantMem)[y.index], args...);

    }

  }

}


template <>


inline void GPUReconstructionCPUBackend::runKernelBackendInternal<GPUMemClean16, 0>(const krnlSetupTime& _xyz, void* const& ptr, uint64_t const& size)

{

  int32_t nnThreads = std::max<int32_t>(1, std::min<int32_t>(size / (16 * 1024 * 1024), getNKernelHostThreads(true)));

  if (nnThreads > 1) {

    tbb::parallel_for(0, nnThreads, [&](int iThread) {

      size_t threadSize = size / nnThreads;

      if (threadSize % 4096) {

        threadSize += 4096 - threadSize % 4096;

      }

      size_t offset = threadSize * iThread;

      size_t mySize = std::min<size_t>(threadSize, size - offset);

      if (mySize) {

        memset((char*)ptr + offset, 0, mySize);

      } // clang-format off

    }, tbb::static_partitioner()); // clang-format on

  } else {

    memset(ptr, 0, size);

  }

}


template <class T, int32_t I, typename... Args>


void GPUReconstructionCPUBackend::runKernelBackend(const krnlSetupArgs<T, I, Args...>& args)

{

#pragma GCC diagnostic push

#if defined(__clang__)

#pragma GCC diagnostic ignored "-Wunused-lambda-capture" // this is not alway captured below

#endif

  std::apply([this, &args](auto&... vals) { runKernelBackendInternal<T, I, Args...>(args.s, vals...); }, args.v);

#pragma GCC diagnostic push

}


template <class S, int32_t I>


gpu_reconstruction_kernels::krnlProperties GPUReconstructionCPU::getKernelProperties(int gpu)

{

  if (gpu == -1) {

    gpu = IsGPU();

  }

  const auto num = GetKernelNum<S, I>();

  const auto* p = gpu ? mParDevice : mParCPU;

  gpu_reconstruction_kernels::krnlProperties ret = {p->par_LB_maxThreads[num], p->par_LB_minBlocks[num], p->par_LB_forceBlocks[num]};

  if (ret.nThreads == 0) {

    ret.nThreads = gpu ? mThreadCount : 1u;

  }

  if (ret.minBlocks == 0) {

    ret.minBlocks = 1;

  }

  return ret;

}


#define GPUCA_KRNL(x_class, x_attributes, x_arguments, x_forward, x_types, ...)                                                                                                  \

  template void GPUReconstructionCPUBackend::runKernelBackend<GPUCA_M_KRNL_TEMPLATE(x_class)>(const krnlSetupArgs<GPUCA_M_KRNL_TEMPLATE(x_class) GPUCA_M_STRIP(x_types)>& args); \

  template krnlProperties GPUReconstructionCPU::getKernelProperties<GPUCA_M_KRNL_TEMPLATE(x_class)>(int gpu);


#include "GPUReconstructionKernelList.h"

#undef GPUCA_KRNL


size_t GPUReconstructionCPU::TransferMemoryInternal(GPUMemoryResource* res, int32_t stream, deviceEvent* ev, deviceEvent* evList, int32_t nEvents, bool toGPU, const void* src, void* dst) { return 0; }

size_t GPUReconstructionCPU::GPUMemCpy(void* dst, const void* src, size_t size, int32_t stream, int32_t toGPU, deviceEvent* ev, deviceEvent* evList, int32_t nEvents) { return 0; }


size_t GPUReconstructionCPU::GPUMemCpyAlways(bool onGpu, void* dst, const void* src, size_t size, int32_t stream, int32_t toGPU, deviceEvent* ev, deviceEvent* evList, int32_t nEvents)

{

  memcpy(dst, src, size);

  return 0;

}


size_t GPUReconstructionCPU::WriteToConstantMemory(size_t offset, const void* src, size_t size, int32_t stream, deviceEvent* ev) { return 0; }

int32_t GPUReconstructionCPU::GPUDebug(const char* state, int32_t stream, bool force) { return 0; }

size_t GPUReconstructionCPU::TransferMemoryResourcesHelper(GPUProcessor* proc, int32_t stream, bool all, bool toGPU)

{

  int32_t inc = toGPU ? GPUMemoryResource::MEMORY_INPUT_FLAG : GPUMemoryResource::MEMORY_OUTPUT_FLAG;

  int32_t exc = toGPU ? GPUMemoryResource::MEMORY_OUTPUT_FLAG : GPUMemoryResource::MEMORY_INPUT_FLAG;

  size_t n = 0;

  for (uint32_t i = 0; i < mMemoryResources.size(); i++) {

    GPUMemoryResource& res = mMemoryResources[i];

    if (res.mPtr == nullptr) {

      continue;

    }

    if (proc && res.mProcessor != proc) {

      continue;

    }

    if (!(res.mType & GPUMemoryResource::MEMORY_GPU) || (res.mType & GPUMemoryResource::MEMORY_CUSTOM_TRANSFER)) {

      continue;

    }

    if (!mProcessingSettings.keepAllMemory && !all && (res.mType & exc) && !(res.mType & inc)) {

      continue;

    }

    if (toGPU) {

      n += TransferMemoryResourceToGPU(&mMemoryResources[i], stream);

    } else {

      n += TransferMemoryResourceToHost(&mMemoryResources[i], stream);

    }

  }

  return n;

}


int32_t GPUReconstructionCPU::GetThread()

{

// Get Thread ID

#if defined(__APPLE__)

  return (0); // syscall is deprecated on MacOS..., only needed for GPU support which we don't do on Mac anyway

#elif defined(_WIN32)

  return ((int32_t)(size_t)GetCurrentThread());

#else

  return ((int32_t)syscall(SYS_gettid));

#endif

}


int32_t GPUReconstructionCPU::InitDevice()

{

  mActiveHostKernelThreads = mMaxHostThreads;

  mThreading->activeThreads = std::make_unique<tbb::task_arena>(mActiveHostKernelThreads);

  if (mProcessingSettings.memoryAllocationStrategy == GPUMemoryResource::ALLOCATION_GLOBAL) {

    if (mMaster == nullptr) {

      if (mDeviceMemorySize > mHostMemorySize) {

        mHostMemorySize = mDeviceMemorySize;

      }

      mHostMemoryBase = operator new(mHostMemorySize GPUCA_OPERATOR_NEW_ALIGNMENT);

    }

    mHostMemoryPermanent = mHostMemoryBase;

    ClearAllocatedMemory();

  }

  if (mProcessingSettings.inKernelParallel) {

    mBlockCount = mMaxHostThreads;

  }

  mProcShadow.mProcessorsProc = processors();

  return 0;

}


int32_t GPUReconstructionCPU::ExitDevice()

{

  if (mProcessingSettings.memoryAllocationStrategy == GPUMemoryResource::ALLOCATION_GLOBAL) {

    if (mMaster == nullptr) {

      operator delete(mHostMemoryBase GPUCA_OPERATOR_NEW_ALIGNMENT);

    }

    mHostMemoryPool = mHostMemoryBase = mHostMemoryPoolEnd = mHostMemoryPermanent = nullptr;

    mHostMemorySize = 0;

  }

  return 0;

}


int32_t GPUReconstructionCPU::RunChains()

{

  mMemoryScalers->temporaryFactor = 1.;

  mStatNEvents++;

  mNEventsProcessed++;


  if (mProcessingSettings.debugLevel >= 3 || mProcessingSettings.allocDebugLevel) {

    printf("Allocated memory when starting processing %34s", "");

    PrintMemoryOverview();

  }

  mTimerTotal.Start();

  const std::clock_t cpuTimerStart = std::clock();

  if (mProcessingSettings.doublePipeline) {

    int32_t retVal = EnqueuePipeline();

    if (retVal) {

      return retVal;

    }

  } else {

    if (mSlaves.size() || mMaster) {

      WriteConstantParams(); // Reinitialize // TODO: Get this in sync with GPUChainTracking::DoQueuedUpdates, and consider the doublePipeline

    }

    for (uint32_t i = 0; i < mChains.size(); i++) {

      int32_t retVal = mChains[i]->RunChain();

      if (retVal) {

        return retVal;

      }

    }

    if (GetProcessingSettings().tpcFreeAllocatedMemoryAfterProcessing) {

      ClearAllocatedMemory();

    }

  }

  mTimerTotal.Stop();

  mStatCPUTime += (double)(std::clock() - cpuTimerStart) / CLOCKS_PER_SEC;

  if (mProcessingSettings.debugLevel >= 3 || mProcessingSettings.allocDebugLevel) {

    printf("Allocated memory when ending processing %36s", "");

    PrintMemoryOverview();

  }


  mStatWallTime = (mTimerTotal.GetElapsedTime() * 1000000. / mStatNEvents);

  std::string nEventReport;

  if (GetProcessingSettings().debugLevel >= 0 && mStatNEvents > 1) {

    nEventReport += "   (avergage of " + std::to_string(mStatNEvents) + " runs)";

  }

  double kernelTotal = 0;

  std::vector<double> kernelStepTimes(GPUDataTypes::N_RECO_STEPS, 0.);


  if (GetProcessingSettings().debugLevel >= 1) {

    for (uint32_t i = 0; i < mTimers.size(); i++) {

      double time = 0;

      if (mTimers[i] == nullptr) {

        continue;

      }

      for (int32_t j = 0; j < mTimers[i]->num; j++) {

        HighResTimer& timer = mTimers[i]->timer[j];

        time += timer.GetElapsedTime();

        if (mProcessingSettings.resetTimers) {

          timer.Reset();

        }

      }


      uint32_t type = mTimers[i]->type;

      if (type == 0) {

        kernelTotal += time;

        int32_t stepNum = getRecoStepNum(mTimers[i]->step);

        kernelStepTimes[stepNum] += time;

      }

      char bandwidth[256] = "";

      if (mTimers[i]->memSize && mStatNEvents && time != 0.) {

        snprintf(bandwidth, 256, " (%8.3f GB/s - %'14zu bytes - %'14zu per call)", mTimers[i]->memSize / time * 1e-9, mTimers[i]->memSize / mStatNEvents, mTimers[i]->memSize / mStatNEvents / mTimers[i]->count);

      }

      printf("Execution Time: Task (%c %8ux): %50s Time: %'10.0f us%s\n", type == 0 ? 'K' : 'C', mTimers[i]->count, mTimers[i]->name.c_str(), time * 1000000 / mStatNEvents, bandwidth);

      if (mProcessingSettings.resetTimers) {

        mTimers[i]->count = 0;

        mTimers[i]->memSize = 0;

      }

    }

  }

  if (GetProcessingSettings().recoTaskTiming) {

    for (int32_t i = 0; i < GPUDataTypes::N_RECO_STEPS; i++) {

      if (kernelStepTimes[i] != 0. || mTimersRecoSteps[i].timerTotal.GetElapsedTime() != 0.) {

        printf("Execution Time: Step              : %11s %38s Time: %'10.0f us %64s ( Total Time : %'14.0f us, CPU Time : %'14.0f us, %'7.2fx )\n", "Tasks",

               GPUDataTypes::RECO_STEP_NAMES[i], kernelStepTimes[i] * 1000000 / mStatNEvents, "", mTimersRecoSteps[i].timerTotal.GetElapsedTime() * 1000000 / mStatNEvents, mTimersRecoSteps[i].timerCPU * 1000000 / mStatNEvents, mTimersRecoSteps[i].timerCPU / mTimersRecoSteps[i].timerTotal.GetElapsedTime());

      }

      if (mTimersRecoSteps[i].bytesToGPU) {

        printf("Execution Time: Step (D %8ux): %11s %38s Time: %'10.0f us (%8.3f GB/s - %'14zu bytes - %'14zu per call)\n", mTimersRecoSteps[i].countToGPU, "DMA to GPU", GPUDataTypes::RECO_STEP_NAMES[i], mTimersRecoSteps[i].timerToGPU.GetElapsedTime() * 1000000 / mStatNEvents,

               mTimersRecoSteps[i].bytesToGPU / mTimersRecoSteps[i].timerToGPU.GetElapsedTime() * 1e-9, mTimersRecoSteps[i].bytesToGPU / mStatNEvents, mTimersRecoSteps[i].bytesToGPU / mTimersRecoSteps[i].countToGPU);

      }

      if (mTimersRecoSteps[i].bytesToHost) {

        printf("Execution Time: Step (D %8ux): %11s %38s Time: %'10.0f us (%8.3f GB/s - %'14zu bytes - %'14zu per call)\n", mTimersRecoSteps[i].countToHost, "DMA to Host", GPUDataTypes::RECO_STEP_NAMES[i], mTimersRecoSteps[i].timerToHost.GetElapsedTime() * 1000000 / mStatNEvents,

               mTimersRecoSteps[i].bytesToHost / mTimersRecoSteps[i].timerToHost.GetElapsedTime() * 1e-9, mTimersRecoSteps[i].bytesToHost / mStatNEvents, mTimersRecoSteps[i].bytesToHost / mTimersRecoSteps[i].countToHost);

      }

      if (mProcessingSettings.resetTimers) {

        mTimersRecoSteps[i].bytesToGPU = mTimersRecoSteps[i].bytesToHost = 0;

        mTimersRecoSteps[i].timerToGPU.Reset();

        mTimersRecoSteps[i].timerToHost.Reset();

        mTimersRecoSteps[i].timerTotal.Reset();

        mTimersRecoSteps[i].timerCPU = 0;

        mTimersRecoSteps[i].countToGPU = 0;

        mTimersRecoSteps[i].countToHost = 0;

      }

    }

    for (int32_t i = 0; i < GPUDataTypes::N_GENERAL_STEPS; i++) {

      if (mTimersGeneralSteps[i].GetElapsedTime() != 0.) {

        printf("Execution Time: General Step      : %50s Time: %'10.0f us\n", GPUDataTypes::GENERAL_STEP_NAMES[i], mTimersGeneralSteps[i].GetElapsedTime() * 1000000 / mStatNEvents);

      }

    }

    if (GetProcessingSettings().debugLevel >= 1) {

      mStatKernelTime = kernelTotal * 1000000 / mStatNEvents;

      printf("Execution Time: Total   : %50s Time: %'10.0f us%s\n", "Total Kernel", mStatKernelTime, nEventReport.c_str());

    }

    printf("Execution Time: Total   : %50s Time: %'10.0f us ( CPU Time : %'10.0f us, %7.2fx ) %s\n", "Total Wall", mStatWallTime, mStatCPUTime * 1000000 / mStatNEvents, mStatCPUTime / mTimerTotal.GetElapsedTime(), nEventReport.c_str());

  } else if (GetProcessingSettings().debugLevel >= 0) {

    GPUInfo("Total Wall Time: %10.0f us%s", mStatWallTime, nEventReport.c_str());

  }

  if (mProcessingSettings.resetTimers) {

    mStatNEvents = 0;

    mStatCPUTime = 0;

    mTimerTotal.Reset();

  }


  return 0;

}


void GPUReconstructionCPU::ResetDeviceProcessorTypes()

{

  for (uint32_t i = 0; i < mProcessors.size(); i++) {

    if (mProcessors[i].proc->mGPUProcessorType != GPUProcessor::PROCESSOR_TYPE_DEVICE && mProcessors[i].proc->mLinkedProcessor) {

      mProcessors[i].proc->mLinkedProcessor->InitGPUProcessor(this, GPUProcessor::PROCESSOR_TYPE_DEVICE);

    }

  }

}


void GPUReconstructionCPU::UpdateParamOccupancyMap(const uint32_t* mapHost, const uint32_t* mapGPU, uint32_t occupancyTotal, int32_t stream)

{

  param().occupancyMap = mapHost;

  param().occupancyTotal = occupancyTotal;

  if (IsGPU()) {

    if (!((size_t)&param().occupancyTotal - (size_t)&param().occupancyMap == sizeof(param().occupancyMap) && sizeof(param().occupancyMap) == sizeof(size_t) && sizeof(param().occupancyTotal) < sizeof(size_t))) {

      throw std::runtime_error("occupancy data not consecutive in GPUParam");

    }

    const auto threadContext = GetThreadContext();

    size_t tmp[2] = {(size_t)mapGPU, 0};

    memcpy(&tmp[1], &occupancyTotal, sizeof(occupancyTotal));

    WriteToConstantMemory((char*)&processors()->param.occupancyMap - (char*)processors(), &tmp, sizeof(param().occupancyMap) + sizeof(param().occupancyTotal), stream);

  }

}


AliHLTTPCClusterMCData.h

AliHLTTPCRawCluster.h

time
int16_t time
Definition RawEventData.h:4

GPUChain.h

i
int32_t i
Definition GPUCommonAlgorithm.h:431

GPUConstantMem.h

GPUCA_OPERATOR_NEW_ALIGNMENT
#define GPUCA_OPERATOR_NEW_ALIGNMENT
Definition GPUDefParametersDefault.h:624

GPULogging.h

GPUMemoryResource.h

GPUMemorySizeScalers.h

GPUReconstructionCPU.h

GPUReconstructionIncludes.h

GPUReconstructionThreading.h

retVal
int32_t retVal
Definition GPUReconstruction.cxx:58

GPUTPCClusterData.h

GPUTPCGMMergedTrackHit.h

GPUTPCGMMergedTrack.h

GPUTPCMCInfo.h

GPUTPCSectorOutCluster.h

GPUTRDTrack.h

GPUTRDTracker.h
Online TRD tracker based on extrapolated TPC tracks.

GPUTRDTrackletLabels.h
Used for storing the MC labels for the TRD tracklets.

GPUTRDTrackletWord.h
TRD Tracklet word for GPU tracker - 32bit tracklet info + half chamber ID + index.

j
uint32_t j
Definition RawData.h:0

res
uint32_t res
Definition RawData.h:0

ptr
TBranch * ptr
Definition TTreePlugin.cxx:836

num
double num
Definition bench_Clusterizer.cxx:122

HighResTimer
Definition timer.h:21

HighResTimer::Reset
void Reset()
Definition timer.cxx:101

HighResTimer::Start
void Start()
Definition timer.cxx:57

HighResTimer::GetElapsedTime
double GetElapsedTime()
Definition timer.cxx:108

HighResTimer::Stop
void Stop()
Definition timer.cxx:69

int

o2::gpu::GPUDataTypes::GENERAL_STEP_NAMES
static constexpr const char *const GENERAL_STEP_NAMES[]
Definition GPUDataTypes.h:147

o2::gpu::GPUDataTypes::RECO_STEP_NAMES
static constexpr const char *const RECO_STEP_NAMES[]
Definition GPUDataTypes.h:146

o2::gpu::GPUDataTypes::N_RECO_STEPS
static constexpr int32_t N_RECO_STEPS
Definition GPUDataTypes.h:148

o2::gpu::GPUDataTypes::N_GENERAL_STEPS
static constexpr int32_t N_GENERAL_STEPS
Definition GPUDataTypes.h:149

o2::gpu::GPUMemoryResource
Definition GPUMemoryResource.h:53

o2::gpu::GPUMemoryResource::MEMORY_CUSTOM_TRANSFER
@ MEMORY_CUSTOM_TRANSFER
Definition GPUMemoryResource.h:71

o2::gpu::GPUMemoryResource::MEMORY_GPU
@ MEMORY_GPU
Definition GPUMemoryResource.h:60

o2::gpu::GPUMemoryResource::MEMORY_OUTPUT_FLAG
@ MEMORY_OUTPUT_FLAG
Definition GPUMemoryResource.h:63

o2::gpu::GPUMemoryResource::MEMORY_INPUT_FLAG
@ MEMORY_INPUT_FLAG
Definition GPUMemoryResource.h:61

o2::gpu::GPUMemoryResource::ALLOCATION_GLOBAL
@ ALLOCATION_GLOBAL
Definition GPUMemoryResource.h:76

o2::gpu::GPUProcessor
Definition GPUProcessor.h:34

o2::gpu::GPUProcessor::mGPUProcessorType
ProcessorType mGPUProcessorType
Definition GPUProcessor.h:149

o2::gpu::GPUProcessor::PROCESSOR_TYPE_DEVICE
@ PROCESSOR_TYPE_DEVICE
Definition GPUProcessor.h:41

o2::gpu::GPUReconstructionCPUBackend::runKernelBackend
void runKernelBackend(const gpu_reconstruction_kernels::krnlSetupArgs< T, I, Args... > &args)
Definition GPUReconstructionCPU.cxx:113

o2::gpu::GPUReconstructionCPUBackend::runKernelBackendInternal
void runKernelBackendInternal(const gpu_reconstruction_kernels::krnlSetupTime &_xyz, const Args &... args)
Definition GPUReconstructionCPU.cxx:58

o2::gpu::GPUReconstructionCPU
Definition GPUReconstructionCPU.h:44

o2::gpu::GPUReconstructionCPU::~GPUReconstructionCPU
~GPUReconstructionCPU() override
Definition GPUReconstructionCPU.cxx:52

o2::gpu::GPUReconstructionCPU::GPUMemCpy
virtual size_t GPUMemCpy(void *dst, const void *src, size_t size, int32_t stream, int32_t toGPU, deviceEvent *ev=nullptr, deviceEvent *evList=nullptr, int32_t nEvents=1)
Definition GPUReconstructionCPU.cxx:148

o2::gpu::GPUReconstructionCPU::mBlockCount
uint32_t mBlockCount
Definition GPUReconstructionCPU.h:122

o2::gpu::GPUReconstructionCPU::GPUMemCpyAlways
virtual size_t GPUMemCpyAlways(bool onGpu, void *dst, const void *src, size_t size, int32_t stream, int32_t toGPU, deviceEvent *ev=nullptr, deviceEvent *evList=nullptr, int32_t nEvents=1)
Definition GPUReconstructionCPU.cxx:149

o2::gpu::GPUReconstructionCPU::krnlRunRangeNone
static constexpr krnlRunRange krnlRunRangeNone
Definition GPUReconstructionCPU.h:50

o2::gpu::GPUReconstructionCPU::TransferMemoryResourceToHost
size_t TransferMemoryResourceToHost(GPUMemoryResource *res, int32_t stream=-1, deviceEvent *ev=nullptr, deviceEvent *evList=nullptr, int32_t nEvents=1)
Definition GPUReconstructionCPU.h:101

o2::gpu::GPUReconstructionCPU::InitDevice
int32_t InitDevice() override
Definition GPUReconstructionCPU.cxx:196

o2::gpu::GPUReconstructionCPU::UpdateParamOccupancyMap
void UpdateParamOccupancyMap(const uint32_t *mapHost, const uint32_t *mapGPU, uint32_t occupancyTotal, int32_t stream=-1)
Definition GPUReconstructionCPU.cxx:361

o2::gpu::GPUReconstructionCPU::TransferMemoryResourceToGPU
size_t TransferMemoryResourceToGPU(GPUMemoryResource *res, int32_t stream=-1, deviceEvent *ev=nullptr, deviceEvent *evList=nullptr, int32_t nEvents=1)
Definition GPUReconstructionCPU.h:100

o2::gpu::GPUReconstructionCPU::getKernelProperties
gpu_reconstruction_kernels::krnlProperties getKernelProperties(int gpu=-1)
Definition GPUReconstructionCPU.cxx:124

o2::gpu::GPUReconstructionCPU::RunChains
int32_t RunChains() override
Definition GPUReconstructionCPU.cxx:229

o2::gpu::GPUReconstructionCPU::mProcShadow
GPUProcessorProcessors mProcShadow
Definition GPUReconstructionCPU.h:119

o2::gpu::GPUReconstructionCPU::ResetDeviceProcessorTypes
void ResetDeviceProcessorTypes()
Definition GPUReconstructionCPU.cxx:352

o2::gpu::GPUReconstructionCPU::GetThread
int32_t GetThread()
Definition GPUReconstructionCPU.cxx:184

o2::gpu::GPUReconstructionCPU::ExitDevice
int32_t ExitDevice() override
Definition GPUReconstructionCPU.cxx:217

o2::gpu::GPUReconstructionCPU::GPUDebug
virtual int32_t GPUDebug(const char *state="UNKNOWN", int32_t stream=-1, bool force=false)
Definition GPUReconstructionCPU.cxx:155

o2::gpu::GPUReconstructionCPU::mThreadCount
uint32_t mThreadCount
Definition GPUReconstructionCPU.h:123

o2::gpu::GPUReconstructionCPU::krnlEventNone
static constexpr krnlEvent krnlEventNone
Definition GPUReconstructionCPU.h:51

o2::gpu::GPUReconstructionCPU::WriteToConstantMemory
size_t WriteToConstantMemory(size_t offset, const void *src, size_t size, int32_t stream=-1, deviceEvent *ev=nullptr) override
Definition GPUReconstructionCPU.cxx:154

o2::gpu::GPUReconstructionCPU::TransferMemoryInternal
virtual size_t TransferMemoryInternal(GPUMemoryResource *res, int32_t stream, deviceEvent *ev, deviceEvent *evList, int32_t nEvents, bool toGPU, const void *src, void *dst)
Definition GPUReconstructionCPU.cxx:147

o2::gpu::GPUReconstructionProcessing::GetThreadContext
virtual std::unique_ptr< gpu_reconstruction_kernels::threadContext > GetThreadContext() override
Definition GPUReconstructionProcessing.cxx:135

o2::gpu::GPUReconstructionProcessing::mTimersRecoSteps
RecoStepTimerMeta mTimersRecoSteps[GPUDataTypes::N_RECO_STEPS]
Definition GPUReconstructionProcessing.h:130

o2::gpu::GPUReconstructionProcessing::mActiveHostKernelThreads
int32_t mActiveHostKernelThreads
Definition GPUReconstructionProcessing.h:111

o2::gpu::GPUReconstructionProcessing::mTimers
std::vector< std::unique_ptr< timerMeta > > mTimers
Definition GPUReconstructionProcessing.h:129

o2::gpu::GPUReconstructionProcessing::mParCPU
GPUDefParameters * mParCPU
Definition GPUReconstructionProcessing.h:137

o2::gpu::GPUReconstructionProcessing::mTimersGeneralSteps
HighResTimer mTimersGeneralSteps[GPUDataTypes::N_GENERAL_STEPS]
Definition GPUReconstructionProcessing.h:127

o2::gpu::GPUReconstructionProcessing::getNKernelHostThreads
int32_t getNKernelHostThreads(bool splitCores)
Definition GPUReconstructionProcessing.cxx:41

o2::gpu::GPUReconstructionProcessing::mTimerTotal
HighResTimer mTimerTotal
Definition GPUReconstructionProcessing.h:131

o2::gpu::GPUReconstructionProcessing::mParDevice
GPUDefParameters * mParDevice
Definition GPUReconstructionProcessing.h:138

o2::gpu::GPUReconstruction
Definition GPUReconstruction.h:59

o2::gpu::GPUReconstruction::mChains
std::vector< std::unique_ptr< GPUChain > > mChains
Definition GPUReconstruction.h:66

o2::gpu::GPUReconstruction::mHostMemoryPool
void * mHostMemoryPool
Definition GPUReconstruction.h:313

o2::gpu::GPUReconstruction::mMaster
GPUReconstruction * mMaster
Definition GPUReconstruction.h:329

o2::gpu::GPUReconstruction::mMaxHostThreads
int32_t mMaxHostThreads
Definition GPUReconstruction.h:346

o2::gpu::GPUReconstruction::mMemoryScalers
std::unique_ptr< GPUMemorySizeScalers > mMemoryScalers
Definition GPUReconstruction.h:304

o2::gpu::GPUReconstruction::mDeviceMemorySize
size_t mDeviceMemorySize
Definition GPUReconstruction.h:323

o2::gpu::GPUReconstruction::processors
GPUConstantMem * processors()
Definition GPUReconstruction.h:292

o2::gpu::GPUReconstruction::mStatKernelTime
double mStatKernelTime
Definition GPUReconstruction.h:337

o2::gpu::GPUReconstruction::mNEventsProcessed
uint32_t mNEventsProcessed
Definition GPUReconstruction.h:336

o2::gpu::GPUReconstruction::mSlaves
std::vector< GPUReconstruction * > mSlaves
Definition GPUReconstruction.h:330

o2::gpu::GPUReconstruction::IsGPU
bool IsGPU() const
Definition GPUReconstruction.h:189

o2::gpu::GPUReconstruction::mMemoryResources
std::vector< GPUMemoryResource > mMemoryResources
Definition GPUReconstruction.h:63

o2::gpu::GPUReconstruction::mStatNEvents
uint32_t mStatNEvents
Definition GPUReconstruction.h:335

o2::gpu::GPUReconstruction::mStatWallTime
double mStatWallTime
Definition GPUReconstruction.h:338

o2::gpu::GPUReconstruction::mProcessors
std::vector< ProcessorData > mProcessors
Definition GPUReconstruction.h:356

o2::gpu::GPUReconstruction::Exit
int32_t Exit()
Definition GPUReconstruction.cxx:434

o2::gpu::GPUReconstruction::krnlDeviceType::Device
@ Device

o2::gpu::GPUReconstruction::mProcessingSettings
GPUSettingsProcessing mProcessingSettings
Definition GPUReconstruction.h:301

o2::gpu::GPUReconstruction::WriteConstantParams
void WriteConstantParams()
Definition GPUReconstruction.cxx:418

o2::gpu::GPUReconstruction::mStatCPUTime
double mStatCPUTime
Definition GPUReconstruction.h:339

o2::gpu::GPUReconstruction::GPUReconstruction_Create_CPU
static GPUReconstruction * GPUReconstruction_Create_CPU(const GPUSettingsDeviceBackend &cfg)
Definition GPUReconstructionCPU.cxx:50

o2::gpu::GPUReconstruction::ClearAllocatedMemory
void ClearAllocatedMemory(bool clearOutputs=true)
Definition GPUReconstruction.cxx:862

o2::gpu::GPUReconstruction::PrintMemoryOverview
void PrintMemoryOverview()
Definition GPUReconstruction.cxx:894

o2::gpu::GPUReconstruction::getRecoStepNum
int32_t getRecoStepNum(RecoStep step, bool validCheck=true)
Definition GPUReconstruction.cxx:978

o2::gpu::GPUReconstruction::param
GPUParam & param()
Definition GPUReconstruction.h:294

o2::gpu::GPUReconstruction::GetProcessingSettings
const GPUSettingsProcessing & GetProcessingSettings() const
Definition GPUReconstruction.h:194

o2::gpu::GPUReconstruction::EnqueuePipeline
int32_t EnqueuePipeline(bool terminate=false)
Definition GPUReconstruction.cxx:1022

o2::gpu::GPUReconstruction::mThreading
std::shared_ptr< GPUReconstructionThreading > mThreading
Definition GPUReconstruction.h:233

o2::gpu::GPUReconstruction::mHostMemoryPoolEnd
void * mHostMemoryPoolEnd
Definition GPUReconstruction.h:314

o2::gpu::GPUReconstruction::mHostMemoryBase
void * mHostMemoryBase
Definition GPUReconstruction.h:311

o2::gpu::GPUReconstruction::mHostMemorySize
size_t mHostMemorySize
Definition GPUReconstruction.h:316

o2::gpu::GPUReconstruction::mHostMemoryPermanent
void * mHostMemoryPermanent
Definition GPUReconstruction.h:312

o2::gpu::gpu_reconstruction_kernels::threadContext
Definition GPUReconstructionProcessing.h:57

n
GLdouble n
Definition glcorearb.h:1982

x
GLint GLenum GLint x
Definition glcorearb.h:403

src
GLenum src
Definition glcorearb.h:1767

count
GLint GLsizei count
Definition glcorearb.h:399

size
GLsizeiptr size
Definition glcorearb.h:659

type
GLint GLint GLsizei GLint GLenum GLenum type
Definition glcorearb.h:275

dst
GLenum GLenum dst
Definition glcorearb.h:1767

offset
GLintptr offset
Definition glcorearb.h:660

r
GLboolean r
Definition glcorearb.h:1233

param
GLenum GLfloat param
Definition glcorearb.h:271

stream
GLuint GLuint stream
Definition glcorearb.h:1806

o2::gpu::gpu_reconstruction_kernels
Definition GPUReconstruction.h:53

o2::gpu
Definition TrackTRD.h:35

std::to_string
std::string to_string(gsl::span< T, Size > span)
Definition common.h:52

o2::gpu::GPUReconstructionCPU::GPUProcessorProcessors::mProcessorsProc
GPUConstantMem * mProcessorsProc
Definition GPUReconstructionCPU.h:68

o2::gpu::GPUReconstructionProcessing::RecoStepTimerMeta::countToHost
uint32_t countToHost
Definition GPUReconstructionProcessing.h:102

o2::gpu::GPUReconstructionProcessing::RecoStepTimerMeta::countToGPU
uint32_t countToGPU
Definition GPUReconstructionProcessing.h:101

o2::gpu::GPUReconstructionProcessing::RecoStepTimerMeta::timerTotal
HighResTimer timerTotal
Definition GPUReconstructionProcessing.h:97

o2::gpu::GPUReconstructionProcessing::RecoStepTimerMeta::bytesToGPU
size_t bytesToGPU
Definition GPUReconstructionProcessing.h:99

o2::gpu::GPUReconstructionProcessing::RecoStepTimerMeta::timerToHost
HighResTimer timerToHost
Definition GPUReconstructionProcessing.h:96

o2::gpu::GPUReconstructionProcessing::RecoStepTimerMeta::timerCPU
double timerCPU
Definition GPUReconstructionProcessing.h:98

o2::gpu::GPUReconstructionProcessing::RecoStepTimerMeta::bytesToHost
size_t bytesToHost
Definition GPUReconstructionProcessing.h:100

o2::gpu::GPUReconstructionProcessing::RecoStepTimerMeta::timerToGPU
HighResTimer timerToGPU
Definition GPUReconstructionProcessing.h:95

o2::gpu::GPUSettingsDeviceBackend
Definition GPUSettings.h:75

o2::gpu::gpu_reconstruction_kernels::deviceEvent
Definition GPUReconstructionProcessing.h:32

o2::gpu::gpu_reconstruction_kernels::krnlEvent
Definition GPUReconstructionKernels.h:47

o2::gpu::gpu_reconstruction_kernels::krnlProperties
Definition GPUReconstructionKernels.h:54

o2::gpu::gpu_reconstruction_kernels::krnlProperties::nThreads
uint32_t nThreads
Definition GPUReconstructionKernels.h:56

o2::gpu::gpu_reconstruction_kernels::krnlProperties::minBlocks
uint32_t minBlocks
Definition GPUReconstructionKernels.h:57

o2::gpu::gpu_reconstruction_kernels::krnlRunRange
Definition GPUReconstructionKernels.h:42

o2::gpu::gpu_reconstruction_kernels::krnlSetupArgs
Definition GPUReconstructionKernels.h:74

o2::gpu::gpu_reconstruction_kernels::krnlSetupArgs::s
const krnlSetupTime s
Definition GPUReconstructionKernels.h:76

o2::gpu::gpu_reconstruction_kernels::krnlSetupArgs::v
std::tuple< typename std::conditional<(sizeof(Args) > sizeof(void *)), const Args &, const Args >::type... > v
Definition GPUReconstructionKernels.h:77

o2::gpu::gpu_reconstruction_kernels::krnlSetupTime
Definition GPUReconstructionKernels.h:69

o2::gpu::gpu_reconstruction_kernels::krnlSetup::y
krnlRunRange y
Definition GPUReconstructionKernels.h:65

o2::gpu::gpu_reconstruction_kernels::krnlSetup::x
krnlExec x
Definition GPUReconstructionKernels.h:64

o2::gpu::internal::GPUParam_t::occupancyTotal
uint32_t occupancyTotal
Definition GPUParam.h:63

o2::gpu::internal::GPUParam_t::occupancyMap
const uint32_t * occupancyMap
Definition GPUParam.h:62

nEvents
const int nEvents
Definition test_Fifo.cxx:27