dc/d75/GPUChainTrackingMerger_8cxx_source.html

// Copyright 2019-2020 CERN and copyright holders of ALICE O2.

// See https://alice-o2.web.cern.ch/copyright for details of the copyright holders.

// All rights not expressly granted are reserved.

//

// This software is distributed under the terms of the GNU General Public

// License v3 (GPL Version 3), copied verbatim in the file "COPYING".

//

// In applying this license CERN does not waive the privileges and immunities

// granted to it by virtue of its status as an Intergovernmental Organization

// or submit itself to any jurisdiction.


#include "GPUChainTracking.h"

#include "GPUChainTrackingDebug.h"

#include "GPULogging.h"

#include "GPUDefParametersRuntime.h"

#include "GPUO2DataTypes.h"

#include "GPUQA.h"

#include "GPUTPCGMMerger.h"

#include "GPUConstantMem.h"

#include "GPUTPCGMMergerGPU.h"

#include "GPUTPCGMO2Output.h"

#include "GPUTPCGlobalDebugSortKernels.h"

#include "utils/strtag.h"

#include <fstream>


using namespace o2::gpu;


void GPUChainTracking::RunTPCTrackingMerger_MergeBorderTracks(int8_t withinSector, int8_t mergeMode, GPUReconstruction::krnlDeviceType deviceType)

{

  GPUTPCGMMerger& Merger = processors()->tpcMerger;

  bool doGPU = GetRecoStepsGPU() & RecoStep::TPCMerging;

  GPUTPCGMMerger& MergerShadow = doGPU ? processorsShadow()->tpcMerger : Merger;

  if (GetProcessingSettings().deterministicGPUReconstruction) {

    uint32_t nBorderTracks = withinSector == 1 ? NSECTORS : (2 * NSECTORS);

    runKernel<GPUTPCGlobalDebugSortKernels, GPUTPCGlobalDebugSortKernels::borderTracks>({{nBorderTracks, -WarpSize(), 0, deviceType}}, 0);

  }

  uint32_t n = withinSector == -1 ? NSECTORS / 2 : NSECTORS;

  if (GetProcessingSettings().alternateBorderSort == -1 ? mRec->getGPUParameters(doGPU).par_ALTERNATE_BORDER_SORT : GetProcessingSettings().alternateBorderSort) {

    RecordMarker(&mEvents->single, 0);

    TransferMemoryResourceLinkToHost(RecoStep::TPCMerging, Merger.MemoryResMemory(), 0, &mEvents->init);

    for (uint32_t i = 0; i < n; i++) {

      int32_t stream = i % mRec->NStreams();

      runKernel<GPUTPCGMMergerMergeBorders, 0>({GetGridAuto(stream, deviceType), krnlRunRangeNone, {nullptr, stream && i < (uint32_t)mRec->NStreams() ? &mEvents->single : nullptr}}, i, withinSector, mergeMode);

    }

    ReleaseEvent(mEvents->single);

    SynchronizeEventAndRelease(mEvents->init);

    for (uint32_t i = 0; i < n; i++) {

      int32_t stream = i % mRec->NStreams();

      int32_t n1, n2;

      GPUTPCGMBorderTrack *b1, *b2;

      int32_t jSector;

      Merger.MergeBorderTracksSetup(n1, n2, b1, b2, jSector, i, withinSector, mergeMode);

      gputpcgmmergertypes::GPUTPCGMBorderRange* range1 = MergerShadow.BorderRange(i);

      gputpcgmmergertypes::GPUTPCGMBorderRange* range2 = MergerShadow.BorderRange(jSector) + *processors()->tpcTrackers[jSector].NTracks();

      runKernel<GPUTPCGMMergerMergeBorders, 3>({{1, -WarpSize(), stream, deviceType}}, range1, n1, 0);

      runKernel<GPUTPCGMMergerMergeBorders, 3>({{1, -WarpSize(), stream, deviceType}}, range2, n2, 1);

      runKernel<GPUTPCGMMergerMergeBorders, 2>({GetGridAuto(stream, deviceType)}, i, withinSector, mergeMode);

    }

    int32_t ne = std::min<int32_t>(n, mRec->NStreams()) - 1; // Stream 0 must wait for all streams, Note n > 1

    for (int32_t j = 0; j < ne; j++) {

      RecordMarker(&mEvents->sector[j], j + 1);

    }

    StreamWaitForEvents(0, &mEvents->sector[0], ne);

  } else {

    for (uint32_t i = 0; i < n; i++) {

      runKernel<GPUTPCGMMergerMergeBorders, 0>(GetGridAuto(0, deviceType), i, withinSector, mergeMode);

    }

    runKernel<GPUTPCGMMergerMergeBorders, 1>({{2 * n, -WarpSize(), 0, deviceType}}, 0, withinSector, mergeMode);

    for (uint32_t i = 0; i < n; i++) {

      runKernel<GPUTPCGMMergerMergeBorders, 2>(GetGridAuto(0, deviceType), i, withinSector, mergeMode);

    }

  }

  DoDebugAndDump(RecoStep::TPCMerging, GPUChainTrackingDebugFlags::TPCMergingRanges, doGPU, Merger, &GPUTPCGMMerger::DumpMergeRanges, *mDebugFile, withinSector, mergeMode);

  mRec->ReturnVolatileDeviceMemory();

}


void GPUChainTracking::RunTPCTrackingMerger_Resolve(int8_t useOrigTrackParam, int8_t mergeAll, GPUReconstruction::krnlDeviceType deviceType)

{

  runKernel<GPUTPCGMMergerResolve, 0>(GetGridAuto(0, deviceType));

  runKernel<GPUTPCGMMergerResolve, 1>(GetGridAuto(0, deviceType));

  runKernel<GPUTPCGMMergerResolve, 2>(GetGridAuto(0, deviceType));

  runKernel<GPUTPCGMMergerResolve, 3>(GetGridAuto(0, deviceType));

  runKernel<GPUTPCGMMergerResolve, 4>(GetGridAuto(0, deviceType), useOrigTrackParam, mergeAll);

}


int32_t GPUChainTracking::RunTPCTrackingMerger(bool synchronizeOutput)

{

  mRec->PushNonPersistentMemory(qStr2Tag("TPCMERGE"));

  bool doGPU = GetRecoStepsGPU() & RecoStep::TPCMerging;

  GPUReconstruction::krnlDeviceType deviceType = doGPU ? GPUReconstruction::krnlDeviceType::Auto : GPUReconstruction::krnlDeviceType::CPU;

  uint32_t numBlocks = (!mRec->IsGPU() || doGPU) ? BlockCount() : 1;

  GPUTPCGMMerger& Merger = processors()->tpcMerger;

  GPUTPCGMMerger& MergerShadow = doGPU ? processorsShadow()->tpcMerger : Merger;

  GPUTPCGMMerger& MergerShadowAll = doGPU ? processorsShadow()->tpcMerger : Merger;

  const int32_t outputStream = OutputStream();

  if (GetProcessingSettings().debugLevel >= 2) {

    GPUInfo("Running TPC Merger");

  }

  const auto& threadContext = GetThreadContext();


  SynchronizeGPU(); // Need to know the full number of sector tracks

  SetupGPUProcessor(&Merger, true);

  AllocateRegisteredMemory(Merger.MemoryResOutput(), mSubOutputControls[GPUTrackingOutputs::getIndex(&GPUTrackingOutputs::tpcTracks)]);

  AllocateRegisteredMemory(Merger.MemoryResOutputState(), mSubOutputControls[GPUTrackingOutputs::getIndex(&GPUTrackingOutputs::sharedClusterMap)]);


  if (Merger.CheckSectors()) {

    return 1;

  }


  memset(Merger.Memory(), 0, sizeof(*Merger.Memory()));

  WriteToConstantMemory(RecoStep::TPCMerging, (char*)&processors()->tpcMerger - (char*)processors(), &MergerShadow, sizeof(MergerShadow), 0);

  if (doGPU) {

    TransferMemoryResourcesToGPU(RecoStep::TPCMerging, &Merger, 0);

  }


  if (GetProcessingSettings().deterministicGPUReconstruction) {

    runKernel<GPUTPCGlobalDebugSortKernels, GPUTPCGlobalDebugSortKernels::clearIds>(GetGridAuto(0, deviceType), 1);

  }

  for (uint32_t i = 0; i < NSECTORS; i++) {

    runKernel<GPUTPCGMMergerUnpackSaveNumber>({{1, -WarpSize(), 0, deviceType}}, i);

    runKernel<GPUTPCGMMergerUnpackResetIds>(GetGridAuto(0, deviceType), i);

    runKernel<GPUTPCGMMergerSectorRefit>(GetGridAuto(0, deviceType), i); // TODO: Why all in stream 0?

  }

  if (GetProcessingSettings().deterministicGPUReconstruction) {

    runKernel<GPUTPCGMMergerUnpackSaveNumber>({{1, -WarpSize(), 0, deviceType}}, NSECTORS);

    runKernel<GPUTPCGlobalDebugSortKernels, GPUTPCGlobalDebugSortKernels::sectorTracks>({{GPUCA_NSECTORS, -WarpSize(), 0, deviceType}}, 0);

  }

  for (uint32_t i = 0; i < NSECTORS; i++) {

    runKernel<GPUTPCGMMergerUnpackSaveNumber>({{1, -WarpSize(), 0, deviceType}}, NSECTORS + i);

    runKernel<GPUTPCGMMergerUnpackGlobal>(GetGridAuto(0, deviceType), i);

  }

  runKernel<GPUTPCGMMergerUnpackSaveNumber>({{1, -WarpSize(), 0, deviceType}}, 2 * NSECTORS);

  if (GetProcessingSettings().deterministicGPUReconstruction) {

    runKernel<GPUTPCGlobalDebugSortKernels, GPUTPCGlobalDebugSortKernels::sectorTracks>({{GPUCA_NSECTORS, -WarpSize(), 0, deviceType}}, 1);

  }

  DoDebugAndDump(RecoStep::TPCMerging, GPUChainTrackingDebugFlags::TPCMergingSectorTracks, doGPU, Merger, &GPUTPCGMMerger::DumpSectorTracks, *mDebugFile);


  runKernel<GPUTPCGMMergerClearLinks>(GetGridAuto(0, deviceType), false);

  runKernel<GPUMemClean16>({{1, -WarpSize(), 0, deviceType, RecoStep::TPCMerging}}, MergerShadowAll.TmpCounter(), NSECTORS * sizeof(*MergerShadowAll.TmpCounter()));

  runKernel<GPUTPCGMMergerMergeWithinPrepare>(GetGridAuto(0, deviceType));

  RunTPCTrackingMerger_MergeBorderTracks(1, 0, deviceType);

  RunTPCTrackingMerger_Resolve(0, 1, deviceType);

  DoDebugAndDump(RecoStep::TPCMerging, GPUChainTrackingDebugFlags::TPCMergingMatching, doGPU, Merger, &GPUTPCGMMerger::DumpMergedWithinSectors, *mDebugFile);


  runKernel<GPUTPCGMMergerClearLinks>(GetGridAuto(0, deviceType), false);

  runKernel<GPUMemClean16>({{1, -WarpSize(), 0, deviceType, RecoStep::TPCMerging}}, MergerShadowAll.TmpCounter(), 2 * NSECTORS * sizeof(*MergerShadowAll.TmpCounter()));

  runKernel<GPUTPCGMMergerMergeSectorsPrepare>(GetGridBlk(std::max(2u, numBlocks), 0, deviceType), 2, 3, 0);

  RunTPCTrackingMerger_MergeBorderTracks(0, 0, deviceType);

  RunTPCTrackingMerger_Resolve(0, 1, deviceType);

  runKernel<GPUMemClean16>({{1, -WarpSize(), 0, deviceType, RecoStep::TPCMerging}}, MergerShadowAll.TmpCounter(), 2 * NSECTORS * sizeof(*MergerShadowAll.TmpCounter()));

  runKernel<GPUTPCGMMergerMergeSectorsPrepare>(GetGridBlk(std::max(2u, numBlocks), 0, deviceType), 0, 1, 0);

  RunTPCTrackingMerger_MergeBorderTracks(0, 0, deviceType);

  RunTPCTrackingMerger_Resolve(0, 1, deviceType);

  runKernel<GPUMemClean16>({{1, -WarpSize(), 0, deviceType, RecoStep::TPCMerging}}, MergerShadowAll.TmpCounter(), 2 * NSECTORS * sizeof(*MergerShadowAll.TmpCounter()));

  runKernel<GPUTPCGMMergerMergeSectorsPrepare>(GetGridBlk(std::max(2u, numBlocks), 0, deviceType), 0, 1, 1);

  RunTPCTrackingMerger_MergeBorderTracks(0, -1, deviceType);

  RunTPCTrackingMerger_Resolve(0, 1, deviceType);

  DoDebugAndDump(RecoStep::TPCMerging, GPUChainTrackingDebugFlags::TPCMergingMatching, doGPU, Merger, &GPUTPCGMMerger::DumpMergedBetweenSectors, *mDebugFile);


  runKernel<GPUMemClean16>({{1, -WarpSize(), 0, deviceType, RecoStep::TPCMerging}}, MergerShadowAll.TmpCounter(), 2 * NSECTORS * sizeof(*MergerShadowAll.TmpCounter()));


  runKernel<GPUTPCGMMergerLinkExtrapolatedTracks>(GetGridAuto(0, deviceType));

  if (GetProcessingSettings().mergerSanityCheck) {

    Merger.CheckMergeGraph();

  }

  runKernel<GPUTPCGMMergerCollect>(GetGridAuto(0, deviceType));

  if (GetProcessingSettings().deterministicGPUReconstruction) {

    runKernel<GPUTPCGlobalDebugSortKernels, GPUTPCGlobalDebugSortKernels::mergedTracks1>({{1, -WarpSize(), 0, deviceType}}, 1);

    runKernel<GPUTPCGlobalDebugSortKernels, GPUTPCGlobalDebugSortKernels::mergedTracks2>({{1, -WarpSize(), 0, deviceType}}, 1);

  }

  DoDebugAndDump(RecoStep::TPCMerging, GPUChainTrackingDebugFlags::TPCMergingCollectedTracks, doGPU, Merger, &GPUTPCGMMerger::DumpCollected, *mDebugFile);


  if (param().rec.tpc.mergeCE) {

    runKernel<GPUTPCGMMergerClearLinks>(GetGridAuto(0, deviceType), true);

    RunTPCTrackingMerger_MergeBorderTracks(-1, 1, deviceType);

    RunTPCTrackingMerger_MergeBorderTracks(-1, 2, deviceType);

    runKernel<GPUTPCGMMergerMergeCE>(GetGridAuto(0, deviceType));

    DoDebugAndDump(RecoStep::TPCMerging, GPUChainTrackingDebugFlags::TPCMergingCE, doGPU, Merger, &GPUTPCGMMerger::DumpMergeCE, *mDebugFile);

  }

  int32_t waitForTransfer = 0;

  if (doGPU) {

    TransferMemoryResourceLinkToHost(RecoStep::TPCMerging, Merger.MemoryResMemory(), 0, &mEvents->single);

    waitForTransfer = 1;

  }


  const bool mergerSortTracks = GetProcessingSettings().mergerSortTracks == -1 ? mRec->getGPUParameters(doGPU).par_SORT_BEFORE_FIT : GetProcessingSettings().mergerSortTracks;

  if (mergerSortTracks) {

    runKernel<GPUTPCGMMergerSortTracksPrepare>(GetGridAuto(0, deviceType));

    CondWaitEvent(waitForTransfer, &mEvents->single);

    runKernel<GPUTPCGMMergerSortTracks>(GetGridAuto(0, deviceType));

  }

  if (GetProcessingSettings().mergerSanityCheck) {

    Merger.CheckCollectedTracks();

  }


  uint32_t maxId = Merger.NMaxClusters();

  if (maxId > Merger.NMaxClusters()) {

    throw std::runtime_error("mNMaxClusters too small");

  }

  runKernel<GPUMemClean16>({{numBlocks, -ThreadCount(), 0, deviceType, RecoStep::TPCMerging}}, MergerShadowAll.SharedCount(), maxId * sizeof(*MergerShadowAll.SharedCount()));

  runKernel<GPUMemClean16>({{numBlocks, -ThreadCount(), 0, deviceType, RecoStep::TPCMerging}}, MergerShadowAll.ClusterAttachment(), maxId * sizeof(*MergerShadowAll.ClusterAttachment()));

  runKernel<GPUTPCGMMergerPrepareForFit, 0>(GetGridAuto(0, deviceType));

  CondWaitEvent(waitForTransfer, &mEvents->single);

  runKernel<GPUTPCGMMergerSortTracksQPt>(GetGridAuto(0, deviceType));

  runKernel<GPUTPCGMMergerPrepareForFit, 1>(GetGridAuto(0, deviceType));

  runKernel<GPUTPCGMMergerPrepareForFit, 2>(GetGridAuto(0, deviceType));


  DoDebugAndDump(RecoStep::TPCMerging, GPUChainTrackingDebugFlags::TPCMergingPrepareFit, doGPU, Merger, &GPUTPCGMMerger::DumpFitPrepare, *mDebugFile);


  if (doGPU) {

    CondWaitEvent(waitForTransfer, &mEvents->single);

    if (waitForTransfer) {

      ReleaseEvent(mEvents->single);

    }

  } else if (doGPU) {

    TransferMemoryResourcesToGPU(RecoStep::TPCMerging, &Merger, 0);

  }


  if (GetProcessingSettings().delayedOutput) {

    for (uint32_t i = 0; i < mOutputQueue.size(); i++) {

      GPUMemCpy(mOutputQueue[i].step, mOutputQueue[i].dst, mOutputQueue[i].src, mOutputQueue[i].size, outputStream, false);

    }

    mOutputQueue.clear();

  }


  runKernel<GPUTPCGMMergerTrackFit>(doGPU ? GetGrid(Merger.NMergedTracks(), 0) : GetGridAuto(0), mergerSortTracks ? 1 : 0);

  if (param().rec.tpc.retryRefit == 1) {

    runKernel<GPUTPCGMMergerTrackFit>(GetGridAuto(0), -1);

  }

  runKernel<GPUTPCGMMergerFollowLoopers>(GetGridAuto(0));


  DoDebugAndDump(RecoStep::TPCMerging, GPUChainTrackingDebugFlags::TPCMergingRefit, Merger, &GPUTPCGMMerger::DumpRefit, *mDebugFile);

  runKernel<GPUTPCGMMergerFinalize, 0>(GetGridAuto(0, deviceType));

  runKernel<GPUTPCGMMergerFinalize, 1>(GetGridAuto(0, deviceType));

  runKernel<GPUTPCGMMergerFinalize, 2>(GetGridAuto(0, deviceType));

  if (param().rec.tpc.mergeLoopersAfterburner) {

    runKernel<GPUTPCGMMergerMergeLoopers, 0>(doGPU ? GetGrid(Merger.NMergedTracks(), 0, deviceType) : GetGridAuto(0, deviceType));

    if (doGPU) {

      TransferMemoryResourceLinkToHost(RecoStep::TPCMerging, Merger.MemoryResMemory(), 0);

      SynchronizeStream(0); // TODO: could probably synchronize on an event after runKernel<GPUTPCGMMergerMergeLoopers, 1>

    }

    runKernel<GPUTPCGMMergerMergeLoopers, 1>(GetGridAuto(0, deviceType));

    runKernel<GPUTPCGMMergerMergeLoopers, 2>(doGPU ? GetGrid(Merger.Memory()->nLooperMatchCandidates, 0, deviceType) : GetGridAuto(0, deviceType));

    DoDebugAndDump(RecoStep::TPCMerging, GPUChainTrackingDebugFlags::TPCMergingLoopers, Merger, &GPUTPCGMMerger::DumpLoopers, *mDebugFile);

  }

  DoDebugAndDump(RecoStep::TPCMerging, GPUChainTrackingDebugFlags::TPCMergingRefit, doGPU, Merger, &GPUTPCGMMerger::DumpFinal, *mDebugFile);


  if (doGPU) {

    RecordMarker(&mEvents->single, 0);

    auto* waitEvent = &mEvents->single;

    if (GetProcessingSettings().keepDisplayMemory || GetProcessingSettings().createO2Output <= 1 || mFractionalQAEnabled) {

      if (!(GetProcessingSettings().keepDisplayMemory || GetProcessingSettings().createO2Output <= 1)) {

        size_t size = mRec->Res(Merger.MemoryResOutput()).Size() + GPUCA_MEMALIGN;

        void* buffer = GetQA()->AllocateScratchBuffer(size);

        void* bufferEnd = Merger.SetPointersOutput(buffer);

        if ((size_t)((char*)bufferEnd - (char*)buffer) > size) {

          throw std::runtime_error("QA Scratch buffer exceeded");

        }

      }

      GPUMemCpy(RecoStep::TPCMerging, Merger.MergedTracks(), MergerShadowAll.MergedTracks(), Merger.NMergedTracks() * sizeof(*Merger.MergedTracks()), outputStream, 0, nullptr, waitEvent);

      waitEvent = nullptr;

      if (param().dodEdxEnabled) {

        GPUMemCpy(RecoStep::TPCMerging, Merger.MergedTracksdEdx(), MergerShadowAll.MergedTracksdEdx(), Merger.NMergedTracks() * sizeof(*Merger.MergedTracksdEdx()), outputStream, 0);

      }

      GPUMemCpy(RecoStep::TPCMerging, Merger.Clusters(), MergerShadowAll.Clusters(), Merger.NMergedTrackClusters() * sizeof(*Merger.Clusters()), outputStream, 0);

      GPUMemCpy(RecoStep::TPCMerging, Merger.ClusterAttachment(), MergerShadowAll.ClusterAttachment(), Merger.NMaxClusters() * sizeof(*Merger.ClusterAttachment()), outputStream, 0);

    }

    if (GetProcessingSettings().outputSharedClusterMap) {

      TransferMemoryResourceLinkToHost(RecoStep::TPCMerging, Merger.MemoryResOutputState(), outputStream, nullptr, waitEvent);

      waitEvent = nullptr;

    }

    ReleaseEvent(mEvents->single);

  } else {

    TransferMemoryResourcesToGPU(RecoStep::TPCMerging, &Merger, 0);

  }

  if (GetProcessingSettings().keepDisplayMemory && !GetProcessingSettings().keepAllMemory) {

    TransferMemoryResourcesToHost(RecoStep::TPCMerging, &Merger, -1, true);

  }


  mRec->ReturnVolatileDeviceMemory();

  mRec->PopNonPersistentMemory(RecoStep::TPCMerging, qStr2Tag("TPCMERGE"));


#ifdef GPUCA_TPC_GEOMETRY_O2

  if (GetProcessingSettings().createO2Output) {

    if (mTPCSectorScratchOnStack) {

      mRec->PopNonPersistentMemory(RecoStep::TPCSectorTracking, qStr2Tag("TPCSLCD1")); // Return the sector data memory early

      mTPCSectorScratchOnStack = false;

    }


    mRec->PushNonPersistentMemory(qStr2Tag("TPCMERG2"));

    AllocateRegisteredMemory(Merger.MemoryResOutputO2Scratch());

    WriteToConstantMemory(RecoStep::TPCMerging, (char*)&processors()->tpcMerger - (char*)processors(), &MergerShadow, sizeof(MergerShadow), 0);

    if (!GetProcessingSettings().tpcWriteClustersAfterRejection) {

      runKernel<GPUTPCGMO2Output, GPUTPCGMO2Output::prepare>(GetGridAuto(0, deviceType));

    }

    TransferMemoryResourceLinkToHost(RecoStep::TPCMerging, Merger.MemoryResMemory(), 0, &mEvents->single);

    runKernel<GPUTPCGMO2Output, GPUTPCGMO2Output::sort>(GetGridAuto(0, deviceType));

    mRec->ReturnVolatileDeviceMemory();

    SynchronizeEventAndRelease(mEvents->single, doGPU);


    if (GetProcessingSettings().clearO2OutputFromGPU) {

      mRec->MakeFutureDeviceMemoryAllocationsVolatile();

    }

    AllocateRegisteredMemory(Merger.MemoryResOutputO2(), mSubOutputControls[GPUTrackingOutputs::getIndex(&GPUTrackingOutputs::tpcTracksO2)]);

    AllocateRegisteredMemory(Merger.MemoryResOutputO2Clus(), mSubOutputControls[GPUTrackingOutputs::getIndex(&GPUTrackingOutputs::tpcTracksO2ClusRefs)]);

    WriteToConstantMemory(RecoStep::TPCMerging, (char*)&processors()->tpcMerger - (char*)processors(), &MergerShadow, sizeof(MergerShadow), 0);

    runKernel<GPUTPCGMO2Output, GPUTPCGMO2Output::output>(GetGridAuto(0, deviceType));


    if (GetProcessingSettings().runMC && mIOPtrs.clustersNative && mIOPtrs.clustersNative->clustersMCTruth) {

      AllocateRegisteredMemory(Merger.MemoryResOutputO2MC(), mSubOutputControls[GPUTrackingOutputs::getIndex(&GPUTrackingOutputs::tpcTracksO2Labels)]);

      TransferMemoryResourcesToHost(RecoStep::TPCMerging, &Merger, -1, true);

      runKernel<GPUTPCGMO2Output, GPUTPCGMO2Output::mc>(GetGridAuto(0, GPUReconstruction::krnlDeviceType::CPU));

    } else if (doGPU) {

      RecordMarker(&mEvents->single, 0);

      TransferMemoryResourceLinkToHost(RecoStep::TPCMerging, Merger.MemoryResOutputO2(), outputStream, nullptr, &mEvents->single);

      TransferMemoryResourceLinkToHost(RecoStep::TPCMerging, Merger.MemoryResOutputO2Clus(), outputStream);

      ReleaseEvent(mEvents->single);

    }

    mRec->PopNonPersistentMemory(RecoStep::TPCMerging, qStr2Tag("TPCMERG2"));

  }

#endif

  if (doGPU && (synchronizeOutput || GetProcessingSettings().clearO2OutputFromGPU)) {

    SynchronizeStream(outputStream);

  }

  if (GetProcessingSettings().clearO2OutputFromGPU) {

    mRec->ReturnVolatileDeviceMemory();

  }


  mIOPtrs.mergedTracks = Merger.MergedTracks();

  mIOPtrs.nMergedTracks = Merger.NMergedTracks();

  mIOPtrs.mergedTrackHits = Merger.Clusters();

  mIOPtrs.nMergedTrackHits = Merger.NMergedTrackClusters();

  mIOPtrs.mergedTrackHitAttachment = Merger.ClusterAttachment();

  mIOPtrs.mergedTrackHitStates = Merger.ClusterStateExt();

  mIOPtrs.outputTracksTPCO2 = Merger.OutputTracksTPCO2();

  mIOPtrs.nOutputTracksTPCO2 = Merger.NOutputTracksTPCO2();

  mIOPtrs.outputClusRefsTPCO2 = Merger.OutputClusRefsTPCO2();

  mIOPtrs.nOutputClusRefsTPCO2 = Merger.NOutputClusRefsTPCO2();

  mIOPtrs.outputTracksTPCO2MC = Merger.OutputTracksTPCO2MC();


  if (doGPU) {

    processorsShadow()->ioPtrs.mergedTracks = MergerShadow.MergedTracks();

    processorsShadow()->ioPtrs.nMergedTracks = Merger.NMergedTracks();

    processorsShadow()->ioPtrs.mergedTrackHits = MergerShadow.Clusters();

    processorsShadow()->ioPtrs.nMergedTrackHits = Merger.NMergedTrackClusters();

    processorsShadow()->ioPtrs.mergedTrackHitAttachment = MergerShadow.ClusterAttachment();

    processorsShadow()->ioPtrs.mergedTrackHitStates = MergerShadow.ClusterStateExt();

    processorsShadow()->ioPtrs.outputTracksTPCO2 = MergerShadow.OutputTracksTPCO2();

    processorsShadow()->ioPtrs.nOutputTracksTPCO2 = Merger.NOutputTracksTPCO2();

    processorsShadow()->ioPtrs.outputClusRefsTPCO2 = MergerShadow.OutputClusRefsTPCO2();

    processorsShadow()->ioPtrs.nOutputClusRefsTPCO2 = Merger.NOutputClusRefsTPCO2();

    WriteToConstantMemory(RecoStep::TPCMerging, (char*)&processors()->ioPtrs - (char*)processors(), &processorsShadow()->ioPtrs, sizeof(processorsShadow()->ioPtrs), 0);

  }


  if (GetProcessingSettings().debugLevel >= 2) {

    GPUInfo("TPC Merger Finished (output clusters %d / input clusters %d)", Merger.NMergedTrackClusters(), Merger.NClusters());

  }

  return 0;

}


GPUChainTrackingDebug.h

GPUChainTracking.h

i
int32_t i
Definition GPUCommonAlgorithm.h:436

GPUConstantMem.h

GPUCA_MEMALIGN
#define GPUCA_MEMALIGN
Definition GPUDefParametersConstants.h:30

GPULogging.h

GPUO2DataTypes.h

GPUQA.h

GPUTPCGMMergerGPU.h

GPUTPCGMMerger.h

GPUTPCGMO2Output.h

GPUCA_NSECTORS
#define GPUCA_NSECTORS
Definition GPUTPCGeometry.h:22

GPUTPCGlobalDebugSortKernels.h

j
uint32_t j
Definition RawData.h:0

o2::gpu::GPUChainTracking::mEvents
eventStruct * mEvents
Definition GPUChainTracking.h:287

o2::gpu::GPUChainTracking::RunTPCTrackingMerger
int32_t RunTPCTrackingMerger(bool synchronizeOutput=true)
Definition GPUChainTrackingMerger.cxx:89

o2::gpu::GPUChainTracking::mSubOutputControls
std::array< GPUOutputControl *, GPUTrackingOutputs::count()> mSubOutputControls
Definition GPUChainTracking.h:269

o2::gpu::GPUChainTracking::mDebugFile
std::unique_ptr< std::ofstream > mDebugFile
Definition GPUChainTracking.h:284

o2::gpu::GPUChainTracking::mOutputQueue
std::vector< outputQueueEntry > mOutputQueue
Definition GPUChainTracking.h:290

o2::gpu::GPUChainTracking::GetQA
const GPUQA * GetQA() const
Definition GPUChainTracking.h:151

o2::gpu::GPUChainTracking::mFractionalQAEnabled
bool mFractionalQAEnabled
Definition GPUChainTracking.h:193

o2::gpu::GPUChainTracking::mIOPtrs
GPUTrackingInOutPointers & mIOPtrs
Definition GPUChainTracking.h:91

o2::gpu::GPUChainTracking::mTPCSectorScratchOnStack
bool mTPCSectorScratchOnStack
Definition GPUChainTracking.h:274

o2::gpu::GPUChain::RecordMarker
void RecordMarker(deviceEvent *ev, int32_t stream)
Definition GPUChain.h:108

o2::gpu::GPUChain::GPUMemCpy
void GPUMemCpy(RecoStep step, void *dst, const void *src, size_t size, int32_t stream, int32_t toGPU, deviceEvent *ev=nullptr, deviceEvent *evList=nullptr, int32_t nEvents=1)
Definition GPUChain.h:128

o2::gpu::GPUChain::DoDebugAndDump
bool DoDebugAndDump(RecoStep step, uint32_t mask, T &processor, S T::*func, Args &&... args)
Definition GPUChain.h:230

o2::gpu::GPUChain::CondWaitEvent
void CondWaitEvent(T &cond, deviceEvent *ev)
Definition GPUChain.h:100

o2::gpu::GPUChain::SynchronizeGPU
void SynchronizeGPU()
Definition GPUChain.h:110

o2::gpu::GPUChain::GetRecoStepsGPU
GPUReconstruction::RecoStepField GetRecoStepsGPU() const
Definition GPUChain.h:72

o2::gpu::GPUChain::WriteToConstantMemory
void WriteToConstantMemory(RecoStep step, size_t offset, const void *src, size_t size, int32_t stream=-1, deviceEvent *ev=nullptr)
Definition GPUChain.h:127

o2::gpu::GPUChain::ReleaseEvent
void ReleaseEvent(deviceEvent ev, bool doGPU=true)
Definition GPUChain.h:111

o2::gpu::GPUChain::WarpSize
uint32_t WarpSize() const
Definition GPUChain.h:214

o2::gpu::GPUChain::ThreadCount
uint32_t ThreadCount() const
Definition GPUChain.h:215

o2::gpu::GPUChain::AllocateRegisteredMemory
size_t AllocateRegisteredMemory(GPUProcessor *proc)
Definition GPUChain.h:217

o2::gpu::GPUChain::GetThreadContext
virtual std::unique_ptr< GPUReconstructionProcessing::threadContext > GetThreadContext()
Definition GPUChain.h:109

o2::gpu::GPUChain::processors
GPUConstantMem * processors()
Definition GPUChain.h:84

o2::gpu::GPUChain::krnlRunRangeNone
static constexpr krnlRunRange krnlRunRangeNone
Definition GPUChain.h:41

o2::gpu::GPUChain::StreamWaitForEvents
void StreamWaitForEvents(int32_t stream, deviceEvent *evList, int32_t nEvents=1)
Definition GPUChain.h:117

o2::gpu::GPUChain::param
GPUParam & param()
Definition GPUChain.h:87

o2::gpu::GPUChain::SetupGPUProcessor
void SetupGPUProcessor(T *proc, bool allocate)
Definition GPUChain.h:220

o2::gpu::GPUChain::GetProcessingSettings
const GPUSettingsProcessing & GetProcessingSettings() const
Definition GPUChain.h:76

o2::gpu::GPUChain::SynchronizeStream
void SynchronizeStream(int32_t stream)
Definition GPUChain.h:89

o2::gpu::GPUChain::mRec
GPUReconstructionCPU * mRec
Definition GPUChain.h:79

o2::gpu::GPUChain::processorsShadow
GPUConstantMem * processorsShadow()
Definition GPUChain.h:85

o2::gpu::GPUChain::NSECTORS
static constexpr int32_t NSECTORS
Definition GPUChain.h:58

o2::gpu::GPUChain::TransferMemoryResourceLinkToHost
void TransferMemoryResourceLinkToHost(RecoStep step, int16_t res, int32_t stream=-1, deviceEvent *ev=nullptr, deviceEvent *evList=nullptr, int32_t nEvents=1)
Definition GPUChain.h:125

o2::gpu::GPUChain::TransferMemoryResourcesToHost
void TransferMemoryResourcesToHost(RecoStep step, GPUProcessor *proc, int32_t stream=-1, bool all=false)
Definition GPUChain.h:123

o2::gpu::GPUChain::GetGrid
krnlExec GetGrid(uint32_t totalItems, uint32_t nThreads, int32_t stream, GPUReconstruction::krnlDeviceType d=GPUReconstruction::krnlDeviceType::Auto, GPUDataTypes::RecoStep st=GPUDataTypes::RecoStep::NoRecoStep)
Definition GPUChain.cxx:21

o2::gpu::GPUChain::GetGridAuto
krnlExec GetGridAuto(int32_t stream, GPUReconstruction::krnlDeviceType d=GPUReconstruction::krnlDeviceType::Auto, GPUDataTypes::RecoStep st=GPUDataTypes::RecoStep::NoRecoStep)
Definition GPUChain.cxx:42

o2::gpu::GPUChain::GetGridBlk
krnlExec GetGridBlk(uint32_t nBlocks, int32_t stream, GPUReconstruction::krnlDeviceType d=GPUReconstruction::krnlDeviceType::Auto, GPUDataTypes::RecoStep st=GPUDataTypes::RecoStep::NoRecoStep)
Definition GPUChain.cxx:32

o2::gpu::GPUChain::BlockCount
uint32_t BlockCount() const
Definition GPUChain.h:213

o2::gpu::GPUChain::rec
GPUReconstruction * rec()
Definition GPUChain.h:66

o2::gpu::GPUChain::SynchronizeEventAndRelease
void SynchronizeEventAndRelease(deviceEvent &ev, bool doGPU=true)
Definition GPUChain.h:92

o2::gpu::GPUChain::TransferMemoryResourcesToGPU
void TransferMemoryResourcesToGPU(RecoStep step, GPUProcessor *proc, int32_t stream=-1, bool all=false)
Definition GPUChain.h:122

o2::gpu::GPUMemoryResource::Size
size_t Size() const
Definition GPUMemoryResource.h:90

o2::gpu::GPUQA::AllocateScratchBuffer
void * AllocateScratchBuffer(size_t nBytes)
Definition GPUQA.h:55

o2::gpu::GPUReconstructionProcessing::getGPUParameters
const GPUDefParameters & getGPUParameters(bool doGPU) const override
Definition GPUReconstructionProcessing.h:178

o2::gpu::GPUReconstruction::PopNonPersistentMemory
void PopNonPersistentMemory(RecoStep step, uint64_t tag)
Definition GPUReconstruction.cxx:880

o2::gpu::GPUReconstruction::MakeFutureDeviceMemoryAllocationsVolatile
void MakeFutureDeviceMemoryAllocationsVolatile()
Definition GPUReconstruction.cxx:795

o2::gpu::GPUReconstruction::IsGPU
bool IsGPU() const
Definition GPUReconstruction.h:201

o2::gpu::GPUReconstruction::ReturnVolatileDeviceMemory
void ReturnVolatileDeviceMemory()
Definition GPUReconstruction.cxx:801

o2::gpu::GPUReconstruction::krnlDeviceType
krnlDeviceType
Definition GPUReconstruction.h:133

o2::gpu::GPUReconstruction::krnlDeviceType::Auto
@ Auto

o2::gpu::GPUReconstruction::krnlDeviceType::CPU
@ CPU

o2::gpu::GPUReconstruction::Res
GPUMemoryResource & Res(int16_t num)
Definition GPUReconstruction.h:163

o2::gpu::GPUReconstruction::NStreams
uint32_t NStreams() const
Definition GPUReconstruction.h:220

o2::gpu::GPUReconstruction::PushNonPersistentMemory
void PushNonPersistentMemory(uint64_t tag)
Definition GPUReconstruction.cxx:875

o2::gpu::GPUTPCGMBorderTrack
Definition GPUTPCGMBorderTrack.h:31

o2::gpu::GPUTPCGMMerger
Definition GPUTPCGMMerger.h:60

o2::gpu::GPUTPCGMMerger::CheckCollectedTracks
void CheckCollectedTracks()
Definition GPUTPCGMMerger.cxx:220

o2::gpu::GPUTPCGMMerger::DumpMergeCE
void DumpMergeCE(std::ostream &out) const
Definition GPUTPCGMMergerDump.cxx:148

o2::gpu::GPUTPCGMMerger::DumpMergedBetweenSectors
void DumpMergedBetweenSectors(std::ostream &out) const
Definition GPUTPCGMMergerDump.cxx:118

o2::gpu::GPUTPCGMMerger::DumpFitPrepare
void DumpFitPrepare(std::ostream &out) const
Definition GPUTPCGMMergerDump.cxx:160

o2::gpu::GPUTPCGMMerger::CheckSectors
int32_t CheckSectors()
Definition GPUTPCGMMerger.cxx:526

o2::gpu::GPUTPCGMMerger::CheckMergeGraph
void CheckMergeGraph()
Definition GPUTPCGMMerger.cxx:258

o2::gpu::GPUTPCGMMerger::DumpFinal
void DumpFinal(std::ostream &out) const
Definition GPUTPCGMMergerDump.cxx:224

o2::gpu::GPUTPCGMMerger::SetPointersOutput
void * SetPointersOutput(void *mem)
Definition GPUTPCGMMerger.cxx:427

o2::gpu::GPUTPCGMMerger::DumpRefit
void DumpRefit(std::ostream &out) const
Definition GPUTPCGMMergerDump.cxx:192

o2::gpu::GPUTPCGMMerger::DumpMergedWithinSectors
void DumpMergedWithinSectors(std::ostream &out) const
Definition GPUTPCGMMergerDump.cxx:104

o2::gpu::GPUTPCGMMerger::DumpCollected
void DumpCollected(std::ostream &out) const
Definition GPUTPCGMMergerDump.cxx:135

o2::gpu::GPUTPCGMMerger::DumpLoopers
void DumpLoopers(std::ostream &out) const
Definition GPUTPCGMMergerDump.cxx:212

o2::gpu::GPUTPCGMMerger::DumpMergeRanges
void DumpMergeRanges(std::ostream &out, int32_t withinSector, int32_t mergeMode) const
Definition GPUTPCGMMergerDump.cxx:61

o2::gpu::GPUTPCGMMerger::DumpSectorTracks
void DumpSectorTracks(std::ostream &out) const
Definition GPUTPCGMMergerDump.cxx:43

n
GLdouble n
Definition glcorearb.h:1982

src
GLenum src
Definition glcorearb.h:1767

buffer
GLuint buffer
Definition glcorearb.h:655

size
GLsizeiptr size
Definition glcorearb.h:659

dst
GLenum GLenum dst
Definition glcorearb.h:1767

stream
GLuint GLuint stream
Definition glcorearb.h:1806

o2::gpu
Definition TrackTRD.h:35

o2::gpu::TPCMergingRefit
@ TPCMergingRefit
Definition GPUChainTrackingDebug.h:39

o2::gpu::TPCMergingMatching
@ TPCMergingMatching
Definition GPUChainTrackingDebug.h:35

o2::gpu::TPCMergingCollectedTracks
@ TPCMergingCollectedTracks
Definition GPUChainTrackingDebug.h:36

o2::gpu::TPCMergingRanges
@ TPCMergingRanges
Definition GPUChainTrackingDebug.h:33

o2::gpu::TPCMergingSectorTracks
@ TPCMergingSectorTracks
Definition GPUChainTrackingDebug.h:34

o2::gpu::TPCMergingCE
@ TPCMergingCE
Definition GPUChainTrackingDebug.h:37

o2::gpu::TPCMergingPrepareFit
@ TPCMergingPrepareFit
Definition GPUChainTrackingDebug.h:38

o2::gpu::TPCMergingLoopers
@ TPCMergingLoopers
Definition GPUChainTrackingDebug.h:40

strtag.h

qStr2Tag
constexpr T qStr2Tag(const char *str)
Definition strtag.h:22

o2::gpu::GPUChainTracking::eventStruct::single
deviceEvent single
Definition GPUChainTracking.h:215

o2::gpu::GPUChainTracking::eventStruct::sector
deviceEvent sector[NSECTORS]
Definition GPUChainTracking.h:212

o2::gpu::GPUChainTracking::eventStruct::init
deviceEvent init
Definition GPUChainTracking.h:214

o2::gpu::GPUConstantMem::tpcTrackers
GPUTPCTracker tpcTrackers[GPUCA_NSECTORS]
Definition GPUConstantMem.h:43

o2::gpu::GPUConstantMem::tpcMerger
GPUTPCGMMerger tpcMerger
Definition GPUConstantMem.h:46

o2::gpu::GPUConstantMem::ioPtrs
GPUTrackingInOutPointers ioPtrs
Definition GPUConstantMem.h:51

o2::gpu::GPUTrackingInOutPointers::clustersNative
const o2::tpc::ClusterNativeAccess * clustersNative
Definition GPUDataTypes.h:225

o2::gpu::GPUTrackingInOutPointers::outputClusRefsTPCO2
const uint32_t * outputClusRefsTPCO2
Definition GPUDataTypes.h:244

o2::gpu::GPUTrackingInOutPointers::nMergedTracks
uint32_t nMergedTracks
Definition GPUDataTypes.h:237

o2::gpu::GPUTrackingInOutPointers::mergedTrackHitAttachment
const uint32_t * mergedTrackHitAttachment
Definition GPUDataTypes.h:240

o2::gpu::GPUTrackingInOutPointers::outputTracksTPCO2MC
const o2::MCCompLabel * outputTracksTPCO2MC
Definition GPUDataTypes.h:246

o2::gpu::GPUTrackingInOutPointers::nOutputTracksTPCO2
uint32_t nOutputTracksTPCO2
Definition GPUDataTypes.h:243

o2::gpu::GPUTrackingInOutPointers::nMergedTrackHits
uint32_t nMergedTrackHits
Definition GPUDataTypes.h:239

o2::gpu::GPUTrackingInOutPointers::nOutputClusRefsTPCO2
uint32_t nOutputClusRefsTPCO2
Definition GPUDataTypes.h:245

o2::gpu::GPUTrackingInOutPointers::outputTracksTPCO2
const o2::tpc::TrackTPC * outputTracksTPCO2
Definition GPUDataTypes.h:242

o2::gpu::GPUTrackingInOutPointers::mergedTrackHitStates
const uint8_t * mergedTrackHitStates
Definition GPUDataTypes.h:241

o2::gpu::GPUTrackingInOutPointers::mergedTrackHits
const GPUTPCGMMergedTrackHit * mergedTrackHits
Definition GPUDataTypes.h:238

o2::gpu::GPUTrackingInOutPointers::mergedTracks
const GPUTPCGMMergedTrack * mergedTracks
Definition GPUDataTypes.h:236

o2::gpu::GPUTrackingOutputs::tpcTracksO2
GPUOutputControl tpcTracksO2
Definition GPUOutputControl.h:73

o2::gpu::GPUTrackingOutputs::tpcTracksO2Labels
GPUOutputControl tpcTracksO2Labels
Definition GPUOutputControl.h:75

o2::gpu::GPUTrackingOutputs::tpcTracksO2ClusRefs
GPUOutputControl tpcTracksO2ClusRefs
Definition GPUOutputControl.h:74

o2::gpu::GPUTrackingOutputs::getIndex
size_t getIndex(const GPUOutputControl &v)
Definition GPUOutputControl.h:80

o2::gpu::GPUTrackingOutputs::sharedClusterMap
GPUOutputControl sharedClusterMap
Definition GPUOutputControl.h:71

o2::gpu::GPUTrackingOutputs::tpcTracks
GPUOutputControl tpcTracks
Definition GPUOutputControl.h:69

o2::gpu::gputpcgmmergertypes::GPUTPCGMBorderRange
Definition GPUTPCGMMergerTypes.h:47

o2::gpu::internal::GPUParam_t::rec
T rec
Definition GPUParam.h:52

o2::tpc::ClusterNativeAccess::clustersMCTruth
const o2::dataformats::ConstMCTruthContainerView< o2::MCCompLabel > * clustersMCTruth
Definition ClusterNative.h:177