src/gallium/drivers/swr/rasterizer/core/clip.h

   1 /****************************************************************************
   2 * Copyright (C) 2014-2015 Intel Corporation.   All Rights Reserved.
   3 *
   4 * Permission is hereby granted, free of charge, to any person obtaining a
   5 * copy of this software and associated documentation files (the "Software"),
   6 * to deal in the Software without restriction, including without limitation
   7 * the rights to use, copy, modify, merge, publish, distribute, sublicense,
   8 * and/or sell copies of the Software, and to permit persons to whom the
   9 * Software is furnished to do so, subject to the following conditions:
  10 *
  11 * The above copyright notice and this permission notice (including the next
  12 * paragraph) shall be included in all copies or substantial portions of the
  13 * Software.
  14 *
  15 * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
  16 * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
  17 * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL
  18 * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
  19 * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
  20 * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS
  21 * IN THE SOFTWARE.
  22 *
  23 * @file clip.h
  24 *
  25 * @brief Definitions for clipping
  26 *
  27 ******************************************************************************/
  28 #pragma once
  29
  30 #include "common/simdintrin.h"
  31 #include "core/context.h"
  32 #include "core/pa.h"
  33 #include "rdtsc_core.h"
  34
  35 // Temp storage used by the clipper
  36 extern THREAD simdvertex tlsTempVertices[7];
  37
  38 enum SWR_CLIPCODES
  39 {
  40     // Shift clip codes out of the mantissa to prevent denormalized values when used in float compare.
  41     // Guardband is able to use a single high-bit with 4 separate LSBs, because it computes a union, rather than intersection, of clipcodes.
  42 #define CLIPCODE_SHIFT 23
  43     FRUSTUM_LEFT    = (0x01 << CLIPCODE_SHIFT),
  44     FRUSTUM_TOP     = (0x02 << CLIPCODE_SHIFT),
  45     FRUSTUM_RIGHT   = (0x04 << CLIPCODE_SHIFT),
  46     FRUSTUM_BOTTOM  = (0x08 << CLIPCODE_SHIFT),
  47
  48     FRUSTUM_NEAR    = (0x10 << CLIPCODE_SHIFT),
  49     FRUSTUM_FAR     = (0x20 << CLIPCODE_SHIFT),
  50
  51     NEGW            = (0x40 << CLIPCODE_SHIFT),
  52
  53     GUARDBAND_LEFT   = (0x80 << CLIPCODE_SHIFT | 0x1),
  54     GUARDBAND_TOP    = (0x80 << CLIPCODE_SHIFT | 0x2),
  55     GUARDBAND_RIGHT  = (0x80 << CLIPCODE_SHIFT | 0x4),
  56     GUARDBAND_BOTTOM = (0x80 << CLIPCODE_SHIFT | 0x8)
  57 };
  58
  59 #define FRUSTUM_CLIP_MASK (FRUSTUM_LEFT|FRUSTUM_TOP|FRUSTUM_RIGHT|FRUSTUM_BOTTOM|FRUSTUM_NEAR|FRUSTUM_FAR)
  60 #define GUARDBAND_CLIP_MASK (FRUSTUM_NEAR|FRUSTUM_FAR|GUARDBAND_LEFT|GUARDBAND_TOP|GUARDBAND_RIGHT|GUARDBAND_BOTTOM|NEGW)
  61
  62 void Clip(const float *pTriangle, const float *pAttribs, int numAttribs, float *pOutTriangles,
  63           int *numVerts, float *pOutAttribs);
  64
  65 INLINE
  66 void ComputeClipCodes(DRIVER_TYPE type, const API_STATE& state, const simdvector& vertex, simdscalar& clipCodes)
  67 {
  68     clipCodes = _simd_setzero_ps();
  69
  70     // -w
  71     simdscalar vNegW = _simd_mul_ps(vertex.w, _simd_set1_ps(-1.0f));
  72
  73     // FRUSTUM_LEFT
  74     simdscalar vRes = _simd_cmplt_ps(vertex.x, vNegW);
  75     clipCodes = _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(FRUSTUM_LEFT)));
  76
  77     // FRUSTUM_TOP
  78     vRes = _simd_cmplt_ps(vertex.y, vNegW);
  79     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(FRUSTUM_TOP))));
  80
  81     // FRUSTUM_RIGHT
  82     vRes = _simd_cmpgt_ps(vertex.x, vertex.w);
  83     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(FRUSTUM_RIGHT))));
  84
  85     // FRUSTUM_BOTTOM
  86     vRes = _simd_cmpgt_ps(vertex.y, vertex.w);
  87     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(FRUSTUM_BOTTOM))));
  88
  89     if (state.rastState.depthClipEnable)
  90     {
  91         // FRUSTUM_NEAR
  92         // DX clips depth [0..w], GL clips [-w..w]
  93         if (type == DX)
  94         {
  95             vRes = _simd_cmplt_ps(vertex.z, _simd_setzero_ps());
  96         }
  97         else
  98         {
  99             vRes = _simd_cmplt_ps(vertex.z, vNegW);
 100         }
 101         clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(FRUSTUM_NEAR))));
 102
 103         // FRUSTUM_FAR
 104         vRes = _simd_cmpgt_ps(vertex.z, vertex.w);
 105         clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(FRUSTUM_FAR))));
 106     }
 107
 108     // NEGW
 109     vRes = _simd_cmple_ps(vertex.w, _simd_setzero_ps());
 110     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(NEGW))));
 111
 112     // GUARDBAND_LEFT
 113     simdscalar gbMult = _simd_mul_ps(vNegW, _simd_set1_ps(state.gbState.left));
 114     vRes = _simd_cmplt_ps(vertex.x, gbMult);
 115     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(GUARDBAND_LEFT))));
 116
 117     // GUARDBAND_TOP
 118     gbMult = _simd_mul_ps(vNegW, _simd_set1_ps(state.gbState.top));
 119     vRes = _simd_cmplt_ps(vertex.y, gbMult);
 120     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(GUARDBAND_TOP))));
 121
 122     // GUARDBAND_RIGHT
 123     gbMult = _simd_mul_ps(vertex.w, _simd_set1_ps(state.gbState.right));
 124     vRes = _simd_cmpgt_ps(vertex.x, gbMult);
 125     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(GUARDBAND_RIGHT))));
 126
 127     // GUARDBAND_BOTTOM
 128     gbMult = _simd_mul_ps(vertex.w, _simd_set1_ps(state.gbState.bottom));
 129     vRes = _simd_cmpgt_ps(vertex.y, gbMult);
 130     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(GUARDBAND_BOTTOM))));
 131 }
 132
 133 template<uint32_t NumVertsPerPrim>
 134 class Clipper
 135 {
 136 public:
 137     Clipper(uint32_t in_workerId, DRAW_CONTEXT* in_pDC) :
 138         workerId(in_workerId), driverType(in_pDC->pContext->driverType), pDC(in_pDC), state(GetApiState(in_pDC))
 139     {
 140         static_assert(NumVertsPerPrim >= 1 && NumVertsPerPrim <= 3, "Invalid NumVertsPerPrim");
 141     }
 142
 143     void ComputeClipCodes(simdvector vertex[])
 144     {
 145         for (uint32_t i = 0; i < NumVertsPerPrim; ++i)
 146         {
 147             ::ComputeClipCodes(this->driverType, this->state, vertex[i], this->clipCodes[i]);
 148         }
 149     }
 150
 151     simdscalar ComputeClipCodeIntersection()
 152     {
 153         simdscalar result = this->clipCodes[0];
 154         for (uint32_t i = 1; i < NumVertsPerPrim; ++i)
 155         {
 156             result = _simd_and_ps(result, this->clipCodes[i]);
 157         }
 158         return result;
 159     }
 160
 161     simdscalar ComputeClipCodeUnion()
 162     {
 163         simdscalar result = this->clipCodes[0];
 164         for (uint32_t i = 1; i < NumVertsPerPrim; ++i)
 165         {
 166             result = _simd_or_ps(result, this->clipCodes[i]);
 167         }
 168         return result;
 169     }
 170
 171     int ComputeNegWMask()
 172     {
 173         simdscalar clipCodeUnion = ComputeClipCodeUnion();
 174         clipCodeUnion = _simd_and_ps(clipCodeUnion, _simd_castsi_ps(_simd_set1_epi32(NEGW)));
 175         return _simd_movemask_ps(_simd_cmpneq_ps(clipCodeUnion, _simd_setzero_ps()));
 176     }
 177
 178     int ComputeClipMask()
 179     {
 180         simdscalar clipUnion = ComputeClipCodeUnion();
 181         clipUnion = _simd_and_ps(clipUnion, _simd_castsi_ps(_simd_set1_epi32(GUARDBAND_CLIP_MASK)));
 182         return _simd_movemask_ps(_simd_cmpneq_ps(clipUnion, _simd_setzero_ps()));
 183     }
 184
 185     // clipper is responsible for culling any prims with NAN coordinates
 186     int ComputeNaNMask(simdvector prim[])
 187     {
 188         simdscalar vNanMask = _simd_setzero_ps();
 189         for (uint32_t e = 0; e < NumVertsPerPrim; ++e)
 190         {
 191             simdscalar vNan01 = _simd_cmp_ps(prim[e].v[0], prim[e].v[1], _CMP_UNORD_Q);
 192             vNanMask = _simd_or_ps(vNanMask, vNan01);
 193             simdscalar vNan23 = _simd_cmp_ps(prim[e].v[2], prim[e].v[3], _CMP_UNORD_Q);
 194             vNanMask = _simd_or_ps(vNanMask, vNan23);
 195         }
 196
 197         return _simd_movemask_ps(vNanMask);
 198     }
 199
 200     int ComputeUserClipCullMask(PA_STATE& pa, simdvector prim[])
 201     {
 202         uint8_t cullMask = this->state.rastState.cullDistanceMask;
 203         simdscalar vClipCullMask = _simd_setzero_ps();
 204         DWORD index;
 205
 206         simdvector vClipCullDistLo[3];
 207         simdvector vClipCullDistHi[3];
 208
 209         pa.Assemble(VERTEX_CLIPCULL_DIST_LO_SLOT, vClipCullDistLo);
 210         pa.Assemble(VERTEX_CLIPCULL_DIST_HI_SLOT, vClipCullDistHi);
 211         while (_BitScanForward(&index, cullMask))
 212         {
 213             cullMask &= ~(1 << index);
 214             uint32_t slot = index >> 2;
 215             uint32_t component = index & 0x3;
 216
 217             simdscalar vCullMaskElem = _simd_set1_ps(-1.0f);
 218             for (uint32_t e = 0; e < NumVertsPerPrim; ++e)
 219             {
 220                 simdscalar vCullComp;
 221                 if (slot == 0)
 222                 {
 223                     vCullComp = vClipCullDistLo[e][component];
 224                 }
 225                 else
 226                 {
 227                     vCullComp = vClipCullDistHi[e][component];
 228                 }
 229
 230                 // cull if cull distance < 0 || NAN
 231                 simdscalar vCull = _simd_cmp_ps(_mm256_setzero_ps(), vCullComp, _CMP_NLE_UQ);
 232                 vCullMaskElem = _simd_and_ps(vCullMaskElem, vCull);
 233             }
 234             vClipCullMask = _simd_or_ps(vClipCullMask, vCullMaskElem);
 235         }
 236
 237         // clipper should also discard any primitive with NAN clip distance
 238         uint8_t clipMask = this->state.rastState.clipDistanceMask;
 239         while (_BitScanForward(&index, clipMask))
 240         {
 241             clipMask &= ~(1 << index);
 242             uint32_t slot = index >> 2;
 243             uint32_t component = index & 0x3;
 244
 245             for (uint32_t e = 0; e < NumVertsPerPrim; ++e)
 246             {
 247                 simdscalar vClipComp;
 248                 if (slot == 0)
 249                 {
 250                     vClipComp = vClipCullDistLo[e][component];
 251                 }
 252                 else
 253                 {
 254                     vClipComp = vClipCullDistHi[e][component];
 255                 }
 256
 257                 simdscalar vClip = _simd_cmp_ps(vClipComp, vClipComp, _CMP_UNORD_Q);
 258                 vClipCullMask = _simd_or_ps(vClipCullMask, vClip);
 259             }
 260         }
 261
 262         return _simd_movemask_ps(vClipCullMask);
 263     }
 264
 265     // clip a single primitive
 266     int ClipScalar(PA_STATE& pa, uint32_t primIndex, float* pOutPos, float* pOutAttribs)
 267     {
 268         OSALIGNSIMD(float) inVerts[3 * 4];
 269         OSALIGNSIMD(float) inAttribs[3 * KNOB_NUM_ATTRIBUTES * 4];
 270
 271         // transpose primitive position
 272         __m128 verts[3];
 273         pa.AssembleSingle(VERTEX_POSITION_SLOT, primIndex, verts);
 274         _mm_store_ps(&inVerts[0], verts[0]);
 275         _mm_store_ps(&inVerts[4], verts[1]);
 276         _mm_store_ps(&inVerts[8], verts[2]);
 277
 278         // transpose attribs
 279         uint32_t numScalarAttribs = this->state.linkageCount * 4;
 280
 281         int idx = 0;
 282         DWORD slot = 0;
 283         uint32_t mapIdx = 0;
 284         uint32_t tmpLinkage = uint32_t(this->state.linkageMask);
 285         while (_BitScanForward(&slot, tmpLinkage))
 286         {
 287             tmpLinkage &= ~(1 << slot);
 288             // Compute absolute attrib slot in vertex array
 289             uint32_t inputSlot = VERTEX_ATTRIB_START_SLOT + this->state.linkageMap[mapIdx++];
 290             __m128 attrib[3];    // triangle attribs (always 4 wide)
 291             pa.AssembleSingle(inputSlot, primIndex, attrib);
 292             _mm_store_ps(&inAttribs[idx], attrib[0]);
 293             _mm_store_ps(&inAttribs[idx + numScalarAttribs], attrib[1]);
 294             _mm_store_ps(&inAttribs[idx + numScalarAttribs * 2], attrib[2]);
 295             idx += 4;
 296         }
 297
 298         int numVerts;
 299         Clip(inVerts, inAttribs, numScalarAttribs, pOutPos, &numVerts, pOutAttribs);
 300
 301         return numVerts;
 302     }
 303
 304     // clip SIMD primitives
 305     void ClipSimd(const simdscalar& vPrimMask, const simdscalar& vClipMask, PA_STATE& pa, const simdscalari& vPrimId, const simdscalari& vViewportIdx)
 306     {
 307         // input/output vertex store for clipper
 308         simdvertex vertices[7]; // maximum 7 verts generated per triangle
 309
 310         LONG constantInterpMask = this->state.backendState.constantInterpolationMask;
 311         uint32_t provokingVertex = 0;
 312         if(pa.binTopology == TOP_TRIANGLE_FAN)
 313         {
 314             provokingVertex = this->state.frontendState.provokingVertex.triFan;
 315         }
 316         ///@todo: line topology for wireframe?
 317
 318         // assemble pos
 319         simdvector tmpVector[NumVertsPerPrim];
 320         pa.Assemble(VERTEX_POSITION_SLOT, tmpVector);
 321         for (uint32_t i = 0; i < NumVertsPerPrim; ++i)
 322         {
 323             vertices[i].attrib[VERTEX_POSITION_SLOT] = tmpVector[i];
 324         }
 325
 326         // assemble attribs
 327         const SWR_BACKEND_STATE& backendState = this->state.backendState;
 328
 329         int32_t maxSlot = -1;
 330         for (uint32_t slot = 0; slot < backendState.numAttributes; ++slot)
 331         {
 332             // Compute absolute attrib slot in vertex array
 333             uint32_t mapSlot = backendState.swizzleEnable ? backendState.swizzleMap[slot].sourceAttrib : slot;
 334             maxSlot = std::max<int32_t>(maxSlot, mapSlot);
 335             uint32_t inputSlot = VERTEX_ATTRIB_START_SLOT + mapSlot;
 336
 337             pa.Assemble(inputSlot, tmpVector);
 338
 339             // if constant interpolation enabled for this attribute, assign the provoking
 340             // vertex values to all edges
 341             if (_bittest(&constantInterpMask, slot))
 342             {
 343                 for (uint32_t i = 0; i < NumVertsPerPrim; ++i)
 344                 {
 345                     vertices[i].attrib[inputSlot] = tmpVector[provokingVertex];
 346                 }
 347             }
 348             else
 349             {
 350                 for (uint32_t i = 0; i < NumVertsPerPrim; ++i)
 351                 {
 352                     vertices[i].attrib[inputSlot] = tmpVector[i];
 353                 }
 354             }
 355         }
 356
 357         // assemble user clip distances if enabled
 358         if (this->state.rastState.clipDistanceMask & 0xf)
 359         {
 360             pa.Assemble(VERTEX_CLIPCULL_DIST_LO_SLOT, tmpVector);
 361             for (uint32_t i = 0; i < NumVertsPerPrim; ++i)
 362             {
 363                 vertices[i].attrib[VERTEX_CLIPCULL_DIST_LO_SLOT] = tmpVector[i];
 364             }
 365         }
 366
 367         if (this->state.rastState.clipDistanceMask & 0xf0)
 368         {
 369             pa.Assemble(VERTEX_CLIPCULL_DIST_HI_SLOT, tmpVector);
 370             for (uint32_t i = 0; i < NumVertsPerPrim; ++i)
 371             {
 372                 vertices[i].attrib[VERTEX_CLIPCULL_DIST_HI_SLOT] = tmpVector[i];
 373             }
 374         }
 375
 376         uint32_t numAttribs = maxSlot + 1;
 377
 378         simdscalari vNumClippedVerts = ClipPrims((float*)&vertices[0], vPrimMask, vClipMask, numAttribs);
 379
 380         // set up new PA for binning clipped primitives
 381         PFN_PROCESS_PRIMS pfnBinFunc = nullptr;
 382         PRIMITIVE_TOPOLOGY clipTopology = TOP_UNKNOWN;
 383         if (NumVertsPerPrim == 3)
 384         {
 385             pfnBinFunc = GetBinTrianglesFunc((pa.pDC->pState->state.rastState.conservativeRast > 0));
 386             clipTopology = TOP_TRIANGLE_FAN;
 387
 388             // so that the binner knows to bloat wide points later
 389             if (pa.binTopology == TOP_POINT_LIST)
 390                 clipTopology = TOP_POINT_LIST;
 391         }
 392         else if (NumVertsPerPrim == 2)
 393         {
 394             pfnBinFunc = BinLines;
 395             clipTopology = TOP_LINE_LIST;
 396         }
 397         else
 398         {
 399             SWR_ASSERT(0 && "Unexpected points in clipper.");
 400         }
 401
 402
 403         uint32_t* pVertexCount = (uint32_t*)&vNumClippedVerts;
 404         uint32_t* pPrimitiveId = (uint32_t*)&vPrimId;
 405         uint32_t* pViewportIdx = (uint32_t*)&vViewportIdx;
 406
 407         const simdscalari vOffsets = _mm256_set_epi32(
 408             0 * sizeof(simdvertex),  // unused lane
 409             6 * sizeof(simdvertex),
 410             5 * sizeof(simdvertex),
 411             4 * sizeof(simdvertex),
 412             3 * sizeof(simdvertex),
 413             2 * sizeof(simdvertex),
 414             1 * sizeof(simdvertex),
 415             0 * sizeof(simdvertex));
 416
 417         // only need to gather 7 verts
 418         // @todo dynamic mask based on actual # of verts generated per lane
 419         const simdscalar vMask = _mm256_set_ps(0, -1, -1, -1, -1, -1, -1, -1);
 420
 421         uint32_t numClippedPrims = 0;
 422         for (uint32_t inputPrim = 0; inputPrim < pa.NumPrims(); ++inputPrim)
 423         {
 424             uint32_t numEmittedVerts = pVertexCount[inputPrim];
 425             if (numEmittedVerts < NumVertsPerPrim)
 426             {
 427                 continue;
 428             }
 429             SWR_ASSERT(numEmittedVerts <= 7, "Unexpected vertex count from clipper.");
 430
 431             uint32_t numEmittedPrims = GetNumPrims(clipTopology, numEmittedVerts);
 432             numClippedPrims += numEmittedPrims;
 433
 434             // tranpose clipper output so that each lane's vertices are in SIMD order
 435             // set aside space for 2 vertices, as the PA will try to read up to 16 verts
 436             // for triangle fan
 437             simdvertex transposedPrims[2];
 438
 439             // transpose pos
 440             uint8_t* pBase = (uint8_t*)(&vertices[0].attrib[VERTEX_POSITION_SLOT]) + sizeof(float) * inputPrim;
 441             for (uint32_t c = 0; c < 4; ++c)
 442             {
 443                 transposedPrims[0].attrib[VERTEX_POSITION_SLOT][c] = _simd_mask_i32gather_ps(_mm256_undefined_ps(), (const float*)pBase, vOffsets, vMask, 1);
 444                 pBase += sizeof(simdscalar);
 445             }
 446
 447             // transpose attribs
 448             pBase = (uint8_t*)(&vertices[0].attrib[VERTEX_ATTRIB_START_SLOT]) + sizeof(float) * inputPrim;
 449             for (uint32_t attrib = 0; attrib < numAttribs; ++attrib)
 450             {
 451                 uint32_t attribSlot = VERTEX_ATTRIB_START_SLOT + attrib;
 452                 for (uint32_t c = 0; c < 4; ++c)
 453                 {
 454                     transposedPrims[0].attrib[attribSlot][c] = _simd_mask_i32gather_ps(_mm256_undefined_ps(), (const float*)pBase, vOffsets, vMask, 1);
 455                     pBase += sizeof(simdscalar);
 456                 }
 457             }
 458
 459             // transpose user clip distances if enabled
 460             if (this->state.rastState.clipDistanceMask & 0xf)
 461             {
 462                 pBase = (uint8_t*)(&vertices[0].attrib[VERTEX_CLIPCULL_DIST_LO_SLOT]) + sizeof(float) * inputPrim;
 463                 for (uint32_t c = 0; c < 4; ++c)
 464                 {
 465                     transposedPrims[0].attrib[VERTEX_CLIPCULL_DIST_LO_SLOT][c] = _simd_mask_i32gather_ps(_mm256_undefined_ps(), (const float*)pBase, vOffsets, vMask, 1);
 466                     pBase += sizeof(simdscalar);
 467                 }
 468             }
 469
 470             if (this->state.rastState.clipDistanceMask & 0xf0)
 471             {
 472                 pBase = (uint8_t*)(&vertices[0].attrib[VERTEX_CLIPCULL_DIST_HI_SLOT]) + sizeof(float) * inputPrim;
 473                 for (uint32_t c = 0; c < 4; ++c)
 474                 {
 475                     transposedPrims[0].attrib[VERTEX_CLIPCULL_DIST_HI_SLOT][c] = _simd_mask_i32gather_ps(_mm256_undefined_ps(), (const float*)pBase, vOffsets, vMask, 1);
 476                     pBase += sizeof(simdscalar);
 477                 }
 478             }
 479
 480             PA_STATE_OPT clipPa(this->pDC, numEmittedPrims, (uint8_t*)&transposedPrims[0], numEmittedVerts, true, clipTopology);
 481
 482             while (clipPa.GetNextStreamOutput())
 483             {
 484                 do
 485                 {
 486                     simdvector attrib[NumVertsPerPrim];
 487                     bool assemble = clipPa.Assemble(VERTEX_POSITION_SLOT, attrib);
 488                     if (assemble)
 489                     {
 490                         static const uint32_t primMaskMap[] = { 0x0, 0x1, 0x3, 0x7, 0xf, 0x1f, 0x3f, 0x7f, 0xff };
 491                         pfnBinFunc(this->pDC, clipPa, this->workerId, attrib, primMaskMap[numEmittedPrims], _simd_set1_epi32(pPrimitiveId[inputPrim]), _simd_set1_epi32(pViewportIdx[inputPrim]));
 492                     }
 493                 } while (clipPa.NextPrim());
 494             }
 495         }
 496
 497         // update global pipeline stat
 498         SWR_CONTEXT* pContext = this->pDC->pContext;
 499         UPDATE_STAT_FE(CPrimitives, numClippedPrims);
 500     }
 501
 502     // execute the clipper stage
 503     void ExecuteStage(PA_STATE& pa, simdvector prim[], uint32_t primMask, simdscalari primId, simdscalari viewportIdx)
 504     {
 505         // set up binner based on PA state
 506         PFN_PROCESS_PRIMS pfnBinner;
 507         switch (pa.binTopology)
 508         {
 509         case TOP_POINT_LIST:
 510             pfnBinner = BinPoints;
 511             break;
 512         case TOP_LINE_LIST:
 513         case TOP_LINE_STRIP:
 514         case TOP_LINE_LOOP:
 515         case TOP_LINE_LIST_ADJ:
 516         case TOP_LISTSTRIP_ADJ:
 517             pfnBinner = BinLines;
 518             break;
 519         default:
 520             pfnBinner = GetBinTrianglesFunc((pa.pDC->pState->state.rastState.conservativeRast > 0));
 521             break;
 522         };
 523
 524         // update clipper invocations pipeline stat
 525         SWR_CONTEXT* pContext = this->pDC->pContext;
 526         uint32_t numInvoc = _mm_popcnt_u32(primMask);
 527         UPDATE_STAT_FE(CInvocations, numInvoc);
 528
 529         ComputeClipCodes(prim);
 530
 531         // cull prims with NAN coords
 532         primMask &= ~ComputeNaNMask(prim);
 533
 534         // user cull distance cull
 535         if (this->state.rastState.cullDistanceMask)
 536         {
 537             primMask &= ~ComputeUserClipCullMask(pa, prim);
 538         }
 539
 540         // cull prims outside view frustum
 541         simdscalar clipIntersection = ComputeClipCodeIntersection();
 542         int validMask = primMask & _simd_movemask_ps(_simd_cmpeq_ps(clipIntersection, _simd_setzero_ps()));
 543
 544         // skip clipping for points
 545         uint32_t clipMask = 0;
 546         if (NumVertsPerPrim != 1)
 547         {
 548             clipMask = primMask & ComputeClipMask();
 549         }
 550
 551         if (clipMask)
 552         {
 553             RDTSC_START(FEGuardbandClip);
 554             // we have to clip tris, execute the clipper, which will also
 555             // call the binner
 556             ClipSimd(vMask(primMask), vMask(clipMask), pa, primId, viewportIdx);
 557             RDTSC_STOP(FEGuardbandClip, 1, 0);
 558         }
 559         else if (validMask)
 560         {
 561             // update CPrimitives pipeline state
 562             SWR_CONTEXT* pContext = this->pDC->pContext;
 563             UPDATE_STAT_FE(CPrimitives, _mm_popcnt_u32(validMask));
 564
 565             // forward valid prims directly to binner
 566             pfnBinner(this->pDC, pa, this->workerId, prim, validMask, primId, viewportIdx);
 567         }
 568     }
 569
 570 private:
 571     inline simdscalar ComputeInterpFactor(simdscalar boundaryCoord0, simdscalar boundaryCoord1)
 572     {
 573         return _simd_div_ps(boundaryCoord0, _simd_sub_ps(boundaryCoord0, boundaryCoord1));
 574     }
 575
 576     inline simdscalari ComputeOffsets(uint32_t attrib, simdscalari vIndices, uint32_t component)
 577     {
 578         const uint32_t simdVertexStride = sizeof(simdvertex);
 579         const uint32_t componentStride = sizeof(simdscalar);
 580         const uint32_t attribStride = sizeof(simdvector);
 581         const __m256i vElemOffset = _mm256_set_epi32(7 * sizeof(float), 6 * sizeof(float), 5 * sizeof(float), 4 * sizeof(float),
 582             3 * sizeof(float), 2 * sizeof(float), 1 * sizeof(float), 0 * sizeof(float));
 583
 584         // step to the simdvertex
 585         simdscalari vOffsets = _simd_mullo_epi32(vIndices, _simd_set1_epi32(simdVertexStride));
 586
 587         // step to the attribute and component
 588         vOffsets = _simd_add_epi32(vOffsets, _simd_set1_epi32(attribStride * attrib + componentStride * component));
 589
 590         // step to the lane
 591         vOffsets = _simd_add_epi32(vOffsets, vElemOffset);
 592
 593         return vOffsets;
 594     }
 595
 596     // gathers a single component for a given attribute for each SIMD lane
 597     inline simdscalar GatherComponent(const float* pBuffer, uint32_t attrib, simdscalar vMask, simdscalari vIndices, uint32_t component)
 598     {
 599         simdscalari vOffsets = ComputeOffsets(attrib, vIndices, component);
 600         simdscalar vSrc = _mm256_undefined_ps();
 601         return _simd_mask_i32gather_ps(vSrc, pBuffer, vOffsets, vMask, 1);
 602     }
 603
 604     inline void ScatterComponent(const float* pBuffer, uint32_t attrib, simdscalar vMask, simdscalari vIndices, uint32_t component, simdscalar vSrc)
 605     {
 606         simdscalari vOffsets = ComputeOffsets(attrib, vIndices, component);
 607
 608         uint32_t* pOffsets = (uint32_t*)&vOffsets;
 609         float* pSrc = (float*)&vSrc;
 610         uint32_t mask = _simd_movemask_ps(vMask);
 611         DWORD lane;
 612         while (_BitScanForward(&lane, mask))
 613         {
 614             mask &= ~(1 << lane);
 615             uint8_t* pBuf = (uint8_t*)pBuffer + pOffsets[lane];
 616             *(float*)pBuf = pSrc[lane];
 617         }
 618     }
 619
 620     template<SWR_CLIPCODES ClippingPlane>
 621     inline void intersect(
 622         const simdscalar& vActiveMask,  // active lanes to operate on
 623         const simdscalari& s,           // index to first edge vertex v0 in pInPts.
 624         const simdscalari& p,           // index to second edge vertex v1 in pInPts.
 625         const simdvector& v1,           // vertex 0 position
 626         const simdvector& v2,           // vertex 1 position
 627         simdscalari& outIndex,          // output index.
 628         const float *pInVerts,          // array of all the input positions.
 629         uint32_t numInAttribs,          // number of attributes per vertex.
 630         float *pOutVerts)               // array of output positions. We'll write our new intersection point at i*4.
 631     {
 632         // compute interpolation factor
 633         simdscalar t;
 634         switch (ClippingPlane)
 635         {
 636         case FRUSTUM_LEFT:      t = ComputeInterpFactor(_simd_add_ps(v1[3], v1[0]), _simd_add_ps(v2[3], v2[0])); break;
 637         case FRUSTUM_RIGHT:     t = ComputeInterpFactor(_simd_sub_ps(v1[3], v1[0]), _simd_sub_ps(v2[3], v2[0])); break;
 638         case FRUSTUM_TOP:       t = ComputeInterpFactor(_simd_add_ps(v1[3], v1[1]), _simd_add_ps(v2[3], v2[1])); break;
 639         case FRUSTUM_BOTTOM:    t = ComputeInterpFactor(_simd_sub_ps(v1[3], v1[1]), _simd_sub_ps(v2[3], v2[1])); break;
 640         case FRUSTUM_NEAR:
 641             // DX Znear plane is 0, GL is -w
 642             if (this->driverType == DX)
 643             {
 644                 t = ComputeInterpFactor(v1[2], v2[2]);
 645             }
 646             else
 647             {
 648                 t = ComputeInterpFactor(_simd_add_ps(v1[3], v1[2]), _simd_add_ps(v2[3], v2[2]));
 649             }
 650             break;
 651         case FRUSTUM_FAR:       t = ComputeInterpFactor(_simd_sub_ps(v1[3], v1[2]), _simd_sub_ps(v2[3], v2[2])); break;
 652         default: SWR_ASSERT(false, "invalid clipping plane: %d", ClippingPlane);
 653         };
 654
 655         // interpolate position and store
 656         for (uint32_t c = 0; c < 4; ++c)
 657         {
 658             simdscalar vOutPos = _simd_fmadd_ps(_simd_sub_ps(v2[c], v1[c]), t, v1[c]);
 659             ScatterComponent(pOutVerts, VERTEX_POSITION_SLOT, vActiveMask, outIndex, c, vOutPos);
 660         }
 661
 662         // interpolate attributes and store
 663         for (uint32_t a = 0; a < numInAttribs; ++a)
 664         {
 665             uint32_t attribSlot = VERTEX_ATTRIB_START_SLOT + a;
 666             for (uint32_t c = 0; c < 4; ++c)
 667             {
 668                 simdscalar vAttrib0 = GatherComponent(pInVerts, attribSlot, vActiveMask, s, c);
 669                 simdscalar vAttrib1 = GatherComponent(pInVerts, attribSlot, vActiveMask, p, c);
 670                 simdscalar vOutAttrib = _simd_fmadd_ps(_simd_sub_ps(vAttrib1, vAttrib0), t, vAttrib0);
 671                 ScatterComponent(pOutVerts, attribSlot, vActiveMask, outIndex, c, vOutAttrib);
 672             }
 673         }
 674
 675         // interpolate clip distance if enabled
 676         if (this->state.rastState.clipDistanceMask & 0xf)
 677         {
 678             uint32_t attribSlot = VERTEX_CLIPCULL_DIST_LO_SLOT;
 679             for (uint32_t c = 0; c < 4; ++c)
 680             {
 681                 simdscalar vAttrib0 = GatherComponent(pInVerts, attribSlot, vActiveMask, s, c);
 682                 simdscalar vAttrib1 = GatherComponent(pInVerts, attribSlot, vActiveMask, p, c);
 683                 simdscalar vOutAttrib = _simd_fmadd_ps(_simd_sub_ps(vAttrib1, vAttrib0), t, vAttrib0);
 684                 ScatterComponent(pOutVerts, attribSlot, vActiveMask, outIndex, c, vOutAttrib);
 685             }
 686         }
 687
 688         if (this->state.rastState.clipDistanceMask & 0xf0)
 689         {
 690             uint32_t attribSlot = VERTEX_CLIPCULL_DIST_HI_SLOT;
 691             for (uint32_t c = 0; c < 4; ++c)
 692             {
 693                 simdscalar vAttrib0 = GatherComponent(pInVerts, attribSlot, vActiveMask, s, c);
 694                 simdscalar vAttrib1 = GatherComponent(pInVerts, attribSlot, vActiveMask, p, c);
 695                 simdscalar vOutAttrib = _simd_fmadd_ps(_simd_sub_ps(vAttrib1, vAttrib0), t, vAttrib0);
 696                 ScatterComponent(pOutVerts, attribSlot, vActiveMask, outIndex, c, vOutAttrib);
 697             }
 698         }
 699     }
 700
 701     template<SWR_CLIPCODES ClippingPlane>
 702     inline simdscalar inside(const simdvector& v)
 703     {
 704         switch (ClippingPlane)
 705         {
 706         case FRUSTUM_LEFT:      return _simd_cmpge_ps(v[0], _simd_mul_ps(v[3], _simd_set1_ps(-1.0f)));
 707         case FRUSTUM_RIGHT:     return _simd_cmple_ps(v[0], v[3]);
 708         case FRUSTUM_TOP:       return _simd_cmpge_ps(v[1], _simd_mul_ps(v[3], _simd_set1_ps(-1.0f)));
 709         case FRUSTUM_BOTTOM:    return _simd_cmple_ps(v[1], v[3]);
 710         case FRUSTUM_NEAR:      return _simd_cmpge_ps(v[2], this->driverType == DX ? _simd_setzero_ps() : _simd_mul_ps(v[3], _simd_set1_ps(-1.0f)));
 711         case FRUSTUM_FAR:       return _simd_cmple_ps(v[2], v[3]);
 712         default:
 713             SWR_ASSERT(false, "invalid clipping plane: %d", ClippingPlane);
 714             return _simd_setzero_ps();
 715         }
 716     }
 717
 718     template<SWR_CLIPCODES ClippingPlane>
 719     simdscalari ClipTriToPlane(const float* pInVerts, const simdscalari& vNumInPts, uint32_t numInAttribs, float* pOutVerts)
 720     {
 721         simdscalari vCurIndex = _simd_setzero_si();
 722         simdscalari vOutIndex = _simd_setzero_si();
 723         simdscalar vActiveMask = _simd_castsi_ps(_simd_cmplt_epi32(vCurIndex, vNumInPts));
 724
 725         while (!_simd_testz_ps(vActiveMask, vActiveMask)) // loop until activeMask is empty
 726         {
 727             simdscalari s = vCurIndex;
 728             simdscalari p = _simd_add_epi32(s, _simd_set1_epi32(1));
 729             simdscalari underFlowMask = _simd_cmpgt_epi32(vNumInPts, p);
 730             p = _simd_castps_si(_simd_blendv_ps(_simd_setzero_ps(), _simd_castsi_ps(p), _simd_castsi_ps(underFlowMask)));
 731
 732             // gather position
 733             simdvector vInPos0, vInPos1;
 734             for (uint32_t c = 0; c < 4; ++c)
 735             {
 736                 vInPos0[c] = GatherComponent(pInVerts, VERTEX_POSITION_SLOT, vActiveMask, s, c);
 737                 vInPos1[c] = GatherComponent(pInVerts, VERTEX_POSITION_SLOT, vActiveMask, p, c);
 738             }
 739
 740             // compute inside mask
 741             simdscalar s_in = inside<ClippingPlane>(vInPos0);
 742             simdscalar p_in = inside<ClippingPlane>(vInPos1);
 743
 744             // compute intersection mask (s_in != p_in)
 745             simdscalar intersectMask = _simd_xor_ps(s_in, p_in);
 746             intersectMask = _simd_and_ps(intersectMask, vActiveMask);
 747
 748             // store s if inside
 749             s_in = _simd_and_ps(s_in, vActiveMask);
 750             if (!_simd_testz_ps(s_in, s_in))
 751             {
 752                 // store position
 753                 for (uint32_t c = 0; c < 4; ++c)
 754                 {
 755                     ScatterComponent(pOutVerts, VERTEX_POSITION_SLOT, s_in, vOutIndex, c, vInPos0[c]);
 756                 }
 757
 758                 // store attribs
 759                 for (uint32_t a = 0; a < numInAttribs; ++a)
 760                 {
 761                     uint32_t attribSlot = VERTEX_ATTRIB_START_SLOT + a;
 762                     for (uint32_t c = 0; c < 4; ++c)
 763                     {
 764                         simdscalar vAttrib = GatherComponent(pInVerts, attribSlot, s_in, s, c);
 765                         ScatterComponent(pOutVerts, attribSlot, s_in, vOutIndex, c, vAttrib);
 766                     }
 767                 }
 768
 769                 // store clip distance if enabled
 770                 if (this->state.rastState.clipDistanceMask & 0xf)
 771                 {
 772                     uint32_t attribSlot = VERTEX_CLIPCULL_DIST_LO_SLOT;
 773                     for (uint32_t c = 0; c < 4; ++c)
 774                     {
 775                         simdscalar vAttrib = GatherComponent(pInVerts, attribSlot, s_in, s, c);
 776                         ScatterComponent(pOutVerts, attribSlot, s_in, vOutIndex, c, vAttrib);
 777                     }
 778                 }
 779
 780                 if (this->state.rastState.clipDistanceMask & 0xf0)
 781                 {
 782                     uint32_t attribSlot = VERTEX_CLIPCULL_DIST_HI_SLOT;
 783                     for (uint32_t c = 0; c < 4; ++c)
 784                     {
 785                         simdscalar vAttrib = GatherComponent(pInVerts, attribSlot, s_in, s, c);
 786                         ScatterComponent(pOutVerts, attribSlot, s_in, vOutIndex, c, vAttrib);
 787                     }
 788                 }
 789
 790                 // increment outIndex
 791                 vOutIndex = _simd_blendv_epi32(vOutIndex, _simd_add_epi32(vOutIndex, _simd_set1_epi32(1)), s_in);
 792             }
 793
 794             // compute and store intersection
 795             if (!_simd_testz_ps(intersectMask, intersectMask))
 796             {
 797                 intersect<ClippingPlane>(intersectMask, s, p, vInPos0, vInPos1, vOutIndex, pInVerts, numInAttribs, pOutVerts);
 798
 799                 // increment outIndex for active lanes
 800                 vOutIndex = _simd_blendv_epi32(vOutIndex, _simd_add_epi32(vOutIndex, _simd_set1_epi32(1)), intersectMask);
 801             }
 802
 803             // increment loop index and update active mask
 804             vCurIndex = _simd_add_epi32(vCurIndex, _simd_set1_epi32(1));
 805             vActiveMask = _simd_castsi_ps(_simd_cmplt_epi32(vCurIndex, vNumInPts));
 806         }
 807
 808         return vOutIndex;
 809     }
 810
 811     template<SWR_CLIPCODES ClippingPlane>
 812     simdscalari ClipLineToPlane(const float* pInVerts, const simdscalari& vNumInPts, uint32_t numInAttribs, float* pOutVerts)
 813     {
 814         simdscalari vCurIndex = _simd_setzero_si();
 815         simdscalari vOutIndex = _simd_setzero_si();
 816         simdscalar vActiveMask = _simd_castsi_ps(_simd_cmplt_epi32(vCurIndex, vNumInPts));
 817
 818         if (!_simd_testz_ps(vActiveMask, vActiveMask))
 819         {
 820             simdscalari s = vCurIndex;
 821             simdscalari p = _simd_add_epi32(s, _simd_set1_epi32(1));
 822
 823             // gather position
 824             simdvector vInPos0, vInPos1;
 825             for (uint32_t c = 0; c < 4; ++c)
 826             {
 827                 vInPos0[c] = GatherComponent(pInVerts, VERTEX_POSITION_SLOT, vActiveMask, s, c);
 828                 vInPos1[c] = GatherComponent(pInVerts, VERTEX_POSITION_SLOT, vActiveMask, p, c);
 829             }
 830
 831             // compute inside mask
 832             simdscalar s_in = inside<ClippingPlane>(vInPos0);
 833             simdscalar p_in = inside<ClippingPlane>(vInPos1);
 834
 835             // compute intersection mask (s_in != p_in)
 836             simdscalar intersectMask = _simd_xor_ps(s_in, p_in);
 837             intersectMask = _simd_and_ps(intersectMask, vActiveMask);
 838
 839             // store s if inside
 840             s_in = _simd_and_ps(s_in, vActiveMask);
 841             if (!_simd_testz_ps(s_in, s_in))
 842             {
 843                 for (uint32_t c = 0; c < 4; ++c)
 844                 {
 845                     ScatterComponent(pOutVerts, VERTEX_POSITION_SLOT, s_in, vOutIndex, c, vInPos0[c]);
 846                 }
 847
 848                 // interpolate attributes and store
 849                 for (uint32_t a = 0; a < numInAttribs; ++a)
 850                 {
 851                     uint32_t attribSlot = VERTEX_ATTRIB_START_SLOT + a;
 852                     for (uint32_t c = 0; c < 4; ++c)
 853                     {
 854                         simdscalar vAttrib = GatherComponent(pInVerts, attribSlot, s_in, s, c);
 855                         ScatterComponent(pOutVerts, attribSlot, s_in, vOutIndex, c, vAttrib);
 856                     }
 857                 }
 858
 859                 // increment outIndex
 860                 vOutIndex = _simd_blendv_epi32(vOutIndex, _simd_add_epi32(vOutIndex, _simd_set1_epi32(1)), s_in);
 861             }
 862
 863             // compute and store intersection
 864             if (!_simd_testz_ps(intersectMask, intersectMask))
 865             {
 866                 intersect<ClippingPlane>(intersectMask, s, p, vInPos0, vInPos1, vOutIndex, pInVerts, numInAttribs, pOutVerts);
 867
 868                 // increment outIndex for active lanes
 869                 vOutIndex = _simd_blendv_epi32(vOutIndex, _simd_add_epi32(vOutIndex, _simd_set1_epi32(1)), intersectMask);
 870             }
 871
 872             // store p if inside
 873             p_in = _simd_and_ps(p_in, vActiveMask);
 874             if (!_simd_testz_ps(p_in, p_in))
 875             {
 876                 for (uint32_t c = 0; c < 4; ++c)
 877                 {
 878                     ScatterComponent(pOutVerts, VERTEX_POSITION_SLOT, p_in, vOutIndex, c, vInPos1[c]);
 879                 }
 880
 881                 // interpolate attributes and store
 882                 for (uint32_t a = 0; a < numInAttribs; ++a)
 883                 {
 884                     uint32_t attribSlot = VERTEX_ATTRIB_START_SLOT + a;
 885                     for (uint32_t c = 0; c < 4; ++c)
 886                     {
 887                         simdscalar vAttrib = GatherComponent(pInVerts, attribSlot, p_in, p, c);
 888                         ScatterComponent(pOutVerts, attribSlot, p_in, vOutIndex, c, vAttrib);
 889                     }
 890                 }
 891
 892                 // increment outIndex
 893                 vOutIndex = _simd_blendv_epi32(vOutIndex, _simd_add_epi32(vOutIndex, _simd_set1_epi32(1)), p_in);
 894             }
 895         }
 896
 897         return vOutIndex;
 898     }
 899
 900     //////////////////////////////////////////////////////////////////////////
 901     /// @brief Vertical clipper. Clips SIMD primitives at a time
 902     /// @param pVertices - pointer to vertices in SOA form. Clipper will read input and write results to this buffer
 903     /// @param vPrimMask - mask of valid input primitives, including non-clipped prims
 904     /// @param numAttribs - number of valid input attribs, including position
 905     simdscalari ClipPrims(float* pVertices, const simdscalar& vPrimMask, const simdscalar& vClipMask, int numAttribs)
 906     {
 907         // temp storage
 908         float* pTempVerts = (float*)&tlsTempVertices[0];
 909
 910         // zero out num input verts for non-active lanes
 911         simdscalari vNumInPts = _simd_set1_epi32(NumVertsPerPrim);
 912         vNumInPts = _simd_blendv_epi32(_simd_setzero_si(), vNumInPts, vClipMask);
 913
 914         // clip prims to frustum
 915         simdscalari vNumOutPts;
 916         if (NumVertsPerPrim == 3)
 917         {
 918             vNumOutPts = ClipTriToPlane<FRUSTUM_NEAR>(pVertices, vNumInPts, numAttribs, pTempVerts);
 919             vNumOutPts = ClipTriToPlane<FRUSTUM_FAR>(pTempVerts, vNumOutPts, numAttribs, pVertices);
 920             vNumOutPts = ClipTriToPlane<FRUSTUM_LEFT>(pVertices, vNumOutPts, numAttribs, pTempVerts);
 921             vNumOutPts = ClipTriToPlane<FRUSTUM_RIGHT>(pTempVerts, vNumOutPts, numAttribs, pVertices);
 922             vNumOutPts = ClipTriToPlane<FRUSTUM_BOTTOM>(pVertices, vNumOutPts, numAttribs, pTempVerts);
 923             vNumOutPts = ClipTriToPlane<FRUSTUM_TOP>(pTempVerts, vNumOutPts, numAttribs, pVertices);
 924         }
 925         else
 926         {
 927             SWR_ASSERT(NumVertsPerPrim == 2);
 928             vNumOutPts = ClipLineToPlane<FRUSTUM_NEAR>(pVertices, vNumInPts, numAttribs, pTempVerts);
 929             vNumOutPts = ClipLineToPlane<FRUSTUM_FAR>(pTempVerts, vNumOutPts, numAttribs, pVertices);
 930             vNumOutPts = ClipLineToPlane<FRUSTUM_LEFT>(pVertices, vNumOutPts, numAttribs, pTempVerts);
 931             vNumOutPts = ClipLineToPlane<FRUSTUM_RIGHT>(pTempVerts, vNumOutPts, numAttribs, pVertices);
 932             vNumOutPts = ClipLineToPlane<FRUSTUM_BOTTOM>(pVertices, vNumOutPts, numAttribs, pTempVerts);
 933             vNumOutPts = ClipLineToPlane<FRUSTUM_TOP>(pTempVerts, vNumOutPts, numAttribs, pVertices);
 934         }
 935
 936         // restore num verts for non-clipped, active lanes
 937         simdscalar vNonClippedMask = _simd_andnot_ps(vClipMask, vPrimMask);
 938         vNumOutPts = _simd_blendv_epi32(vNumOutPts, _simd_set1_epi32(NumVertsPerPrim), vNonClippedMask);
 939
 940         return vNumOutPts;
 941     }
 942
 943     const uint32_t workerId{ 0 };
 944     const DRIVER_TYPE driverType{ DX };
 945     DRAW_CONTEXT* pDC{ nullptr };
 946     const API_STATE& state;
 947     simdscalar clipCodes[NumVertsPerPrim];
 948 };
 949
 950
 951 // pipeline stage functions
 952 void ClipTriangles(DRAW_CONTEXT *pDC, PA_STATE& pa, uint32_t workerId, simdvector prims[], uint32_t primMask, simdscalari primId, simdscalari viewportIdx);
 953 void ClipLines(DRAW_CONTEXT *pDC, PA_STATE& pa, uint32_t workerId, simdvector prims[], uint32_t primMask, simdscalari primId, simdscalari viewportIdx);
 954 void ClipPoints(DRAW_CONTEXT *pDC, PA_STATE& pa, uint32_t workerId, simdvector prims[], uint32_t primMask, simdscalari primId, simdscalari viewportIdx);