src/gallium/drivers/swr/rasterizer/core/clip.h

   1 /****************************************************************************
   2 * Copyright (C) 2014-2015 Intel Corporation.   All Rights Reserved.
   3 *
   4 * Permission is hereby granted, free of charge, to any person obtaining a
   5 * copy of this software and associated documentation files (the "Software"),
   6 * to deal in the Software without restriction, including without limitation
   7 * the rights to use, copy, modify, merge, publish, distribute, sublicense,
   8 * and/or sell copies of the Software, and to permit persons to whom the
   9 * Software is furnished to do so, subject to the following conditions:
  10 *
  11 * The above copyright notice and this permission notice (including the next
  12 * paragraph) shall be included in all copies or substantial portions of the
  13 * Software.
  14 *
  15 * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
  16 * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
  17 * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL
  18 * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
  19 * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
  20 * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS
  21 * IN THE SOFTWARE.
  22 *
  23 * @file clip.h
  24 *
  25 * @brief Definitions for clipping
  26 *
  27 ******************************************************************************/
  28 #pragma once
  29
  30 #include "common/simdintrin.h"
  31 #include "core/context.h"
  32 #include "core/pa.h"
  33 #include "rdtsc_core.h"
  34
  35 // Temp storage used by the clipper
  36 extern THREAD simdvertex tlsTempVertices[7];
  37
  38 enum SWR_CLIPCODES
  39 {
  40     // Shift clip codes out of the mantissa to prevent denormalized values when used in float compare.
  41     // Guardband is able to use a single high-bit with 4 separate LSBs, because it computes a union, rather than intersection, of clipcodes.
  42 #define CLIPCODE_SHIFT 23
  43     FRUSTUM_LEFT    = (0x01 << CLIPCODE_SHIFT),
  44     FRUSTUM_TOP     = (0x02 << CLIPCODE_SHIFT),
  45     FRUSTUM_RIGHT   = (0x04 << CLIPCODE_SHIFT),
  46     FRUSTUM_BOTTOM  = (0x08 << CLIPCODE_SHIFT),
  47
  48     FRUSTUM_NEAR    = (0x10 << CLIPCODE_SHIFT),
  49     FRUSTUM_FAR     = (0x20 << CLIPCODE_SHIFT),
  50
  51     NEGW            = (0x40 << CLIPCODE_SHIFT),
  52
  53     GUARDBAND_LEFT   = (0x80 << CLIPCODE_SHIFT | 0x1),
  54     GUARDBAND_TOP    = (0x80 << CLIPCODE_SHIFT | 0x2),
  55     GUARDBAND_RIGHT  = (0x80 << CLIPCODE_SHIFT | 0x4),
  56     GUARDBAND_BOTTOM = (0x80 << CLIPCODE_SHIFT | 0x8)
  57 };
  58
  59 #define FRUSTUM_CLIP_MASK (FRUSTUM_LEFT|FRUSTUM_TOP|FRUSTUM_RIGHT|FRUSTUM_BOTTOM|FRUSTUM_NEAR|FRUSTUM_FAR)
  60 #define GUARDBAND_CLIP_MASK (FRUSTUM_NEAR|FRUSTUM_FAR|GUARDBAND_LEFT|GUARDBAND_TOP|GUARDBAND_RIGHT|GUARDBAND_BOTTOM|NEGW)
  61
  62 void Clip(const float *pTriangle, const float *pAttribs, int numAttribs, float *pOutTriangles,
  63           int *numVerts, float *pOutAttribs);
  64
  65 INLINE
  66 void ComputeClipCodes(DRIVER_TYPE type, const API_STATE& state, const simdvector& vertex, simdscalar& clipCodes)
  67 {
  68     clipCodes = _simd_setzero_ps();
  69
  70     // -w
  71     simdscalar vNegW = _simd_mul_ps(vertex.w, _simd_set1_ps(-1.0f));
  72
  73     // FRUSTUM_LEFT
  74     simdscalar vRes = _simd_cmplt_ps(vertex.x, vNegW);
  75     clipCodes = _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(FRUSTUM_LEFT)));
  76
  77     // FRUSTUM_TOP
  78     vRes = _simd_cmplt_ps(vertex.y, vNegW);
  79     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(FRUSTUM_TOP))));
  80
  81     // FRUSTUM_RIGHT
  82     vRes = _simd_cmpgt_ps(vertex.x, vertex.w);
  83     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(FRUSTUM_RIGHT))));
  84
  85     // FRUSTUM_BOTTOM
  86     vRes = _simd_cmpgt_ps(vertex.y, vertex.w);
  87     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(FRUSTUM_BOTTOM))));
  88
  89     if (state.rastState.depthClipEnable)
  90     {
  91         // FRUSTUM_NEAR
  92         // DX clips depth [0..w], GL clips [-w..w]
  93         if (type == DX)
  94         {
  95             vRes = _simd_cmplt_ps(vertex.z, _simd_setzero_ps());
  96         }
  97         else
  98         {
  99             vRes = _simd_cmplt_ps(vertex.z, vNegW);
 100         }
 101         clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(FRUSTUM_NEAR))));
 102
 103         // FRUSTUM_FAR
 104         vRes = _simd_cmpgt_ps(vertex.z, vertex.w);
 105         clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(FRUSTUM_FAR))));
 106     }
 107
 108     // NEGW
 109     vRes = _simd_cmple_ps(vertex.w, _simd_setzero_ps());
 110     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(NEGW))));
 111
 112     // GUARDBAND_LEFT
 113     simdscalar gbMult = _simd_mul_ps(vNegW, _simd_set1_ps(state.gbState.left));
 114     vRes = _simd_cmplt_ps(vertex.x, gbMult);
 115     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(GUARDBAND_LEFT))));
 116
 117     // GUARDBAND_TOP
 118     gbMult = _simd_mul_ps(vNegW, _simd_set1_ps(state.gbState.top));
 119     vRes = _simd_cmplt_ps(vertex.y, gbMult);
 120     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(GUARDBAND_TOP))));
 121
 122     // GUARDBAND_RIGHT
 123     gbMult = _simd_mul_ps(vertex.w, _simd_set1_ps(state.gbState.right));
 124     vRes = _simd_cmpgt_ps(vertex.x, gbMult);
 125     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(GUARDBAND_RIGHT))));
 126
 127     // GUARDBAND_BOTTOM
 128     gbMult = _simd_mul_ps(vertex.w, _simd_set1_ps(state.gbState.bottom));
 129     vRes = _simd_cmpgt_ps(vertex.y, gbMult);
 130     clipCodes = _simd_or_ps(clipCodes, _simd_and_ps(vRes, _simd_castsi_ps(_simd_set1_epi32(GUARDBAND_BOTTOM))));
 131 }
 132
 133 template<uint32_t NumVertsPerPrim>
 134 class Clipper
 135 {
 136 public:
 137     Clipper(uint32_t in_workerId, DRAW_CONTEXT* in_pDC) :
 138         workerId(in_workerId), driverType(in_pDC->pContext->driverType), pDC(in_pDC), state(GetApiState(in_pDC))
 139     {
 140         static_assert(NumVertsPerPrim >= 1 && NumVertsPerPrim <= 3, "Invalid NumVertsPerPrim");
 141     }
 142
 143     void ComputeClipCodes(simdvector vertex[])
 144     {
 145         for (uint32_t i = 0; i < NumVertsPerPrim; ++i)
 146         {
 147             ::ComputeClipCodes(this->driverType, this->state, vertex[i], this->clipCodes[i]);
 148         }
 149     }
 150
 151     simdscalar ComputeClipCodeIntersection()
 152     {
 153         simdscalar result = this->clipCodes[0];
 154         for (uint32_t i = 1; i < NumVertsPerPrim; ++i)
 155         {
 156             result = _simd_and_ps(result, this->clipCodes[i]);
 157         }
 158         return result;
 159     }
 160
 161     simdscalar ComputeClipCodeUnion()
 162     {
 163         simdscalar result = this->clipCodes[0];
 164         for (uint32_t i = 1; i < NumVertsPerPrim; ++i)
 165         {
 166             result = _simd_or_ps(result, this->clipCodes[i]);
 167         }
 168         return result;
 169     }
 170
 171     int ComputeNegWMask()
 172     {
 173         simdscalar clipCodeUnion = ComputeClipCodeUnion();
 174         clipCodeUnion = _simd_and_ps(clipCodeUnion, _simd_castsi_ps(_simd_set1_epi32(NEGW)));
 175         return _simd_movemask_ps(_simd_cmpneq_ps(clipCodeUnion, _simd_setzero_ps()));
 176     }
 177
 178     int ComputeClipMask()
 179     {
 180         simdscalar clipUnion = ComputeClipCodeUnion();
 181         clipUnion = _simd_and_ps(clipUnion, _simd_castsi_ps(_simd_set1_epi32(GUARDBAND_CLIP_MASK)));
 182         return _simd_movemask_ps(_simd_cmpneq_ps(clipUnion, _simd_setzero_ps()));
 183     }
 184
 185     // clipper is responsible for culling any prims with NAN coordinates
 186     int ComputeNaNMask(simdvector prim[])
 187     {
 188         simdscalar vNanMask = _simd_setzero_ps();
 189         for (uint32_t e = 0; e < NumVertsPerPrim; ++e)
 190         {
 191             simdscalar vNan01 = _simd_cmp_ps(prim[e].v[0], prim[e].v[1], _CMP_UNORD_Q);
 192             vNanMask = _simd_or_ps(vNanMask, vNan01);
 193             simdscalar vNan23 = _simd_cmp_ps(prim[e].v[2], prim[e].v[3], _CMP_UNORD_Q);
 194             vNanMask = _simd_or_ps(vNanMask, vNan23);
 195         }
 196
 197         return _simd_movemask_ps(vNanMask);
 198     }
 199
 200     int ComputeUserClipCullMask(PA_STATE& pa, simdvector prim[])
 201     {
 202         uint8_t cullMask = this->state.rastState.cullDistanceMask;
 203         simdscalar vClipCullMask = _simd_setzero_ps();
 204         DWORD index;
 205
 206         simdvector vClipCullDistLo[3];
 207         simdvector vClipCullDistHi[3];
 208
 209         pa.Assemble(VERTEX_CLIPCULL_DIST_LO_SLOT, vClipCullDistLo);
 210         pa.Assemble(VERTEX_CLIPCULL_DIST_HI_SLOT, vClipCullDistHi);
 211         while (_BitScanForward(&index, cullMask))
 212         {
 213             cullMask &= ~(1 << index);
 214             uint32_t slot = index >> 2;
 215             uint32_t component = index & 0x3;
 216
 217             simdscalar vCullMaskElem = _simd_set1_ps(-1.0f);
 218             for (uint32_t e = 0; e < NumVertsPerPrim; ++e)
 219             {
 220                 simdscalar vCullComp;
 221                 if (slot == 0)
 222                 {
 223                     vCullComp = vClipCullDistLo[e][component];
 224                 }
 225                 else
 226                 {
 227                     vCullComp = vClipCullDistHi[e][component];
 228                 }
 229
 230                 // cull if cull distance < 0 || NAN
 231                 simdscalar vCull = _simd_cmp_ps(_mm256_setzero_ps(), vCullComp, _CMP_NLE_UQ);
 232                 vCullMaskElem = _simd_and_ps(vCullMaskElem, vCull);
 233             }
 234             vClipCullMask = _simd_or_ps(vClipCullMask, vCullMaskElem);
 235         }
 236
 237         // clipper should also discard any primitive with NAN clip distance
 238         uint8_t clipMask = this->state.rastState.clipDistanceMask;
 239         while (_BitScanForward(&index, clipMask))
 240         {
 241             clipMask &= ~(1 << index);
 242             uint32_t slot = index >> 2;
 243             uint32_t component = index & 0x3;
 244
 245             for (uint32_t e = 0; e < NumVertsPerPrim; ++e)
 246             {
 247                 simdscalar vClipComp;
 248                 if (slot == 0)
 249                 {
 250                     vClipComp = vClipCullDistLo[e][component];
 251                 }
 252                 else
 253                 {
 254                     vClipComp = vClipCullDistHi[e][component];
 255                 }
 256
 257                 simdscalar vClip = _simd_cmp_ps(vClipComp, vClipComp, _CMP_UNORD_Q);
 258                 vClipCullMask = _simd_or_ps(vClipCullMask, vClip);
 259             }
 260         }
 261
 262         return _simd_movemask_ps(vClipCullMask);
 263     }
 264
 265     // clip a single primitive
 266     int ClipScalar(PA_STATE& pa, uint32_t primIndex, float* pOutPos, float* pOutAttribs)
 267     {
 268         OSALIGNSIMD(float) inVerts[3 * 4];
 269         OSALIGNSIMD(float) inAttribs[3 * KNOB_NUM_ATTRIBUTES * 4];
 270
 271         // transpose primitive position
 272         __m128 verts[3];
 273         pa.AssembleSingle(VERTEX_POSITION_SLOT, primIndex, verts);
 274         _mm_store_ps(&inVerts[0], verts[0]);
 275         _mm_store_ps(&inVerts[4], verts[1]);
 276         _mm_store_ps(&inVerts[8], verts[2]);
 277
 278         // transpose attribs
 279         uint32_t numScalarAttribs = this->state.linkageCount * 4;
 280
 281         int idx = 0;
 282         DWORD slot = 0;
 283         uint32_t mapIdx = 0;
 284         uint32_t tmpLinkage = uint32_t(this->state.linkageMask);
 285         while (_BitScanForward(&slot, tmpLinkage))
 286         {
 287             tmpLinkage &= ~(1 << slot);
 288             // Compute absolute attrib slot in vertex array
 289             uint32_t inputSlot = VERTEX_ATTRIB_START_SLOT + this->state.linkageMap[mapIdx++];
 290             __m128 attrib[3];    // triangle attribs (always 4 wide)
 291             pa.AssembleSingle(inputSlot, primIndex, attrib);
 292             _mm_store_ps(&inAttribs[idx], attrib[0]);
 293             _mm_store_ps(&inAttribs[idx + numScalarAttribs], attrib[1]);
 294             _mm_store_ps(&inAttribs[idx + numScalarAttribs * 2], attrib[2]);
 295             idx += 4;
 296         }
 297
 298         int numVerts;
 299         Clip(inVerts, inAttribs, numScalarAttribs, pOutPos, &numVerts, pOutAttribs);
 300
 301         return numVerts;
 302     }
 303
 304     // clip SIMD primitives
 305     void ClipSimd(const simdscalar& vPrimMask, const simdscalar& vClipMask, PA_STATE& pa, const simdscalari& vPrimId)
 306     {
 307         // input/output vertex store for clipper
 308         simdvertex vertices[7]; // maximum 7 verts generated per triangle
 309
 310         LONG constantInterpMask = this->state.backendState.constantInterpolationMask;
 311         uint32_t provokingVertex = 0;
 312         if(pa.binTopology == TOP_TRIANGLE_FAN)
 313         {
 314             provokingVertex = this->state.frontendState.provokingVertex.triFan;
 315         }
 316         ///@todo: line topology for wireframe?
 317
 318         // assemble pos
 319         simdvector tmpVector[NumVertsPerPrim];
 320         pa.Assemble(VERTEX_POSITION_SLOT, tmpVector);
 321         for (uint32_t i = 0; i < NumVertsPerPrim; ++i)
 322         {
 323             vertices[i].attrib[VERTEX_POSITION_SLOT] = tmpVector[i];
 324         }
 325
 326         // assemble attribs
 327         DWORD slot = 0;
 328         uint32_t mapIdx = 0;
 329         uint32_t tmpLinkage = this->state.linkageMask;
 330
 331         int32_t maxSlot = -1;
 332         while (_BitScanForward(&slot, tmpLinkage))
 333         {
 334             tmpLinkage &= ~(1 << slot);
 335             // Compute absolute attrib slot in vertex array
 336             uint32_t mapSlot = this->state.linkageMap[mapIdx++];
 337             maxSlot = std::max<int32_t>(maxSlot, mapSlot);
 338             uint32_t inputSlot = VERTEX_ATTRIB_START_SLOT + mapSlot;
 339
 340             pa.Assemble(inputSlot, tmpVector);
 341
 342             // if constant interpolation enabled for this attribute, assign the provoking
 343             // vertex values to all edges
 344             if (_bittest(&constantInterpMask, slot))
 345             {
 346                 for (uint32_t i = 0; i < NumVertsPerPrim; ++i)
 347                 {
 348                     vertices[i].attrib[inputSlot] = tmpVector[provokingVertex];
 349                 }
 350             }
 351             else
 352             {
 353                 for (uint32_t i = 0; i < NumVertsPerPrim; ++i)
 354                 {
 355                     vertices[i].attrib[inputSlot] = tmpVector[i];
 356                 }
 357             }
 358         }
 359
 360         // assemble user clip distances if enabled
 361         if (this->state.rastState.clipDistanceMask & 0xf)
 362         {
 363             pa.Assemble(VERTEX_CLIPCULL_DIST_LO_SLOT, tmpVector);
 364             for (uint32_t i = 0; i < NumVertsPerPrim; ++i)
 365             {
 366                 vertices[i].attrib[VERTEX_CLIPCULL_DIST_LO_SLOT] = tmpVector[i];
 367             }
 368         }
 369
 370         if (this->state.rastState.clipDistanceMask & 0xf0)
 371         {
 372             pa.Assemble(VERTEX_CLIPCULL_DIST_HI_SLOT, tmpVector);
 373             for (uint32_t i = 0; i < NumVertsPerPrim; ++i)
 374             {
 375                 vertices[i].attrib[VERTEX_CLIPCULL_DIST_HI_SLOT] = tmpVector[i];
 376             }
 377         }
 378
 379         uint32_t numAttribs = maxSlot + 1;
 380
 381         simdscalari vNumClippedVerts = ClipPrims((float*)&vertices[0], vPrimMask, vClipMask, numAttribs);
 382
 383         // set up new PA for binning clipped primitives
 384         PFN_PROCESS_PRIMS pfnBinFunc = nullptr;
 385         PRIMITIVE_TOPOLOGY clipTopology = TOP_UNKNOWN;
 386         if (NumVertsPerPrim == 3)
 387         {
 388             pfnBinFunc = BinTriangles;
 389             clipTopology = TOP_TRIANGLE_FAN;
 390
 391             // so that the binner knows to bloat wide points later
 392             if (pa.binTopology == TOP_POINT_LIST)
 393                 clipTopology = TOP_POINT_LIST;
 394         }
 395         else if (NumVertsPerPrim == 2)
 396         {
 397             pfnBinFunc = BinLines;
 398             clipTopology = TOP_LINE_LIST;
 399         }
 400         else
 401         {
 402             SWR_ASSERT(0 && "Unexpected points in clipper.");
 403         }
 404
 405
 406         uint32_t* pVertexCount = (uint32_t*)&vNumClippedVerts;
 407         uint32_t* pPrimitiveId = (uint32_t*)&vPrimId;
 408
 409         const simdscalari vOffsets = _mm256_set_epi32(
 410             0 * sizeof(simdvertex),  // unused lane
 411             6 * sizeof(simdvertex),
 412             5 * sizeof(simdvertex),
 413             4 * sizeof(simdvertex),
 414             3 * sizeof(simdvertex),
 415             2 * sizeof(simdvertex),
 416             1 * sizeof(simdvertex),
 417             0 * sizeof(simdvertex));
 418
 419         // only need to gather 7 verts
 420         // @todo dynamic mask based on actual # of verts generated per lane
 421         const simdscalar vMask = _mm256_set_ps(0, -1, -1, -1, -1, -1, -1, -1);
 422
 423         uint32_t numClippedPrims = 0;
 424         for (uint32_t inputPrim = 0; inputPrim < pa.NumPrims(); ++inputPrim)
 425         {
 426             uint32_t numEmittedVerts = pVertexCount[inputPrim];
 427             if (numEmittedVerts < NumVertsPerPrim)
 428             {
 429                 continue;
 430             }
 431             SWR_ASSERT(numEmittedVerts <= 7, "Unexpected vertex count from clipper.");
 432
 433             uint32_t numEmittedPrims = GetNumPrims(clipTopology, numEmittedVerts);
 434             numClippedPrims += numEmittedPrims;
 435
 436             // tranpose clipper output so that each lane's vertices are in SIMD order
 437             // set aside space for 2 vertices, as the PA will try to read up to 16 verts
 438             // for triangle fan
 439             simdvertex transposedPrims[2];
 440
 441             // transpose pos
 442             uint8_t* pBase = (uint8_t*)(&vertices[0].attrib[VERTEX_POSITION_SLOT]) + sizeof(float) * inputPrim;
 443             for (uint32_t c = 0; c < 4; ++c)
 444             {
 445                 transposedPrims[0].attrib[VERTEX_POSITION_SLOT][c] = _simd_mask_i32gather_ps(_mm256_undefined_ps(), (const float*)pBase, vOffsets, vMask, 1);
 446                 pBase += sizeof(simdscalar);
 447             }
 448
 449             // transpose attribs
 450             pBase = (uint8_t*)(&vertices[0].attrib[VERTEX_ATTRIB_START_SLOT]) + sizeof(float) * inputPrim;
 451             for (uint32_t attrib = 0; attrib < numAttribs; ++attrib)
 452             {
 453                 uint32_t attribSlot = VERTEX_ATTRIB_START_SLOT + attrib;
 454                 for (uint32_t c = 0; c < 4; ++c)
 455                 {
 456                     transposedPrims[0].attrib[attribSlot][c] = _simd_mask_i32gather_ps(_mm256_undefined_ps(), (const float*)pBase, vOffsets, vMask, 1);
 457                     pBase += sizeof(simdscalar);
 458                 }
 459             }
 460
 461             // transpose user clip distances if enabled
 462             if (this->state.rastState.clipDistanceMask & 0xf)
 463             {
 464                 pBase = (uint8_t*)(&vertices[0].attrib[VERTEX_CLIPCULL_DIST_LO_SLOT]) + sizeof(float) * inputPrim;
 465                 for (uint32_t c = 0; c < 4; ++c)
 466                 {
 467                     transposedPrims[0].attrib[VERTEX_CLIPCULL_DIST_LO_SLOT][c] = _simd_mask_i32gather_ps(_mm256_undefined_ps(), (const float*)pBase, vOffsets, vMask, 1);
 468                     pBase += sizeof(simdscalar);
 469                 }
 470             }
 471
 472             if (this->state.rastState.clipDistanceMask & 0xf0)
 473             {
 474                 pBase = (uint8_t*)(&vertices[0].attrib[VERTEX_CLIPCULL_DIST_HI_SLOT]) + sizeof(float) * inputPrim;
 475                 for (uint32_t c = 0; c < 4; ++c)
 476                 {
 477                     transposedPrims[0].attrib[VERTEX_CLIPCULL_DIST_HI_SLOT][c] = _simd_mask_i32gather_ps(_mm256_undefined_ps(), (const float*)pBase, vOffsets, vMask, 1);
 478                     pBase += sizeof(simdscalar);
 479                 }
 480             }
 481
 482             PA_STATE_OPT clipPa(this->pDC, numEmittedPrims, (uint8_t*)&transposedPrims[0], numEmittedVerts, true, clipTopology);
 483
 484             while (clipPa.GetNextStreamOutput())
 485             {
 486                 do
 487                 {
 488                     simdvector attrib[NumVertsPerPrim];
 489                     bool assemble = clipPa.Assemble(VERTEX_POSITION_SLOT, attrib);
 490                     if (assemble)
 491                     {
 492                         static const uint32_t primMaskMap[] = { 0x0, 0x1, 0x3, 0x7, 0xf, 0x1f, 0x3f, 0x7f, 0xff };
 493                         pfnBinFunc(this->pDC, clipPa, this->workerId, attrib, primMaskMap[numEmittedPrims], _simd_set1_epi32(pPrimitiveId[inputPrim]));
 494                     }
 495                 } while (clipPa.NextPrim());
 496             }
 497         }
 498
 499         // update global pipeline stat
 500         SWR_CONTEXT* pContext = this->pDC->pContext;
 501         UPDATE_STAT(CPrimitives, numClippedPrims);
 502     }
 503
 504     // execute the clipper stage
 505     void ExecuteStage(PA_STATE& pa, simdvector prim[], uint32_t primMask, simdscalari primId)
 506     {
 507         // set up binner based on PA state
 508         PFN_PROCESS_PRIMS pfnBinner;
 509         switch (pa.binTopology)
 510         {
 511         case TOP_POINT_LIST:
 512             pfnBinner = BinPoints;
 513             break;
 514         case TOP_LINE_LIST:
 515         case TOP_LINE_STRIP:
 516         case TOP_LINE_LOOP:
 517         case TOP_LINE_LIST_ADJ:
 518         case TOP_LISTSTRIP_ADJ:
 519             pfnBinner = BinLines;
 520             break;
 521         default:
 522             pfnBinner = BinTriangles;
 523             break;
 524         };
 525
 526         // update clipper invocations pipeline stat
 527         SWR_CONTEXT* pContext = this->pDC->pContext;
 528         uint32_t numInvoc = _mm_popcnt_u32(primMask);
 529         UPDATE_STAT(CInvocations, numInvoc);
 530
 531         ComputeClipCodes(prim);
 532
 533         // cull prims with NAN coords
 534         primMask &= ~ComputeNaNMask(prim);
 535
 536         // user cull distance cull
 537         if (this->state.rastState.cullDistanceMask)
 538         {
 539             primMask &= ~ComputeUserClipCullMask(pa, prim);
 540         }
 541
 542         // cull prims outside view frustum
 543         simdscalar clipIntersection = ComputeClipCodeIntersection();
 544         int validMask = primMask & _simd_movemask_ps(_simd_cmpeq_ps(clipIntersection, _simd_setzero_ps()));
 545
 546         // skip clipping for points
 547         uint32_t clipMask = 0;
 548         if (NumVertsPerPrim != 1)
 549         {
 550             clipMask = primMask & ComputeClipMask();
 551         }
 552
 553         if (clipMask)
 554         {
 555             RDTSC_START(FEGuardbandClip);
 556             // we have to clip tris, execute the clipper, which will also
 557             // call the binner
 558             ClipSimd(vMask(primMask), vMask(clipMask), pa, primId);
 559             RDTSC_STOP(FEGuardbandClip, 1, 0);
 560         }
 561         else if (validMask)
 562         {
 563             // update CPrimitives pipeline state
 564             SWR_CONTEXT* pContext = this->pDC->pContext;
 565             UPDATE_STAT(CPrimitives, _mm_popcnt_u32(validMask));
 566
 567             // forward valid prims directly to binner
 568             pfnBinner(this->pDC, pa, this->workerId, prim, validMask, primId);
 569         }
 570     }
 571
 572 private:
 573     inline simdscalar ComputeInterpFactor(simdscalar boundaryCoord0, simdscalar boundaryCoord1)
 574     {
 575         return _simd_div_ps(boundaryCoord0, _simd_sub_ps(boundaryCoord0, boundaryCoord1));
 576     }
 577
 578     inline simdscalari ComputeOffsets(uint32_t attrib, simdscalari vIndices, uint32_t component)
 579     {
 580         const uint32_t simdVertexStride = sizeof(simdvertex);
 581         const uint32_t componentStride = sizeof(simdscalar);
 582         const uint32_t attribStride = sizeof(simdvector);
 583         const __m256i vElemOffset = _mm256_set_epi32(7 * sizeof(float), 6 * sizeof(float), 5 * sizeof(float), 4 * sizeof(float),
 584             3 * sizeof(float), 2 * sizeof(float), 1 * sizeof(float), 0 * sizeof(float));
 585
 586         // step to the simdvertex
 587         simdscalari vOffsets = _simd_mullo_epi32(vIndices, _simd_set1_epi32(simdVertexStride));
 588
 589         // step to the attribute and component
 590         vOffsets = _simd_add_epi32(vOffsets, _simd_set1_epi32(attribStride * attrib + componentStride * component));
 591
 592         // step to the lane
 593         vOffsets = _simd_add_epi32(vOffsets, vElemOffset);
 594
 595         return vOffsets;
 596     }
 597
 598     // gathers a single component for a given attribute for each SIMD lane
 599     inline simdscalar GatherComponent(const float* pBuffer, uint32_t attrib, simdscalar vMask, simdscalari vIndices, uint32_t component)
 600     {
 601         simdscalari vOffsets = ComputeOffsets(attrib, vIndices, component);
 602         simdscalar vSrc = _mm256_undefined_ps();
 603         return _simd_mask_i32gather_ps(vSrc, pBuffer, vOffsets, vMask, 1);
 604     }
 605
 606     inline void ScatterComponent(const float* pBuffer, uint32_t attrib, simdscalar vMask, simdscalari vIndices, uint32_t component, simdscalar vSrc)
 607     {
 608         simdscalari vOffsets = ComputeOffsets(attrib, vIndices, component);
 609
 610         uint32_t* pOffsets = (uint32_t*)&vOffsets;
 611         float* pSrc = (float*)&vSrc;
 612         uint32_t mask = _simd_movemask_ps(vMask);
 613         DWORD lane;
 614         while (_BitScanForward(&lane, mask))
 615         {
 616             mask &= ~(1 << lane);
 617             uint8_t* pBuf = (uint8_t*)pBuffer + pOffsets[lane];
 618             *(float*)pBuf = pSrc[lane];
 619         }
 620     }
 621
 622     template<SWR_CLIPCODES ClippingPlane>
 623     inline void intersect(
 624         const simdscalar& vActiveMask,  // active lanes to operate on
 625         const simdscalari& s,           // index to first edge vertex v0 in pInPts.
 626         const simdscalari& p,           // index to second edge vertex v1 in pInPts.
 627         const simdvector& v1,           // vertex 0 position
 628         const simdvector& v2,           // vertex 1 position
 629         simdscalari& outIndex,          // output index.
 630         const float *pInVerts,          // array of all the input positions.
 631         uint32_t numInAttribs,          // number of attributes per vertex.
 632         float *pOutVerts)               // array of output positions. We'll write our new intersection point at i*4.
 633     {
 634         // compute interpolation factor
 635         simdscalar t;
 636         switch (ClippingPlane)
 637         {
 638         case FRUSTUM_LEFT:      t = ComputeInterpFactor(_simd_add_ps(v1[3], v1[0]), _simd_add_ps(v2[3], v2[0])); break;
 639         case FRUSTUM_RIGHT:     t = ComputeInterpFactor(_simd_sub_ps(v1[3], v1[0]), _simd_sub_ps(v2[3], v2[0])); break;
 640         case FRUSTUM_TOP:       t = ComputeInterpFactor(_simd_add_ps(v1[3], v1[1]), _simd_add_ps(v2[3], v2[1])); break;
 641         case FRUSTUM_BOTTOM:    t = ComputeInterpFactor(_simd_sub_ps(v1[3], v1[1]), _simd_sub_ps(v2[3], v2[1])); break;
 642         case FRUSTUM_NEAR:
 643             // DX Znear plane is 0, GL is -w
 644             if (this->driverType == DX)
 645             {
 646                 t = ComputeInterpFactor(v1[2], v2[2]);
 647             }
 648             else
 649             {
 650                 t = ComputeInterpFactor(_simd_add_ps(v1[3], v1[2]), _simd_add_ps(v2[3], v2[2]));
 651             }
 652             break;
 653         case FRUSTUM_FAR:       t = ComputeInterpFactor(_simd_sub_ps(v1[3], v1[2]), _simd_sub_ps(v2[3], v2[2])); break;
 654         default: SWR_ASSERT(false, "invalid clipping plane: %d", ClippingPlane);
 655         };
 656
 657         // interpolate position and store
 658         for (uint32_t c = 0; c < 4; ++c)
 659         {
 660             simdscalar vOutPos = _simd_fmadd_ps(_simd_sub_ps(v2[c], v1[c]), t, v1[c]);
 661             ScatterComponent(pOutVerts, VERTEX_POSITION_SLOT, vActiveMask, outIndex, c, vOutPos);
 662         }
 663
 664         // interpolate attributes and store
 665         for (uint32_t a = 0; a < numInAttribs; ++a)
 666         {
 667             uint32_t attribSlot = VERTEX_ATTRIB_START_SLOT + a;
 668             for (uint32_t c = 0; c < 4; ++c)
 669             {
 670                 simdscalar vAttrib0 = GatherComponent(pInVerts, attribSlot, vActiveMask, s, c);
 671                 simdscalar vAttrib1 = GatherComponent(pInVerts, attribSlot, vActiveMask, p, c);
 672                 simdscalar vOutAttrib = _simd_fmadd_ps(_simd_sub_ps(vAttrib1, vAttrib0), t, vAttrib0);
 673                 ScatterComponent(pOutVerts, attribSlot, vActiveMask, outIndex, c, vOutAttrib);
 674             }
 675         }
 676
 677         // interpolate clip distance if enabled
 678         if (this->state.rastState.clipDistanceMask & 0xf)
 679         {
 680             uint32_t attribSlot = VERTEX_CLIPCULL_DIST_LO_SLOT;
 681             for (uint32_t c = 0; c < 4; ++c)
 682             {
 683                 simdscalar vAttrib0 = GatherComponent(pInVerts, attribSlot, vActiveMask, s, c);
 684                 simdscalar vAttrib1 = GatherComponent(pInVerts, attribSlot, vActiveMask, p, c);
 685                 simdscalar vOutAttrib = _simd_fmadd_ps(_simd_sub_ps(vAttrib1, vAttrib0), t, vAttrib0);
 686                 ScatterComponent(pOutVerts, attribSlot, vActiveMask, outIndex, c, vOutAttrib);
 687             }
 688         }
 689
 690         if (this->state.rastState.clipDistanceMask & 0xf0)
 691         {
 692             uint32_t attribSlot = VERTEX_CLIPCULL_DIST_HI_SLOT;
 693             for (uint32_t c = 0; c < 4; ++c)
 694             {
 695                 simdscalar vAttrib0 = GatherComponent(pInVerts, attribSlot, vActiveMask, s, c);
 696                 simdscalar vAttrib1 = GatherComponent(pInVerts, attribSlot, vActiveMask, p, c);
 697                 simdscalar vOutAttrib = _simd_fmadd_ps(_simd_sub_ps(vAttrib1, vAttrib0), t, vAttrib0);
 698                 ScatterComponent(pOutVerts, attribSlot, vActiveMask, outIndex, c, vOutAttrib);
 699             }
 700         }
 701     }
 702
 703     template<SWR_CLIPCODES ClippingPlane>
 704     inline simdscalar inside(const simdvector& v)
 705     {
 706         switch (ClippingPlane)
 707         {
 708         case FRUSTUM_LEFT:      return _simd_cmpge_ps(v[0], _simd_mul_ps(v[3], _simd_set1_ps(-1.0f)));
 709         case FRUSTUM_RIGHT:     return _simd_cmple_ps(v[0], v[3]);
 710         case FRUSTUM_TOP:       return _simd_cmpge_ps(v[1], _simd_mul_ps(v[3], _simd_set1_ps(-1.0f)));
 711         case FRUSTUM_BOTTOM:    return _simd_cmple_ps(v[1], v[3]);
 712         case FRUSTUM_NEAR:      return _simd_cmpge_ps(v[2], this->driverType == DX ? _simd_setzero_ps() : _simd_mul_ps(v[3], _simd_set1_ps(-1.0f)));
 713         case FRUSTUM_FAR:       return _simd_cmple_ps(v[2], v[3]);
 714         default:
 715             SWR_ASSERT(false, "invalid clipping plane: %d", ClippingPlane);
 716             return _simd_setzero_ps();
 717         }
 718     }
 719
 720     template<SWR_CLIPCODES ClippingPlane>
 721     simdscalari ClipTriToPlane(const float* pInVerts, const simdscalari& vNumInPts, uint32_t numInAttribs, float* pOutVerts)
 722     {
 723         simdscalari vCurIndex = _simd_setzero_si();
 724         simdscalari vOutIndex = _simd_setzero_si();
 725         simdscalar vActiveMask = _simd_castsi_ps(_simd_cmplt_epi32(vCurIndex, vNumInPts));
 726
 727         while (!_simd_testz_ps(vActiveMask, vActiveMask)) // loop until activeMask is empty
 728         {
 729             simdscalari s = vCurIndex;
 730             simdscalari p = _simd_add_epi32(s, _simd_set1_epi32(1));
 731             simdscalari underFlowMask = _simd_cmpgt_epi32(vNumInPts, p);
 732             p = _simd_castps_si(_simd_blendv_ps(_simd_setzero_ps(), _simd_castsi_ps(p), _simd_castsi_ps(underFlowMask)));
 733
 734             // gather position
 735             simdvector vInPos0, vInPos1;
 736             for (uint32_t c = 0; c < 4; ++c)
 737             {
 738                 vInPos0[c] = GatherComponent(pInVerts, VERTEX_POSITION_SLOT, vActiveMask, s, c);
 739                 vInPos1[c] = GatherComponent(pInVerts, VERTEX_POSITION_SLOT, vActiveMask, p, c);
 740             }
 741
 742             // compute inside mask
 743             simdscalar s_in = inside<ClippingPlane>(vInPos0);
 744             simdscalar p_in = inside<ClippingPlane>(vInPos1);
 745
 746             // compute intersection mask (s_in != p_in)
 747             simdscalar intersectMask = _simd_xor_ps(s_in, p_in);
 748             intersectMask = _simd_and_ps(intersectMask, vActiveMask);
 749
 750             // store s if inside
 751             s_in = _simd_and_ps(s_in, vActiveMask);
 752             if (!_simd_testz_ps(s_in, s_in))
 753             {
 754                 // store position
 755                 for (uint32_t c = 0; c < 4; ++c)
 756                 {
 757                     ScatterComponent(pOutVerts, VERTEX_POSITION_SLOT, s_in, vOutIndex, c, vInPos0[c]);
 758                 }
 759
 760                 // store attribs
 761                 for (uint32_t a = 0; a < numInAttribs; ++a)
 762                 {
 763                     uint32_t attribSlot = VERTEX_ATTRIB_START_SLOT + a;
 764                     for (uint32_t c = 0; c < 4; ++c)
 765                     {
 766                         simdscalar vAttrib = GatherComponent(pInVerts, attribSlot, s_in, s, c);
 767                         ScatterComponent(pOutVerts, attribSlot, s_in, vOutIndex, c, vAttrib);
 768                     }
 769                 }
 770
 771                 // store clip distance if enabled
 772                 if (this->state.rastState.clipDistanceMask & 0xf)
 773                 {
 774                     uint32_t attribSlot = VERTEX_CLIPCULL_DIST_LO_SLOT;
 775                     for (uint32_t c = 0; c < 4; ++c)
 776                     {
 777                         simdscalar vAttrib = GatherComponent(pInVerts, attribSlot, s_in, s, c);
 778                         ScatterComponent(pOutVerts, attribSlot, s_in, vOutIndex, c, vAttrib);
 779                     }
 780                 }
 781
 782                 if (this->state.rastState.clipDistanceMask & 0xf0)
 783                 {
 784                     uint32_t attribSlot = VERTEX_CLIPCULL_DIST_HI_SLOT;
 785                     for (uint32_t c = 0; c < 4; ++c)
 786                     {
 787                         simdscalar vAttrib = GatherComponent(pInVerts, attribSlot, s_in, s, c);
 788                         ScatterComponent(pOutVerts, attribSlot, s_in, vOutIndex, c, vAttrib);
 789                     }
 790                 }
 791
 792                 // increment outIndex
 793                 vOutIndex = _simd_blendv_epi32(vOutIndex, _simd_add_epi32(vOutIndex, _simd_set1_epi32(1)), s_in);
 794             }
 795
 796             // compute and store intersection
 797             if (!_simd_testz_ps(intersectMask, intersectMask))
 798             {
 799                 intersect<ClippingPlane>(intersectMask, s, p, vInPos0, vInPos1, vOutIndex, pInVerts, numInAttribs, pOutVerts);
 800
 801                 // increment outIndex for active lanes
 802                 vOutIndex = _simd_blendv_epi32(vOutIndex, _simd_add_epi32(vOutIndex, _simd_set1_epi32(1)), intersectMask);
 803             }
 804
 805             // increment loop index and update active mask
 806             vCurIndex = _simd_add_epi32(vCurIndex, _simd_set1_epi32(1));
 807             vActiveMask = _simd_castsi_ps(_simd_cmplt_epi32(vCurIndex, vNumInPts));
 808         }
 809
 810         return vOutIndex;
 811     }
 812
 813     template<SWR_CLIPCODES ClippingPlane>
 814     simdscalari ClipLineToPlane(const float* pInVerts, const simdscalari& vNumInPts, uint32_t numInAttribs, float* pOutVerts)
 815     {
 816         simdscalari vCurIndex = _simd_setzero_si();
 817         simdscalari vOutIndex = _simd_setzero_si();
 818         simdscalar vActiveMask = _simd_castsi_ps(_simd_cmplt_epi32(vCurIndex, vNumInPts));
 819
 820         if (!_simd_testz_ps(vActiveMask, vActiveMask))
 821         {
 822             simdscalari s = vCurIndex;
 823             simdscalari p = _simd_add_epi32(s, _simd_set1_epi32(1));
 824
 825             // gather position
 826             simdvector vInPos0, vInPos1;
 827             for (uint32_t c = 0; c < 4; ++c)
 828             {
 829                 vInPos0[c] = GatherComponent(pInVerts, VERTEX_POSITION_SLOT, vActiveMask, s, c);
 830                 vInPos1[c] = GatherComponent(pInVerts, VERTEX_POSITION_SLOT, vActiveMask, p, c);
 831             }
 832
 833             // compute inside mask
 834             simdscalar s_in = inside<ClippingPlane>(vInPos0);
 835             simdscalar p_in = inside<ClippingPlane>(vInPos1);
 836
 837             // compute intersection mask (s_in != p_in)
 838             simdscalar intersectMask = _simd_xor_ps(s_in, p_in);
 839             intersectMask = _simd_and_ps(intersectMask, vActiveMask);
 840
 841             // store s if inside
 842             s_in = _simd_and_ps(s_in, vActiveMask);
 843             if (!_simd_testz_ps(s_in, s_in))
 844             {
 845                 for (uint32_t c = 0; c < 4; ++c)
 846                 {
 847                     ScatterComponent(pOutVerts, VERTEX_POSITION_SLOT, s_in, vOutIndex, c, vInPos0[c]);
 848                 }
 849
 850                 // interpolate attributes and store
 851                 for (uint32_t a = 0; a < numInAttribs; ++a)
 852                 {
 853                     uint32_t attribSlot = VERTEX_ATTRIB_START_SLOT + a;
 854                     for (uint32_t c = 0; c < 4; ++c)
 855                     {
 856                         simdscalar vAttrib = GatherComponent(pInVerts, attribSlot, s_in, s, c);
 857                         ScatterComponent(pOutVerts, attribSlot, s_in, vOutIndex, c, vAttrib);
 858                     }
 859                 }
 860
 861                 // increment outIndex
 862                 vOutIndex = _simd_blendv_epi32(vOutIndex, _simd_add_epi32(vOutIndex, _simd_set1_epi32(1)), s_in);
 863             }
 864
 865             // compute and store intersection
 866             if (!_simd_testz_ps(intersectMask, intersectMask))
 867             {
 868                 intersect<ClippingPlane>(intersectMask, s, p, vInPos0, vInPos1, vOutIndex, pInVerts, numInAttribs, pOutVerts);
 869
 870                 // increment outIndex for active lanes
 871                 vOutIndex = _simd_blendv_epi32(vOutIndex, _simd_add_epi32(vOutIndex, _simd_set1_epi32(1)), intersectMask);
 872             }
 873
 874             // store p if inside
 875             p_in = _simd_and_ps(p_in, vActiveMask);
 876             if (!_simd_testz_ps(p_in, p_in))
 877             {
 878                 for (uint32_t c = 0; c < 4; ++c)
 879                 {
 880                     ScatterComponent(pOutVerts, VERTEX_POSITION_SLOT, p_in, vOutIndex, c, vInPos1[c]);
 881                 }
 882
 883                 // interpolate attributes and store
 884                 for (uint32_t a = 0; a < numInAttribs; ++a)
 885                 {
 886                     uint32_t attribSlot = VERTEX_ATTRIB_START_SLOT + a;
 887                     for (uint32_t c = 0; c < 4; ++c)
 888                     {
 889                         simdscalar vAttrib = GatherComponent(pInVerts, attribSlot, p_in, p, c);
 890                         ScatterComponent(pOutVerts, attribSlot, p_in, vOutIndex, c, vAttrib);
 891                     }
 892                 }
 893
 894                 // increment outIndex
 895                 vOutIndex = _simd_blendv_epi32(vOutIndex, _simd_add_epi32(vOutIndex, _simd_set1_epi32(1)), p_in);
 896             }
 897         }
 898
 899         return vOutIndex;
 900     }
 901
 902     //////////////////////////////////////////////////////////////////////////
 903     /// @brief Vertical clipper. Clips SIMD primitives at a time
 904     /// @param pVertices - pointer to vertices in SOA form. Clipper will read input and write results to this buffer
 905     /// @param vPrimMask - mask of valid input primitives, including non-clipped prims
 906     /// @param numAttribs - number of valid input attribs, including position
 907     simdscalari ClipPrims(float* pVertices, const simdscalar& vPrimMask, const simdscalar& vClipMask, int numAttribs)
 908     {
 909         // temp storage
 910         float* pTempVerts = (float*)&tlsTempVertices[0];
 911
 912         // zero out num input verts for non-active lanes
 913         simdscalari vNumInPts = _simd_set1_epi32(NumVertsPerPrim);
 914         vNumInPts = _simd_blendv_epi32(_simd_setzero_si(), vNumInPts, vClipMask);
 915
 916         // clip prims to frustum
 917         simdscalari vNumOutPts;
 918         if (NumVertsPerPrim == 3)
 919         {
 920             vNumOutPts = ClipTriToPlane<FRUSTUM_NEAR>(pVertices, vNumInPts, numAttribs, pTempVerts);
 921             vNumOutPts = ClipTriToPlane<FRUSTUM_FAR>(pTempVerts, vNumOutPts, numAttribs, pVertices);
 922             vNumOutPts = ClipTriToPlane<FRUSTUM_LEFT>(pVertices, vNumOutPts, numAttribs, pTempVerts);
 923             vNumOutPts = ClipTriToPlane<FRUSTUM_RIGHT>(pTempVerts, vNumOutPts, numAttribs, pVertices);
 924             vNumOutPts = ClipTriToPlane<FRUSTUM_BOTTOM>(pVertices, vNumOutPts, numAttribs, pTempVerts);
 925             vNumOutPts = ClipTriToPlane<FRUSTUM_TOP>(pTempVerts, vNumOutPts, numAttribs, pVertices);
 926         }
 927         else
 928         {
 929             SWR_ASSERT(NumVertsPerPrim == 2);
 930             vNumOutPts = ClipLineToPlane<FRUSTUM_NEAR>(pVertices, vNumInPts, numAttribs, pTempVerts);
 931             vNumOutPts = ClipLineToPlane<FRUSTUM_FAR>(pTempVerts, vNumOutPts, numAttribs, pVertices);
 932             vNumOutPts = ClipLineToPlane<FRUSTUM_LEFT>(pVertices, vNumOutPts, numAttribs, pTempVerts);
 933             vNumOutPts = ClipLineToPlane<FRUSTUM_RIGHT>(pTempVerts, vNumOutPts, numAttribs, pVertices);
 934             vNumOutPts = ClipLineToPlane<FRUSTUM_BOTTOM>(pVertices, vNumOutPts, numAttribs, pTempVerts);
 935             vNumOutPts = ClipLineToPlane<FRUSTUM_TOP>(pTempVerts, vNumOutPts, numAttribs, pVertices);
 936         }
 937
 938         // restore num verts for non-clipped, active lanes
 939         simdscalar vNonClippedMask = _simd_andnot_ps(vClipMask, vPrimMask);
 940         vNumOutPts = _simd_blendv_epi32(vNumOutPts, _simd_set1_epi32(NumVertsPerPrim), vNonClippedMask);
 941
 942         return vNumOutPts;
 943     }
 944
 945     const uint32_t workerId{ 0 };
 946     const DRIVER_TYPE driverType{ DX };
 947     DRAW_CONTEXT* pDC{ nullptr };
 948     const API_STATE& state;
 949     simdscalar clipCodes[NumVertsPerPrim];
 950 };
 951
 952
 953 // pipeline stage functions
 954 void ClipTriangles(DRAW_CONTEXT *pDC, PA_STATE& pa, uint32_t workerId, simdvector prims[], uint32_t primMask, simdscalari primId);
 955 void ClipLines(DRAW_CONTEXT *pDC, PA_STATE& pa, uint32_t workerId, simdvector prims[], uint32_t primMask, simdscalari primId);
 956 void ClipPoints(DRAW_CONTEXT *pDC, PA_STATE& pa, uint32_t workerId, simdvector prims[], uint32_t primMask, simdscalari primId);