src/mesa/drivers/dri/i965/brw_fs_emit.cpp

   1 /*
   2  * Copyright © 2010 Intel Corporation
   3  *
   4  * Permission is hereby granted, free of charge, to any person obtaining a
   5  * copy of this software and associated documentation files (the "Software"),
   6  * to deal in the Software without restriction, including without limitation
   7  * the rights to use, copy, modify, merge, publish, distribute, sublicense,
   8  * and/or sell copies of the Software, and to permit persons to whom the
   9  * Software is furnished to do so, subject to the following conditions:
  10  *
  11  * The above copyright notice and this permission notice (including the next
  12  * paragraph) shall be included in all copies or substantial portions of the
  13  * Software.
  14  *
  15  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
  16  * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
  17  * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL
  18  * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
  19  * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
  20  * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS
  21  * IN THE SOFTWARE.
  22  */
  23
  24 /** @file brw_fs_emit.cpp
  25  *
  26  * This file supports emitting code from the FS LIR to the actual
  27  * native instructions.
  28  */
  29
  30 extern "C" {
  31 #include "main/macros.h"
  32 #include "brw_context.h"
  33 #include "brw_eu.h"
  34 } /* extern "C" */
  35
  36 #include "brw_fs.h"
  37 #include "brw_cfg.h"
  38 #include "glsl/ir_print_visitor.h"
  39
  40 fs_generator::fs_generator(struct brw_context *brw,
  41                            struct brw_wm_compile *c,
  42                            struct gl_shader_program *prog,
  43                            struct gl_fragment_program *fp,
  44                            bool dual_source_output)
  45
  46    : brw(brw), c(c), prog(prog), fp(fp), dual_source_output(dual_source_output)
  47 {
  48    intel = &brw->intel;
  49    ctx = &intel->ctx;
  50
  51    shader = prog ? prog->_LinkedShaders[MESA_SHADER_FRAGMENT] : NULL;
  52
  53    mem_ctx = c;
  54
  55    p = rzalloc(mem_ctx, struct brw_compile);
  56    brw_init_compile(brw, p, mem_ctx);
  57 }
  58
  59 fs_generator::~fs_generator()
  60 {
  61 }
  62
  63 void
  64 fs_generator::patch_discard_jumps_to_fb_writes()
  65 {
  66    if (intel->gen < 6 || this->discard_halt_patches.is_empty())
  67       return;
  68
  69    /* There is a somewhat strange undocumented requirement of using
  70     * HALT, according to the simulator.  If some channel has HALTed to
  71     * a particular UIP, then by the end of the program, every channel
  72     * must have HALTed to that UIP.  Furthermore, the tracking is a
  73     * stack, so you can't do the final halt of a UIP after starting
  74     * halting to a new UIP.
  75     *
  76     * Symptoms of not emitting this instruction on actual hardware
  77     * included GPU hangs and sparkly rendering on the piglit discard
  78     * tests.
  79     */
  80    struct brw_instruction *last_halt = gen6_HALT(p);
  81    last_halt->bits3.break_cont.uip = 2;
  82    last_halt->bits3.break_cont.jip = 2;
  83
  84    int ip = p->nr_insn;
  85
  86    foreach_list(node, &this->discard_halt_patches) {
  87       ip_record *patch_ip = (ip_record *)node;
  88       struct brw_instruction *patch = &p->store[patch_ip->ip];
  89
  90       assert(patch->header.opcode == BRW_OPCODE_HALT);
  91       /* HALT takes a half-instruction distance from the pre-incremented IP. */
  92       patch->bits3.break_cont.uip = (ip - patch_ip->ip) * 2;
  93    }
  94
  95    this->discard_halt_patches.make_empty();
  96 }
  97
  98 void
  99 fs_generator::generate_fb_write(fs_inst *inst)
 100 {
 101    bool eot = inst->eot;
 102    struct brw_reg implied_header;
 103    uint32_t msg_control;
 104
 105    /* Note that the jumps emitted to this point mean that the g0 ->
 106     * base_mrf setup must be inside of this function, so that we jump
 107     * to a point containing it.
 108     */
 109    patch_discard_jumps_to_fb_writes();
 110
 111    /* Header is 2 regs, g0 and g1 are the contents. g0 will be implied
 112     * move, here's g1.
 113     */
 114    brw_push_insn_state(p);
 115    brw_set_mask_control(p, BRW_MASK_DISABLE);
 116    brw_set_compression_control(p, BRW_COMPRESSION_NONE);
 117
 118    if (fp->UsesKill) {
 119       struct brw_reg pixel_mask;
 120
 121       if (intel->gen >= 6)
 122          pixel_mask = retype(brw_vec1_grf(1, 7), BRW_REGISTER_TYPE_UW);
 123       else
 124          pixel_mask = retype(brw_vec1_grf(0, 0), BRW_REGISTER_TYPE_UW);
 125
 126       brw_MOV(p, pixel_mask, brw_flag_reg(0, 1));
 127    }
 128
 129    if (inst->header_present) {
 130       if (intel->gen >= 6) {
 131          brw_set_compression_control(p, BRW_COMPRESSION_COMPRESSED);
 132          brw_MOV(p,
 133                  retype(brw_message_reg(inst->base_mrf), BRW_REGISTER_TYPE_UD),
 134                  retype(brw_vec8_grf(0, 0), BRW_REGISTER_TYPE_UD));
 135          brw_set_compression_control(p, BRW_COMPRESSION_NONE);
 136
 137          if (inst->target > 0 &&
 138              c->key.nr_color_regions > 1 &&
 139              c->key.sample_alpha_to_coverage) {
 140             /* Set "Source0 Alpha Present to RenderTarget" bit in message
 141              * header.
 142              */
 143             brw_OR(p,
 144                    vec1(retype(brw_message_reg(inst->base_mrf), BRW_REGISTER_TYPE_UD)),
 145                    vec1(retype(brw_vec8_grf(0, 0), BRW_REGISTER_TYPE_UD)),
 146                    brw_imm_ud(0x1 << 11));
 147          }
 148
 149          if (inst->target > 0) {
 150             /* Set the render target index for choosing BLEND_STATE. */
 151             brw_MOV(p, retype(brw_vec1_reg(BRW_MESSAGE_REGISTER_FILE,
 152                                            inst->base_mrf, 2),
 153                               BRW_REGISTER_TYPE_UD),
 154                     brw_imm_ud(inst->target));
 155          }
 156
 157          implied_header = brw_null_reg();
 158       } else {
 159          implied_header = retype(brw_vec8_grf(0, 0), BRW_REGISTER_TYPE_UW);
 160
 161          brw_MOV(p,
 162                  brw_message_reg(inst->base_mrf + 1),
 163                  brw_vec8_grf(1, 0));
 164       }
 165    } else {
 166       implied_header = brw_null_reg();
 167    }
 168
 169    if (this->dual_source_output)
 170       msg_control = BRW_DATAPORT_RENDER_TARGET_WRITE_SIMD8_DUAL_SOURCE_SUBSPAN01;
 171    else if (dispatch_width == 16)
 172       msg_control = BRW_DATAPORT_RENDER_TARGET_WRITE_SIMD16_SINGLE_SOURCE;
 173    else
 174       msg_control = BRW_DATAPORT_RENDER_TARGET_WRITE_SIMD8_SINGLE_SOURCE_SUBSPAN01;
 175
 176    brw_pop_insn_state(p);
 177
 178    brw_fb_WRITE(p,
 179                 dispatch_width,
 180                 inst->base_mrf,
 181                 implied_header,
 182                 msg_control,
 183                 inst->target,
 184                 inst->mlen,
 185                 0,
 186                 eot,
 187                 inst->header_present);
 188 }
 189
 190 /* Computes the integer pixel x,y values from the origin.
 191  *
 192  * This is the basis of gl_FragCoord computation, but is also used
 193  * pre-gen6 for computing the deltas from v0 for computing
 194  * interpolation.
 195  */
 196 void
 197 fs_generator::generate_pixel_xy(struct brw_reg dst, bool is_x)
 198 {
 199    struct brw_reg g1_uw = retype(brw_vec1_grf(1, 0), BRW_REGISTER_TYPE_UW);
 200    struct brw_reg src;
 201    struct brw_reg deltas;
 202
 203    if (is_x) {
 204       src = stride(suboffset(g1_uw, 4), 2, 4, 0);
 205       deltas = brw_imm_v(0x10101010);
 206    } else {
 207       src = stride(suboffset(g1_uw, 5), 2, 4, 0);
 208       deltas = brw_imm_v(0x11001100);
 209    }
 210
 211    if (dispatch_width == 16) {
 212       dst = vec16(dst);
 213    }
 214
 215    /* We do this 8 or 16-wide, but since the destination is UW we
 216     * don't do compression in the 16-wide case.
 217     */
 218    brw_push_insn_state(p);
 219    brw_set_compression_control(p, BRW_COMPRESSION_NONE);
 220    brw_ADD(p, dst, src, deltas);
 221    brw_pop_insn_state(p);
 222 }
 223
 224 void
 225 fs_generator::generate_linterp(fs_inst *inst,
 226                              struct brw_reg dst, struct brw_reg *src)
 227 {
 228    struct brw_reg delta_x = src[0];
 229    struct brw_reg delta_y = src[1];
 230    struct brw_reg interp = src[2];
 231
 232    if (brw->has_pln &&
 233        delta_y.nr == delta_x.nr + 1 &&
 234        (intel->gen >= 6 || (delta_x.nr & 1) == 0)) {
 235       brw_PLN(p, dst, interp, delta_x);
 236    } else {
 237       brw_LINE(p, brw_null_reg(), interp, delta_x);
 238       brw_MAC(p, dst, suboffset(interp, 1), delta_y);
 239    }
 240 }
 241
 242 void
 243 fs_generator::generate_math1_gen7(fs_inst *inst,
 244                                 struct brw_reg dst,
 245                                 struct brw_reg src0)
 246 {
 247    assert(inst->mlen == 0);
 248    brw_math(p, dst,
 249             brw_math_function(inst->opcode),
 250             0, src0,
 251             BRW_MATH_DATA_VECTOR,
 252             BRW_MATH_PRECISION_FULL);
 253 }
 254
 255 void
 256 fs_generator::generate_math2_gen7(fs_inst *inst,
 257                                 struct brw_reg dst,
 258                                 struct brw_reg src0,
 259                                 struct brw_reg src1)
 260 {
 261    assert(inst->mlen == 0);
 262    brw_math2(p, dst, brw_math_function(inst->opcode), src0, src1);
 263 }
 264
 265 void
 266 fs_generator::generate_math1_gen6(fs_inst *inst,
 267                                 struct brw_reg dst,
 268                                 struct brw_reg src0)
 269 {
 270    int op = brw_math_function(inst->opcode);
 271
 272    assert(inst->mlen == 0);
 273
 274    brw_set_compression_control(p, BRW_COMPRESSION_NONE);
 275    brw_math(p, dst,
 276             op,
 277             0, src0,
 278             BRW_MATH_DATA_VECTOR,
 279             BRW_MATH_PRECISION_FULL);
 280
 281    if (dispatch_width == 16) {
 282       brw_set_compression_control(p, BRW_COMPRESSION_2NDHALF);
 283       brw_math(p, sechalf(dst),
 284                op,
 285                0, sechalf(src0),
 286                BRW_MATH_DATA_VECTOR,
 287                BRW_MATH_PRECISION_FULL);
 288       brw_set_compression_control(p, BRW_COMPRESSION_COMPRESSED);
 289    }
 290 }
 291
 292 void
 293 fs_generator::generate_math2_gen6(fs_inst *inst,
 294                                 struct brw_reg dst,
 295                                 struct brw_reg src0,
 296                                 struct brw_reg src1)
 297 {
 298    int op = brw_math_function(inst->opcode);
 299
 300    assert(inst->mlen == 0);
 301
 302    brw_set_compression_control(p, BRW_COMPRESSION_NONE);
 303    brw_math2(p, dst, op, src0, src1);
 304
 305    if (dispatch_width == 16) {
 306       brw_set_compression_control(p, BRW_COMPRESSION_2NDHALF);
 307       brw_math2(p, sechalf(dst), op, sechalf(src0), sechalf(src1));
 308       brw_set_compression_control(p, BRW_COMPRESSION_COMPRESSED);
 309    }
 310 }
 311
 312 void
 313 fs_generator::generate_math_gen4(fs_inst *inst,
 314                                struct brw_reg dst,
 315                                struct brw_reg src)
 316 {
 317    int op = brw_math_function(inst->opcode);
 318
 319    assert(inst->mlen >= 1);
 320
 321    brw_set_compression_control(p, BRW_COMPRESSION_NONE);
 322    brw_math(p, dst,
 323             op,
 324             inst->base_mrf, src,
 325             BRW_MATH_DATA_VECTOR,
 326             BRW_MATH_PRECISION_FULL);
 327
 328    if (dispatch_width == 16) {
 329       brw_set_compression_control(p, BRW_COMPRESSION_2NDHALF);
 330       brw_math(p, sechalf(dst),
 331                op,
 332                inst->base_mrf + 1, sechalf(src),
 333                BRW_MATH_DATA_VECTOR,
 334                BRW_MATH_PRECISION_FULL);
 335
 336       brw_set_compression_control(p, BRW_COMPRESSION_COMPRESSED);
 337    }
 338 }
 339
 340 void
 341 fs_generator::generate_tex(fs_inst *inst, struct brw_reg dst, struct brw_reg src)
 342 {
 343    int msg_type = -1;
 344    int rlen = 4;
 345    uint32_t simd_mode = BRW_SAMPLER_SIMD_MODE_SIMD8;
 346    uint32_t return_format;
 347
 348    switch (dst.type) {
 349    case BRW_REGISTER_TYPE_D:
 350       return_format = BRW_SAMPLER_RETURN_FORMAT_SINT32;
 351       break;
 352    case BRW_REGISTER_TYPE_UD:
 353       return_format = BRW_SAMPLER_RETURN_FORMAT_UINT32;
 354       break;
 355    default:
 356       return_format = BRW_SAMPLER_RETURN_FORMAT_FLOAT32;
 357       break;
 358    }
 359
 360    if (dispatch_width == 16)
 361       simd_mode = BRW_SAMPLER_SIMD_MODE_SIMD16;
 362
 363    if (intel->gen >= 5) {
 364       switch (inst->opcode) {
 365       case SHADER_OPCODE_TEX:
 366          if (inst->shadow_compare) {
 367             msg_type = GEN5_SAMPLER_MESSAGE_SAMPLE_COMPARE;
 368          } else {
 369             msg_type = GEN5_SAMPLER_MESSAGE_SAMPLE;
 370          }
 371          break;
 372       case FS_OPCODE_TXB:
 373          if (inst->shadow_compare) {
 374             msg_type = GEN5_SAMPLER_MESSAGE_SAMPLE_BIAS_COMPARE;
 375          } else {
 376             msg_type = GEN5_SAMPLER_MESSAGE_SAMPLE_BIAS;
 377          }
 378          break;
 379       case SHADER_OPCODE_TXL:
 380          if (inst->shadow_compare) {
 381             msg_type = GEN5_SAMPLER_MESSAGE_SAMPLE_LOD_COMPARE;
 382          } else {
 383             msg_type = GEN5_SAMPLER_MESSAGE_SAMPLE_LOD;
 384          }
 385          break;
 386       case SHADER_OPCODE_TXS:
 387          msg_type = GEN5_SAMPLER_MESSAGE_SAMPLE_RESINFO;
 388          break;
 389       case SHADER_OPCODE_TXD:
 390          if (inst->shadow_compare) {
 391             /* Gen7.5+.  Otherwise, lowered by brw_lower_texture_gradients(). */
 392             assert(intel->is_haswell);
 393             msg_type = HSW_SAMPLER_MESSAGE_SAMPLE_DERIV_COMPARE;
 394          } else {
 395             msg_type = GEN5_SAMPLER_MESSAGE_SAMPLE_DERIVS;
 396          }
 397          break;
 398       case SHADER_OPCODE_TXF:
 399          msg_type = GEN5_SAMPLER_MESSAGE_SAMPLE_LD;
 400          break;
 401       case SHADER_OPCODE_TXF_MS:
 402          if (intel->gen >= 7)
 403             msg_type = GEN7_SAMPLER_MESSAGE_SAMPLE_LD2DMS;
 404          else
 405             msg_type = GEN5_SAMPLER_MESSAGE_SAMPLE_LD;
 406          break;
 407       case SHADER_OPCODE_LOD:
 408          msg_type = GEN5_SAMPLER_MESSAGE_LOD;
 409          break;
 410       default:
 411          assert(!"not reached");
 412          break;
 413       }
 414    } else {
 415       switch (inst->opcode) {
 416       case SHADER_OPCODE_TEX:
 417          /* Note that G45 and older determines shadow compare and dispatch width
 418           * from message length for most messages.
 419           */
 420          assert(dispatch_width == 8);
 421          msg_type = BRW_SAMPLER_MESSAGE_SIMD8_SAMPLE;
 422          if (inst->shadow_compare) {
 423             assert(inst->mlen == 6);
 424          } else {
 425             assert(inst->mlen <= 4);
 426          }
 427          break;
 428       case FS_OPCODE_TXB:
 429          if (inst->shadow_compare) {
 430             assert(inst->mlen == 6);
 431             msg_type = BRW_SAMPLER_MESSAGE_SIMD8_SAMPLE_BIAS_COMPARE;
 432          } else {
 433             assert(inst->mlen == 9);
 434             msg_type = BRW_SAMPLER_MESSAGE_SIMD16_SAMPLE_BIAS;
 435             simd_mode = BRW_SAMPLER_SIMD_MODE_SIMD16;
 436          }
 437          break;
 438       case SHADER_OPCODE_TXL:
 439          if (inst->shadow_compare) {
 440             assert(inst->mlen == 6);
 441             msg_type = BRW_SAMPLER_MESSAGE_SIMD8_SAMPLE_LOD_COMPARE;
 442          } else {
 443             assert(inst->mlen == 9);
 444             msg_type = BRW_SAMPLER_MESSAGE_SIMD16_SAMPLE_LOD;
 445             simd_mode = BRW_SAMPLER_SIMD_MODE_SIMD16;
 446          }
 447          break;
 448       case SHADER_OPCODE_TXD:
 449          /* There is no sample_d_c message; comparisons are done manually */
 450          assert(inst->mlen == 7 || inst->mlen == 10);
 451          msg_type = BRW_SAMPLER_MESSAGE_SIMD8_SAMPLE_GRADIENTS;
 452          break;
 453       case SHADER_OPCODE_TXF:
 454          assert(inst->mlen == 9);
 455          msg_type = BRW_SAMPLER_MESSAGE_SIMD16_LD;
 456          simd_mode = BRW_SAMPLER_SIMD_MODE_SIMD16;
 457          break;
 458       case SHADER_OPCODE_TXS:
 459          assert(inst->mlen == 3);
 460          msg_type = BRW_SAMPLER_MESSAGE_SIMD16_RESINFO;
 461          simd_mode = BRW_SAMPLER_SIMD_MODE_SIMD16;
 462          break;
 463       default:
 464          assert(!"not reached");
 465          break;
 466       }
 467    }
 468    assert(msg_type != -1);
 469
 470    if (simd_mode == BRW_SAMPLER_SIMD_MODE_SIMD16) {
 471       rlen = 8;
 472       dst = vec16(dst);
 473    }
 474
 475    /* Load the message header if present.  If there's a texture offset,
 476     * we need to set it up explicitly and load the offset bitfield.
 477     * Otherwise, we can use an implied move from g0 to the first message reg.
 478     */
 479    if (inst->texture_offset) {
 480       brw_push_insn_state(p);
 481       brw_set_mask_control(p, BRW_MASK_DISABLE);
 482       brw_set_compression_control(p, BRW_COMPRESSION_NONE);
 483       /* Explicitly set up the message header by copying g0 to the MRF. */
 484       brw_MOV(p, retype(brw_message_reg(inst->base_mrf), BRW_REGISTER_TYPE_UD),
 485                  retype(brw_vec8_grf(0, 0), BRW_REGISTER_TYPE_UD));
 486
 487       /* Then set the offset bits in DWord 2. */
 488       brw_MOV(p, retype(brw_vec1_reg(BRW_MESSAGE_REGISTER_FILE,
 489                                      inst->base_mrf, 2), BRW_REGISTER_TYPE_UD),
 490                  brw_imm_ud(inst->texture_offset));
 491       brw_pop_insn_state(p);
 492    } else if (inst->header_present) {
 493       /* Set up an implied move from g0 to the MRF. */
 494       src = retype(brw_vec8_grf(0, 0), BRW_REGISTER_TYPE_UW);
 495    }
 496
 497    brw_SAMPLE(p,
 498               retype(dst, BRW_REGISTER_TYPE_UW),
 499               inst->base_mrf,
 500               src,
 501               SURF_INDEX_TEXTURE(inst->sampler),
 502               inst->sampler,
 503               msg_type,
 504               rlen,
 505               inst->mlen,
 506               inst->header_present,
 507               simd_mode,
 508               return_format);
 509 }
 510
 511
 512 /* For OPCODE_DDX and OPCODE_DDY, per channel of output we've got input
 513  * looking like:
 514  *
 515  * arg0: ss0.tl ss0.tr ss0.bl ss0.br ss1.tl ss1.tr ss1.bl ss1.br
 516  *
 517  * and we're trying to produce:
 518  *
 519  *           DDX                     DDY
 520  * dst: (ss0.tr - ss0.tl)     (ss0.tl - ss0.bl)
 521  *      (ss0.tr - ss0.tl)     (ss0.tr - ss0.br)
 522  *      (ss0.br - ss0.bl)     (ss0.tl - ss0.bl)
 523  *      (ss0.br - ss0.bl)     (ss0.tr - ss0.br)
 524  *      (ss1.tr - ss1.tl)     (ss1.tl - ss1.bl)
 525  *      (ss1.tr - ss1.tl)     (ss1.tr - ss1.br)
 526  *      (ss1.br - ss1.bl)     (ss1.tl - ss1.bl)
 527  *      (ss1.br - ss1.bl)     (ss1.tr - ss1.br)
 528  *
 529  * and add another set of two more subspans if in 16-pixel dispatch mode.
 530  *
 531  * For DDX, it ends up being easy: width = 2, horiz=0 gets us the same result
 532  * for each pair, and vertstride = 2 jumps us 2 elements after processing a
 533  * pair. But for DDY, it's harder, as we want to produce the pairs swizzled
 534  * between each other.  We could probably do it like ddx and swizzle the right
 535  * order later, but bail for now and just produce
 536  * ((ss0.tl - ss0.bl)x4 (ss1.tl - ss1.bl)x4)
 537  */
 538 void
 539 fs_generator::generate_ddx(fs_inst *inst, struct brw_reg dst, struct brw_reg src)
 540 {
 541    struct brw_reg src0 = brw_reg(src.file, src.nr, 1,
 542                                  BRW_REGISTER_TYPE_F,
 543                                  BRW_VERTICAL_STRIDE_2,
 544                                  BRW_WIDTH_2,
 545                                  BRW_HORIZONTAL_STRIDE_0,
 546                                  BRW_SWIZZLE_XYZW, WRITEMASK_XYZW);
 547    struct brw_reg src1 = brw_reg(src.file, src.nr, 0,
 548                                  BRW_REGISTER_TYPE_F,
 549                                  BRW_VERTICAL_STRIDE_2,
 550                                  BRW_WIDTH_2,
 551                                  BRW_HORIZONTAL_STRIDE_0,
 552                                  BRW_SWIZZLE_XYZW, WRITEMASK_XYZW);
 553    brw_ADD(p, dst, src0, negate(src1));
 554 }
 555
 556 /* The negate_value boolean is used to negate the derivative computation for
 557  * FBOs, since they place the origin at the upper left instead of the lower
 558  * left.
 559  */
 560 void
 561 fs_generator::generate_ddy(fs_inst *inst, struct brw_reg dst, struct brw_reg src,
 562                          bool negate_value)
 563 {
 564    struct brw_reg src0 = brw_reg(src.file, src.nr, 0,
 565                                  BRW_REGISTER_TYPE_F,
 566                                  BRW_VERTICAL_STRIDE_4,
 567                                  BRW_WIDTH_4,
 568                                  BRW_HORIZONTAL_STRIDE_0,
 569                                  BRW_SWIZZLE_XYZW, WRITEMASK_XYZW);
 570    struct brw_reg src1 = brw_reg(src.file, src.nr, 2,
 571                                  BRW_REGISTER_TYPE_F,
 572                                  BRW_VERTICAL_STRIDE_4,
 573                                  BRW_WIDTH_4,
 574                                  BRW_HORIZONTAL_STRIDE_0,
 575                                  BRW_SWIZZLE_XYZW, WRITEMASK_XYZW);
 576    if (negate_value)
 577       brw_ADD(p, dst, src1, negate(src0));
 578    else
 579       brw_ADD(p, dst, src0, negate(src1));
 580 }
 581
 582 void
 583 fs_generator::generate_discard_jump(fs_inst *inst)
 584 {
 585    assert(intel->gen >= 6);
 586
 587    /* This HALT will be patched up at FB write time to point UIP at the end of
 588     * the program, and at brw_uip_jip() JIP will be set to the end of the
 589     * current block (or the program).
 590     */
 591    this->discard_halt_patches.push_tail(new(mem_ctx) ip_record(p->nr_insn));
 592
 593    brw_push_insn_state(p);
 594    brw_set_mask_control(p, BRW_MASK_DISABLE);
 595    gen6_HALT(p);
 596    brw_pop_insn_state(p);
 597 }
 598
 599 void
 600 fs_generator::generate_spill(fs_inst *inst, struct brw_reg src)
 601 {
 602    assert(inst->mlen != 0);
 603
 604    brw_MOV(p,
 605            retype(brw_message_reg(inst->base_mrf + 1), BRW_REGISTER_TYPE_UD),
 606            retype(src, BRW_REGISTER_TYPE_UD));
 607    brw_oword_block_write_scratch(p, brw_message_reg(inst->base_mrf), 1,
 608                                  inst->offset);
 609 }
 610
 611 void
 612 fs_generator::generate_unspill(fs_inst *inst, struct brw_reg dst)
 613 {
 614    assert(inst->mlen != 0);
 615
 616    brw_oword_block_read_scratch(p, dst, brw_message_reg(inst->base_mrf), 1,
 617                                 inst->offset);
 618 }
 619
 620 void
 621 fs_generator::generate_uniform_pull_constant_load(fs_inst *inst,
 622                                                   struct brw_reg dst,
 623                                                   struct brw_reg index,
 624                                                   struct brw_reg offset)
 625 {
 626    assert(inst->mlen != 0);
 627
 628    assert(index.file == BRW_IMMEDIATE_VALUE &&
 629           index.type == BRW_REGISTER_TYPE_UD);
 630    uint32_t surf_index = index.dw1.ud;
 631
 632    assert(offset.file == BRW_IMMEDIATE_VALUE &&
 633           offset.type == BRW_REGISTER_TYPE_UD);
 634    uint32_t read_offset = offset.dw1.ud;
 635
 636    brw_oword_block_read(p, dst, brw_message_reg(inst->base_mrf),
 637                         read_offset, surf_index);
 638 }
 639
 640 void
 641 fs_generator::generate_uniform_pull_constant_load_gen7(fs_inst *inst,
 642                                                        struct brw_reg dst,
 643                                                        struct brw_reg index,
 644                                                        struct brw_reg offset)
 645 {
 646    assert(inst->mlen == 0);
 647
 648    assert(index.file == BRW_IMMEDIATE_VALUE &&
 649           index.type == BRW_REGISTER_TYPE_UD);
 650    uint32_t surf_index = index.dw1.ud;
 651
 652    assert(offset.file == BRW_GENERAL_REGISTER_FILE);
 653    /* Reference just the dword we need, to avoid angering validate_reg(). */
 654    offset = brw_vec1_grf(offset.nr, 0);
 655
 656    brw_push_insn_state(p);
 657    brw_set_compression_control(p, BRW_COMPRESSION_NONE);
 658    brw_set_mask_control(p, BRW_MASK_DISABLE);
 659    struct brw_instruction *send = brw_next_insn(p, BRW_OPCODE_SEND);
 660    brw_pop_insn_state(p);
 661
 662    /* We use the SIMD4x2 mode because we want to end up with 4 components in
 663     * the destination loaded consecutively from the same offset (which appears
 664     * in the first component, and the rest are ignored).
 665     */
 666    dst.width = BRW_WIDTH_4;
 667    brw_set_dest(p, send, dst);
 668    brw_set_src0(p, send, offset);
 669    brw_set_sampler_message(p, send,
 670                            surf_index,
 671                            0, /* LD message ignores sampler unit */
 672                            GEN5_SAMPLER_MESSAGE_SAMPLE_LD,
 673                            1, /* rlen */
 674                            1, /* mlen */
 675                            false, /* no header */
 676                            BRW_SAMPLER_SIMD_MODE_SIMD4X2,
 677                            0);
 678 }
 679
 680 void
 681 fs_generator::generate_varying_pull_constant_load(fs_inst *inst,
 682                                                   struct brw_reg dst,
 683                                                   struct brw_reg index)
 684 {
 685    assert(intel->gen < 7); /* Should use the gen7 variant. */
 686    assert(inst->header_present);
 687
 688    assert(index.file == BRW_IMMEDIATE_VALUE &&
 689           index.type == BRW_REGISTER_TYPE_UD);
 690    uint32_t surf_index = index.dw1.ud;
 691
 692    uint32_t msg_type, msg_control, rlen;
 693    if (intel->gen >= 6)
 694       msg_type = GEN6_DATAPORT_READ_MESSAGE_DWORD_SCATTERED_READ;
 695    else if (intel->gen == 5 || intel->is_g4x)
 696       msg_type = G45_DATAPORT_READ_MESSAGE_DWORD_SCATTERED_READ;
 697    else
 698       msg_type = BRW_DATAPORT_READ_MESSAGE_DWORD_SCATTERED_READ;
 699
 700    if (dispatch_width == 16) {
 701       msg_control = BRW_DATAPORT_DWORD_SCATTERED_BLOCK_16DWORDS;
 702       rlen = 2;
 703    } else {
 704       msg_control = BRW_DATAPORT_DWORD_SCATTERED_BLOCK_8DWORDS;
 705       rlen = 1;
 706    }
 707
 708    struct brw_reg header = brw_vec8_grf(0, 0);
 709    gen6_resolve_implied_move(p, &header, inst->base_mrf);
 710
 711    struct brw_instruction *send = brw_next_insn(p, BRW_OPCODE_SEND);
 712    brw_set_dest(p, send, dst);
 713    brw_set_src0(p, send, header);
 714    if (intel->gen < 6)
 715       send->header.destreg__conditionalmod = inst->base_mrf;
 716    brw_set_dp_read_message(p, send,
 717                            surf_index,
 718                            msg_control,
 719                            msg_type,
 720                            BRW_DATAPORT_READ_TARGET_DATA_CACHE,
 721                            inst->mlen,
 722                            inst->header_present,
 723                            rlen);
 724 }
 725
 726 void
 727 fs_generator::generate_varying_pull_constant_load_gen7(fs_inst *inst,
 728                                                        struct brw_reg dst,
 729                                                        struct brw_reg index,
 730                                                        struct brw_reg offset)
 731 {
 732    assert(intel->gen >= 7);
 733    /* Varying-offset pull constant loads are treated as a normal expression on
 734     * gen7, so the fact that it's a send message is hidden at the IR level.
 735     */
 736    assert(!inst->header_present);
 737    assert(!inst->mlen);
 738
 739    assert(index.file == BRW_IMMEDIATE_VALUE &&
 740           index.type == BRW_REGISTER_TYPE_UD);
 741    uint32_t surf_index = index.dw1.ud;
 742
 743    uint32_t msg_control, rlen, mlen;
 744    if (dispatch_width == 16) {
 745       msg_control = BRW_DATAPORT_DWORD_SCATTERED_BLOCK_16DWORDS;
 746       mlen = rlen = 2;
 747    } else {
 748       msg_control = BRW_DATAPORT_DWORD_SCATTERED_BLOCK_8DWORDS;
 749       mlen = rlen = 1;
 750    }
 751
 752    struct brw_instruction *send = brw_next_insn(p, BRW_OPCODE_SEND);
 753    brw_set_dest(p, send, dst);
 754    brw_set_src0(p, send, offset);
 755    if (intel->gen < 6)
 756       send->header.destreg__conditionalmod = inst->base_mrf;
 757    brw_set_dp_read_message(p, send,
 758                            surf_index,
 759                            msg_control,
 760                            GEN7_DATAPORT_DC_DWORD_SCATTERED_READ,
 761                            BRW_DATAPORT_READ_TARGET_DATA_CACHE,
 762                            mlen,
 763                            inst->header_present,
 764                            rlen);
 765 }
 766
 767 /**
 768  * Cause the current pixel/sample mask (from R1.7 bits 15:0) to be transferred
 769  * into the flags register (f0.0).
 770  *
 771  * Used only on Gen6 and above.
 772  */
 773 void
 774 fs_generator::generate_mov_dispatch_to_flags(fs_inst *inst)
 775 {
 776    struct brw_reg flags = brw_flag_reg(0, inst->flag_subreg);
 777    struct brw_reg dispatch_mask;
 778
 779    if (intel->gen >= 6)
 780       dispatch_mask = retype(brw_vec1_grf(1, 7), BRW_REGISTER_TYPE_UW);
 781    else
 782       dispatch_mask = retype(brw_vec1_grf(0, 0), BRW_REGISTER_TYPE_UW);
 783
 784    brw_push_insn_state(p);
 785    brw_set_mask_control(p, BRW_MASK_DISABLE);
 786    brw_MOV(p, flags, dispatch_mask);
 787    brw_pop_insn_state(p);
 788 }
 789
 790
 791 static uint32_t brw_file_from_reg(fs_reg *reg)
 792 {
 793    switch (reg->file) {
 794    case ARF:
 795       return BRW_ARCHITECTURE_REGISTER_FILE;
 796    case GRF:
 797       return BRW_GENERAL_REGISTER_FILE;
 798    case MRF:
 799       return BRW_MESSAGE_REGISTER_FILE;
 800    case IMM:
 801       return BRW_IMMEDIATE_VALUE;
 802    default:
 803       assert(!"not reached");
 804       return BRW_GENERAL_REGISTER_FILE;
 805    }
 806 }
 807
 808 static struct brw_reg
 809 brw_reg_from_fs_reg(fs_reg *reg)
 810 {
 811    struct brw_reg brw_reg;
 812
 813    switch (reg->file) {
 814    case GRF:
 815    case ARF:
 816    case MRF:
 817       if (reg->smear == -1) {
 818          brw_reg = brw_vec8_reg(brw_file_from_reg(reg), reg->reg, 0);
 819       } else {
 820          brw_reg = brw_vec1_reg(brw_file_from_reg(reg), reg->reg, reg->smear);
 821       }
 822       brw_reg = retype(brw_reg, reg->type);
 823       if (reg->sechalf)
 824          brw_reg = sechalf(brw_reg);
 825       break;
 826    case IMM:
 827       switch (reg->type) {
 828       case BRW_REGISTER_TYPE_F:
 829          brw_reg = brw_imm_f(reg->imm.f);
 830          break;
 831       case BRW_REGISTER_TYPE_D:
 832          brw_reg = brw_imm_d(reg->imm.i);
 833          break;
 834       case BRW_REGISTER_TYPE_UD:
 835          brw_reg = brw_imm_ud(reg->imm.u);
 836          break;
 837       default:
 838          assert(!"not reached");
 839          brw_reg = brw_null_reg();
 840          break;
 841       }
 842       break;
 843    case FIXED_HW_REG:
 844       brw_reg = reg->fixed_hw_reg;
 845       break;
 846    case BAD_FILE:
 847       /* Probably unused. */
 848       brw_reg = brw_null_reg();
 849       break;
 850    case UNIFORM:
 851       assert(!"not reached");
 852       brw_reg = brw_null_reg();
 853       break;
 854    default:
 855       assert(!"not reached");
 856       brw_reg = brw_null_reg();
 857       break;
 858    }
 859    if (reg->abs)
 860       brw_reg = brw_abs(brw_reg);
 861    if (reg->negate)
 862       brw_reg = negate(brw_reg);
 863
 864    return brw_reg;
 865 }
 866
 867 /**
 868  * Sets the first word of a vgrf for gen7+ simd4x2 uniform pull constant
 869  * sampler LD messages.
 870  *
 871  * We don't want to bake it into the send message's code generation because
 872  * that means we don't get a chance to schedule the instructions.
 873  */
 874 void
 875 fs_generator::generate_set_simd4x2_offset(fs_inst *inst,
 876                                           struct brw_reg dst,
 877                                           struct brw_reg value)
 878 {
 879    assert(value.file == BRW_IMMEDIATE_VALUE);
 880
 881    brw_push_insn_state(p);
 882    brw_set_compression_control(p, BRW_COMPRESSION_NONE);
 883    brw_set_mask_control(p, BRW_MASK_DISABLE);
 884    brw_MOV(p, retype(brw_vec1_reg(dst.file, dst.nr, 0), value.type), value);
 885    brw_pop_insn_state(p);
 886 }
 887
 888 /**
 889  * Change the register's data type from UD to W, doubling the strides in order
 890  * to compensate for halving the data type width.
 891  */
 892 static struct brw_reg
 893 ud_reg_to_w(struct brw_reg r)
 894 {
 895    assert(r.type == BRW_REGISTER_TYPE_UD);
 896    r.type = BRW_REGISTER_TYPE_W;
 897
 898    /* The BRW_*_STRIDE enums are defined so that incrementing the field
 899     * doubles the real stride.
 900     */
 901    if (r.hstride != 0)
 902       ++r.hstride;
 903    if (r.vstride != 0)
 904       ++r.vstride;
 905
 906    return r;
 907 }
 908
 909 void
 910 fs_generator::generate_pack_half_2x16_split(fs_inst *inst,
 911                                             struct brw_reg dst,
 912                                             struct brw_reg x,
 913                                             struct brw_reg y)
 914 {
 915    assert(intel->gen >= 7);
 916    assert(dst.type == BRW_REGISTER_TYPE_UD);
 917    assert(x.type == BRW_REGISTER_TYPE_F);
 918    assert(y.type == BRW_REGISTER_TYPE_F);
 919
 920    /* From the Ivybridge PRM, Vol4, Part3, Section 6.27 f32to16:
 921     *
 922     *   Because this instruction does not have a 16-bit floating-point type,
 923     *   the destination data type must be Word (W).
 924     *
 925     *   The destination must be DWord-aligned and specify a horizontal stride
 926     *   (HorzStride) of 2. The 16-bit result is stored in the lower word of
 927     *   each destination channel and the upper word is not modified.
 928     */
 929    struct brw_reg dst_w = ud_reg_to_w(dst);
 930
 931    /* Give each 32-bit channel of dst the form below , where "." means
 932     * unchanged.
 933     *   0x....hhhh
 934     */
 935    brw_F32TO16(p, dst_w, y);
 936
 937    /* Now the form:
 938     *   0xhhhh0000
 939     */
 940    brw_SHL(p, dst, dst, brw_imm_ud(16u));
 941
 942    /* And, finally the form of packHalf2x16's output:
 943     *   0xhhhhllll
 944     */
 945    brw_F32TO16(p, dst_w, x);
 946 }
 947
 948 void
 949 fs_generator::generate_unpack_half_2x16_split(fs_inst *inst,
 950                                               struct brw_reg dst,
 951                                               struct brw_reg src)
 952 {
 953    assert(intel->gen >= 7);
 954    assert(dst.type == BRW_REGISTER_TYPE_F);
 955    assert(src.type == BRW_REGISTER_TYPE_UD);
 956
 957    /* From the Ivybridge PRM, Vol4, Part3, Section 6.26 f16to32:
 958     *
 959     *   Because this instruction does not have a 16-bit floating-point type,
 960     *   the source data type must be Word (W). The destination type must be
 961     *   F (Float).
 962     */
 963    struct brw_reg src_w = ud_reg_to_w(src);
 964
 965    /* Each channel of src has the form of unpackHalf2x16's input: 0xhhhhllll.
 966     * For the Y case, we wish to access only the upper word; therefore
 967     * a 16-bit subregister offset is needed.
 968     */
 969    assert(inst->opcode == FS_OPCODE_UNPACK_HALF_2x16_SPLIT_X ||
 970           inst->opcode == FS_OPCODE_UNPACK_HALF_2x16_SPLIT_Y);
 971    if (inst->opcode == FS_OPCODE_UNPACK_HALF_2x16_SPLIT_Y)
 972       src_w.subnr += 2;
 973
 974    brw_F16TO32(p, dst, src_w);
 975 }
 976
 977 void
 978 fs_generator::generate_shader_time_add(fs_inst *inst,
 979                                        struct brw_reg payload,
 980                                        struct brw_reg offset,
 981                                        struct brw_reg value)
 982 {
 983    assert(intel->gen >= 7);
 984    brw_push_insn_state(p);
 985    brw_set_mask_control(p, true);
 986
 987    assert(payload.file == BRW_GENERAL_REGISTER_FILE);
 988    struct brw_reg payload_offset = retype(brw_vec1_grf(payload.nr, 0),
 989                                           offset.type);
 990    struct brw_reg payload_value = retype(brw_vec1_grf(payload.nr + 1, 0),
 991                                          value.type);
 992
 993    assert(offset.file == BRW_IMMEDIATE_VALUE);
 994    if (value.file == BRW_GENERAL_REGISTER_FILE) {
 995       value.width = BRW_WIDTH_1;
 996       value.hstride = BRW_HORIZONTAL_STRIDE_0;
 997       value.vstride = BRW_VERTICAL_STRIDE_0;
 998    } else {
 999       assert(value.file == BRW_IMMEDIATE_VALUE);
1000    }
1001
1002    /* Trying to deal with setup of the params from the IR is crazy in the FS8
1003     * case, and we don't really care about squeezing every bit of performance
1004     * out of this path, so we just emit the MOVs from here.
1005     */
1006    brw_MOV(p, payload_offset, offset);
1007    brw_MOV(p, payload_value, value);
1008    brw_shader_time_add(p, payload, SURF_INDEX_WM_SHADER_TIME);
1009    brw_pop_insn_state(p);
1010 }
1011
1012 void
1013 fs_generator::generate_code(exec_list *instructions)
1014 {
1015    int last_native_insn_offset = p->next_insn_offset;
1016    const char *last_annotation_string = NULL;
1017    const void *last_annotation_ir = NULL;
1018
1019    if (unlikely(INTEL_DEBUG & DEBUG_WM)) {
1020       if (shader) {
1021          printf("Native code for fragment shader %d (%d-wide dispatch):\n",
1022                 prog->Name, dispatch_width);
1023       } else {
1024          printf("Native code for fragment program %d (%d-wide dispatch):\n",
1025                 fp->Base.Id, dispatch_width);
1026       }
1027    }
1028
1029    cfg_t *cfg = NULL;
1030    if (unlikely(INTEL_DEBUG & DEBUG_WM))
1031       cfg = new(mem_ctx) cfg_t(mem_ctx, instructions);
1032
1033    foreach_list(node, instructions) {
1034       fs_inst *inst = (fs_inst *)node;
1035       struct brw_reg src[3], dst;
1036
1037       if (unlikely(INTEL_DEBUG & DEBUG_WM)) {
1038          foreach_list(node, &cfg->block_list) {
1039             bblock_link *link = (bblock_link *)node;
1040             bblock_t *block = link->block;
1041
1042             if (block->start == inst) {
1043                printf("   START B%d", block->block_num);
1044                foreach_list(predecessor_node, &block->parents) {
1045                   bblock_link *predecessor_link =
1046                      (bblock_link *)predecessor_node;
1047                   bblock_t *predecessor_block = predecessor_link->block;
1048                   printf(" <-B%d", predecessor_block->block_num);
1049                }
1050                printf("\n");
1051             }
1052          }
1053
1054          if (last_annotation_ir != inst->ir) {
1055             last_annotation_ir = inst->ir;
1056             if (last_annotation_ir) {
1057                printf("   ");
1058                if (shader)
1059                   ((ir_instruction *)inst->ir)->print();
1060                else {
1061                   const prog_instruction *fpi;
1062                   fpi = (const prog_instruction *)inst->ir;
1063                   printf("%d: ", (int)(fpi - fp->Base.Instructions));
1064                   _mesa_fprint_instruction_opt(stdout,
1065                                                fpi,
1066                                                0, PROG_PRINT_DEBUG, NULL);
1067                }
1068                printf("\n");
1069             }
1070          }
1071          if (last_annotation_string != inst->annotation) {
1072             last_annotation_string = inst->annotation;
1073             if (last_annotation_string)
1074                printf("   %s\n", last_annotation_string);
1075          }
1076       }
1077
1078       for (unsigned int i = 0; i < 3; i++) {
1079          src[i] = brw_reg_from_fs_reg(&inst->src[i]);
1080
1081          /* The accumulator result appears to get used for the
1082           * conditional modifier generation.  When negating a UD
1083           * value, there is a 33rd bit generated for the sign in the
1084           * accumulator value, so now you can't check, for example,
1085           * equality with a 32-bit value.  See piglit fs-op-neg-uvec4.
1086           */
1087          assert(!inst->conditional_mod ||
1088                 inst->src[i].type != BRW_REGISTER_TYPE_UD ||
1089                 !inst->src[i].negate);
1090       }
1091       dst = brw_reg_from_fs_reg(&inst->dst);
1092
1093       brw_set_conditionalmod(p, inst->conditional_mod);
1094       brw_set_predicate_control(p, inst->predicate);
1095       brw_set_predicate_inverse(p, inst->predicate_inverse);
1096       brw_set_flag_reg(p, 0, inst->flag_subreg);
1097       brw_set_saturate(p, inst->saturate);
1098       brw_set_mask_control(p, inst->force_writemask_all);
1099
1100       if (inst->force_uncompressed || dispatch_width == 8) {
1101          brw_set_compression_control(p, BRW_COMPRESSION_NONE);
1102       } else if (inst->force_sechalf) {
1103          brw_set_compression_control(p, BRW_COMPRESSION_2NDHALF);
1104       } else {
1105          brw_set_compression_control(p, BRW_COMPRESSION_COMPRESSED);
1106       }
1107
1108       switch (inst->opcode) {
1109       case BRW_OPCODE_MOV:
1110          brw_MOV(p, dst, src[0]);
1111          break;
1112       case BRW_OPCODE_ADD:
1113          brw_ADD(p, dst, src[0], src[1]);
1114          break;
1115       case BRW_OPCODE_MUL:
1116          brw_MUL(p, dst, src[0], src[1]);
1117          break;
1118       case BRW_OPCODE_MACH:
1119          brw_set_acc_write_control(p, 1);
1120          brw_MACH(p, dst, src[0], src[1]);
1121          brw_set_acc_write_control(p, 0);
1122          break;
1123
1124       case BRW_OPCODE_MAD:
1125          brw_set_access_mode(p, BRW_ALIGN_16);
1126          if (dispatch_width == 16) {
1127             brw_set_compression_control(p, BRW_COMPRESSION_NONE);
1128             brw_MAD(p, dst, src[0], src[1], src[2]);
1129             brw_set_compression_control(p, BRW_COMPRESSION_2NDHALF);
1130             brw_MAD(p, sechalf(dst), sechalf(src[0]), sechalf(src[1]), sechalf(src[2]));
1131             brw_set_compression_control(p, BRW_COMPRESSION_COMPRESSED);
1132          } else {
1133             brw_MAD(p, dst, src[0], src[1], src[2]);
1134          }
1135          brw_set_access_mode(p, BRW_ALIGN_1);
1136          break;
1137
1138       case BRW_OPCODE_LRP:
1139          brw_set_access_mode(p, BRW_ALIGN_16);
1140          if (dispatch_width == 16) {
1141             brw_set_compression_control(p, BRW_COMPRESSION_NONE);
1142             brw_LRP(p, dst, src[0], src[1], src[2]);
1143             brw_set_compression_control(p, BRW_COMPRESSION_2NDHALF);
1144             brw_LRP(p, sechalf(dst), sechalf(src[0]), sechalf(src[1]), sechalf(src[2]));
1145             brw_set_compression_control(p, BRW_COMPRESSION_COMPRESSED);
1146          } else {
1147             brw_LRP(p, dst, src[0], src[1], src[2]);
1148          }
1149          brw_set_access_mode(p, BRW_ALIGN_1);
1150          break;
1151
1152       case BRW_OPCODE_FRC:
1153          brw_FRC(p, dst, src[0]);
1154          break;
1155       case BRW_OPCODE_RNDD:
1156          brw_RNDD(p, dst, src[0]);
1157          break;
1158       case BRW_OPCODE_RNDE:
1159          brw_RNDE(p, dst, src[0]);
1160          break;
1161       case BRW_OPCODE_RNDZ:
1162          brw_RNDZ(p, dst, src[0]);
1163          break;
1164
1165       case BRW_OPCODE_AND:
1166          brw_AND(p, dst, src[0], src[1]);
1167          break;
1168       case BRW_OPCODE_OR:
1169          brw_OR(p, dst, src[0], src[1]);
1170          break;
1171       case BRW_OPCODE_XOR:
1172          brw_XOR(p, dst, src[0], src[1]);
1173          break;
1174       case BRW_OPCODE_NOT:
1175          brw_NOT(p, dst, src[0]);
1176          break;
1177       case BRW_OPCODE_ASR:
1178          brw_ASR(p, dst, src[0], src[1]);
1179          break;
1180       case BRW_OPCODE_SHR:
1181          brw_SHR(p, dst, src[0], src[1]);
1182          break;
1183       case BRW_OPCODE_SHL:
1184          brw_SHL(p, dst, src[0], src[1]);
1185          break;
1186       case BRW_OPCODE_F32TO16:
1187          brw_F32TO16(p, dst, src[0]);
1188          break;
1189       case BRW_OPCODE_F16TO32:
1190          brw_F16TO32(p, dst, src[0]);
1191          break;
1192       case BRW_OPCODE_CMP:
1193          brw_CMP(p, dst, inst->conditional_mod, src[0], src[1]);
1194          break;
1195       case BRW_OPCODE_SEL:
1196          brw_SEL(p, dst, src[0], src[1]);
1197          break;
1198
1199       case BRW_OPCODE_IF:
1200          if (inst->src[0].file != BAD_FILE) {
1201             /* The instruction has an embedded compare (only allowed on gen6) */
1202             assert(intel->gen == 6);
1203             gen6_IF(p, inst->conditional_mod, src[0], src[1]);
1204          } else {
1205             brw_IF(p, dispatch_width == 16 ? BRW_EXECUTE_16 : BRW_EXECUTE_8);
1206          }
1207          break;
1208
1209       case BRW_OPCODE_ELSE:
1210          brw_ELSE(p);
1211          break;
1212       case BRW_OPCODE_ENDIF:
1213          brw_ENDIF(p);
1214          break;
1215
1216       case BRW_OPCODE_DO:
1217          brw_DO(p, BRW_EXECUTE_8);
1218          break;
1219
1220       case BRW_OPCODE_BREAK:
1221          brw_BREAK(p);
1222          brw_set_predicate_control(p, BRW_PREDICATE_NONE);
1223          break;
1224       case BRW_OPCODE_CONTINUE:
1225          /* FINISHME: We need to write the loop instruction support still. */
1226          if (intel->gen >= 6)
1227             gen6_CONT(p);
1228          else
1229             brw_CONT(p);
1230          brw_set_predicate_control(p, BRW_PREDICATE_NONE);
1231          break;
1232
1233       case BRW_OPCODE_WHILE:
1234          brw_WHILE(p);
1235          break;
1236
1237       case SHADER_OPCODE_RCP:
1238       case SHADER_OPCODE_RSQ:
1239       case SHADER_OPCODE_SQRT:
1240       case SHADER_OPCODE_EXP2:
1241       case SHADER_OPCODE_LOG2:
1242       case SHADER_OPCODE_SIN:
1243       case SHADER_OPCODE_COS:
1244          if (intel->gen >= 7) {
1245             generate_math1_gen7(inst, dst, src[0]);
1246          } else if (intel->gen == 6) {
1247             generate_math1_gen6(inst, dst, src[0]);
1248          } else {
1249             generate_math_gen4(inst, dst, src[0]);
1250          }
1251          break;
1252       case SHADER_OPCODE_INT_QUOTIENT:
1253       case SHADER_OPCODE_INT_REMAINDER:
1254       case SHADER_OPCODE_POW:
1255          if (intel->gen >= 7) {
1256             generate_math2_gen7(inst, dst, src[0], src[1]);
1257          } else if (intel->gen == 6) {
1258             generate_math2_gen6(inst, dst, src[0], src[1]);
1259          } else {
1260             generate_math_gen4(inst, dst, src[0]);
1261          }
1262          break;
1263       case FS_OPCODE_PIXEL_X:
1264          generate_pixel_xy(dst, true);
1265          break;
1266       case FS_OPCODE_PIXEL_Y:
1267          generate_pixel_xy(dst, false);
1268          break;
1269       case FS_OPCODE_CINTERP:
1270          brw_MOV(p, dst, src[0]);
1271          break;
1272       case FS_OPCODE_LINTERP:
1273          generate_linterp(inst, dst, src);
1274          break;
1275       case SHADER_OPCODE_TEX:
1276       case FS_OPCODE_TXB:
1277       case SHADER_OPCODE_TXD:
1278       case SHADER_OPCODE_TXF:
1279       case SHADER_OPCODE_TXF_MS:
1280       case SHADER_OPCODE_TXL:
1281       case SHADER_OPCODE_TXS:
1282       case SHADER_OPCODE_LOD:
1283          generate_tex(inst, dst, src[0]);
1284          break;
1285       case FS_OPCODE_DDX:
1286          generate_ddx(inst, dst, src[0]);
1287          break;
1288       case FS_OPCODE_DDY:
1289          /* Make sure fp->UsesDFdy flag got set (otherwise there's no
1290           * guarantee that c->key.render_to_fbo is set).
1291           */
1292          assert(fp->UsesDFdy);
1293          generate_ddy(inst, dst, src[0], c->key.render_to_fbo);
1294          break;
1295
1296       case FS_OPCODE_SPILL:
1297          generate_spill(inst, src[0]);
1298          break;
1299
1300       case FS_OPCODE_UNSPILL:
1301          generate_unspill(inst, dst);
1302          break;
1303
1304       case FS_OPCODE_UNIFORM_PULL_CONSTANT_LOAD:
1305          generate_uniform_pull_constant_load(inst, dst, src[0], src[1]);
1306          break;
1307
1308       case FS_OPCODE_UNIFORM_PULL_CONSTANT_LOAD_GEN7:
1309          generate_uniform_pull_constant_load_gen7(inst, dst, src[0], src[1]);
1310          break;
1311
1312       case FS_OPCODE_VARYING_PULL_CONSTANT_LOAD:
1313          generate_varying_pull_constant_load(inst, dst, src[0]);
1314          break;
1315
1316       case FS_OPCODE_VARYING_PULL_CONSTANT_LOAD_GEN7:
1317          generate_varying_pull_constant_load_gen7(inst, dst, src[0], src[1]);
1318          break;
1319
1320       case FS_OPCODE_FB_WRITE:
1321          generate_fb_write(inst);
1322          break;
1323
1324       case FS_OPCODE_MOV_DISPATCH_TO_FLAGS:
1325          generate_mov_dispatch_to_flags(inst);
1326          break;
1327
1328       case FS_OPCODE_DISCARD_JUMP:
1329          generate_discard_jump(inst);
1330          break;
1331
1332       case SHADER_OPCODE_SHADER_TIME_ADD:
1333          generate_shader_time_add(inst, src[0], src[1], src[2]);
1334          break;
1335
1336       case FS_OPCODE_SET_SIMD4X2_OFFSET:
1337          generate_set_simd4x2_offset(inst, dst, src[0]);
1338          break;
1339
1340       case FS_OPCODE_PACK_HALF_2x16_SPLIT:
1341           generate_pack_half_2x16_split(inst, dst, src[0], src[1]);
1342           break;
1343
1344       case FS_OPCODE_UNPACK_HALF_2x16_SPLIT_X:
1345       case FS_OPCODE_UNPACK_HALF_2x16_SPLIT_Y:
1346          generate_unpack_half_2x16_split(inst, dst, src[0]);
1347          break;
1348
1349       default:
1350          if (inst->opcode < (int) ARRAY_SIZE(opcode_descs)) {
1351             _mesa_problem(ctx, "Unsupported opcode `%s' in FS",
1352                           opcode_descs[inst->opcode].name);
1353          } else {
1354             _mesa_problem(ctx, "Unsupported opcode %d in FS", inst->opcode);
1355          }
1356          abort();
1357       }
1358
1359       if (unlikely(INTEL_DEBUG & DEBUG_WM)) {
1360          brw_dump_compile(p, stdout,
1361                           last_native_insn_offset, p->next_insn_offset);
1362
1363          foreach_list(node, &cfg->block_list) {
1364             bblock_link *link = (bblock_link *)node;
1365             bblock_t *block = link->block;
1366
1367             if (block->end == inst) {
1368                printf("   END B%d", block->block_num);
1369                foreach_list(successor_node, &block->children) {
1370                   bblock_link *successor_link =
1371                      (bblock_link *)successor_node;
1372                   bblock_t *successor_block = successor_link->block;
1373                   printf(" ->B%d", successor_block->block_num);
1374                }
1375                printf("\n");
1376             }
1377          }
1378       }
1379
1380       last_native_insn_offset = p->next_insn_offset;
1381    }
1382
1383    if (unlikely(INTEL_DEBUG & DEBUG_WM)) {
1384       printf("\n");
1385    }
1386
1387    brw_set_uip_jip(p);
1388
1389    /* OK, while the INTEL_DEBUG=wm above is very nice for debugging FS
1390     * emit issues, it doesn't get the jump distances into the output,
1391     * which is often something we want to debug.  So this is here in
1392     * case you're doing that.
1393     */
1394    if (0) {
1395       brw_dump_compile(p, stdout, 0, p->next_insn_offset);
1396    }
1397 }
1398
1399 const unsigned *
1400 fs_generator::generate_assembly(exec_list *simd8_instructions,
1401                                 exec_list *simd16_instructions,
1402                                 unsigned *assembly_size)
1403 {
1404    dispatch_width = 8;
1405    generate_code(simd8_instructions);
1406
1407    if (simd16_instructions) {
1408       /* We have to do a compaction pass now, or the one at the end of
1409        * execution will squash down where our prog_offset start needs
1410        * to be.
1411        */
1412       brw_compact_instructions(p);
1413
1414       /* align to 64 byte boundary. */
1415       while ((p->nr_insn * sizeof(struct brw_instruction)) % 64) {
1416          brw_NOP(p);
1417       }
1418
1419       /* Save off the start of this 16-wide program */
1420       c->prog_data.prog_offset_16 = p->nr_insn * sizeof(struct brw_instruction);
1421
1422       brw_set_compression_control(p, BRW_COMPRESSION_COMPRESSED);
1423
1424       dispatch_width = 16;
1425       generate_code(simd16_instructions);
1426    }
1427
1428    return brw_get_program(p, assembly_size);
1429 }