i965: Delete vestiges of resource streamer code.

[mesa.git] / src / mesa / drivers / dri / i965 / brw_fs_generator.cpp
diff --git a/src/mesa/drivers/dri/i965/brw_fs_generator.cpp b/src/mesa/drivers/dri/i965/brw_fs_generator.cpp

index 8a581c9f02c3b9f9c131b918b992c78a790e1ec0..65c75e63d27df9b3612728d56bc07a83a5effe12 100644 (file)
--- a/src/mesa/drivers/dri/i965/brw_fs_generator.cpp
+++ b/src/mesa/drivers/dri/i965/brw_fs_generator.cpp
@@ -56,7 +56,6 @@ brw_file_from_reg(fs_reg *reg)
  static struct brw_reg
  brw_reg_from_fs_reg(fs_inst *inst, fs_reg *reg, unsigned gen, bool compressed)
  {
-   assert(reg->offset / REG_SIZE == 0);
     struct brw_reg brw_reg;
  
     switch (reg->file) {
@@ -97,14 +96,14 @@ brw_reg_from_fs_reg(fs_inst *inst, fs_reg *reg, unsigned gen, bool compressed)
        }
  
        brw_reg = retype(brw_reg, reg->type);
-      brw_reg = byte_offset(brw_reg, reg->offset % REG_SIZE);
+      brw_reg = byte_offset(brw_reg, reg->offset);
        brw_reg.abs = reg->abs;
        brw_reg.negate = reg->negate;
        break;
     case ARF:
     case FIXED_GRF:
     case IMM:
-      assert(reg->offset % REG_SIZE == 0);
+      assert(reg->offset == 0);
        brw_reg = reg->as_brw_reg();
        break;
     case BAD_FILE:
@@ -199,7 +198,7 @@ fs_generator::fire_fb_write(fs_inst *inst,
  {
     uint32_t msg_control;
  
-   brw_wm_prog_data *prog_data = (brw_wm_prog_data*) this->prog_data;
+   struct brw_wm_prog_data *prog_data = brw_wm_prog_data(this->prog_data);
  
     if (devinfo->gen < 6) {
        brw_push_insn_state(p);
@@ -247,7 +246,7 @@ fs_generator::fire_fb_write(fs_inst *inst,
  void
  fs_generator::generate_fb_write(fs_inst *inst, struct brw_reg payload)
  {
-   brw_wm_prog_data *prog_data = (brw_wm_prog_data*) this->prog_data;
+   struct brw_wm_prog_data *prog_data = brw_wm_prog_data(this->prog_data);
     const brw_wm_prog_key * const key = (brw_wm_prog_key * const) this->key;
     struct brw_reg implied_header;
  
@@ -358,8 +357,7 @@ fs_generator::generate_fb_read(fs_inst *inst, struct brw_reg dst,
                                 struct brw_reg payload)
  {
     assert(inst->size_written % REG_SIZE == 0);
-   brw_wm_prog_data *prog_data =
-      reinterpret_cast<brw_wm_prog_data *>(this->prog_data);
+   struct brw_wm_prog_data *prog_data = brw_wm_prog_data(this->prog_data);
     const unsigned surf_index =
        prog_data->binding_table.render_target_start + inst->target;
  
@@ -402,36 +400,35 @@ fs_generator::generate_mov_indirect(fs_inst *inst,
        indirect_byte_offset =
           retype(spread(indirect_byte_offset, 2), BRW_REGISTER_TYPE_UW);
  
-      struct brw_reg ind_src;
-      if (devinfo->gen < 8) {
-         /* From the Haswell PRM section "Register Region Restrictions":
-          *
-          *    "The lower bits of the AddressImmediate must not overflow to
-          *    change the register address.  The lower 5 bits of Address
-          *    Immediate when added to lower 5 bits of address register gives
-          *    the sub-register offset. The upper bits of Address Immediate
-          *    when added to upper bits of address register gives the register
-          *    address. Any overflow from sub-register offset is dropped."
-          *
-          * This restriction is only listed in the Haswell PRM but emperical
-          * testing indicates that it applies on all older generations and is
-          * lifted on Broadwell.
-          *
-          * Since the indirect may cause us to cross a register boundary, this
-          * makes the base offset almost useless.  We could try and do
-          * something clever where we use a actual base offset if
-          * base_offset % 32 == 0 but that would mean we were generating
-          * different code depending on the base offset.  Instead, for the
-          * sake of consistency, we'll just do the add ourselves.
-          */
-         brw_ADD(p, addr, indirect_byte_offset, brw_imm_uw(imm_byte_offset));
-         ind_src = brw_VxH_indirect(0, 0);
-      } else {
-         brw_MOV(p, addr, indirect_byte_offset);
-         ind_src = brw_VxH_indirect(0, imm_byte_offset);
-      }
+      /* There are a number of reasons why we don't use the base offset here.
+       * One reason is that the field is only 9 bits which means we can only
+       * use it to access the first 16 GRFs.  Also, from the Haswell PRM
+       * section "Register Region Restrictions":
+       *
+       *    "The lower bits of the AddressImmediate must not overflow to
+       *    change the register address.  The lower 5 bits of Address
+       *    Immediate when added to lower 5 bits of address register gives
+       *    the sub-register offset. The upper bits of Address Immediate
+       *    when added to upper bits of address register gives the register
+       *    address. Any overflow from sub-register offset is dropped."
+       *
+       * Since the indirect may cause us to cross a register boundary, this
+       * makes the base offset almost useless.  We could try and do something
+       * clever where we use a actual base offset if base_offset % 32 == 0 but
+       * that would mean we were generating different code depending on the
+       * base offset.  Instead, for the sake of consistency, we'll just do the
+       * add ourselves.  This restriction is only listed in the Haswell PRM
+       * but empirical testing indicates that it applies on all older
+       * generations and is lifted on Broadwell.
+       *
+       * In the end, while base_offset is nice to look at in the generated
+       * code, using it saves us 0 instructions and would require quite a bit
+       * of case-by-case work.  It's just not worth it.
+       */
+      brw_ADD(p, addr, indirect_byte_offset, brw_imm_uw(imm_byte_offset));
+      struct brw_reg ind_src = brw_VxH_indirect(0, 0);
  
-      brw_inst *mov = brw_MOV(p, dst, retype(ind_src, dst.type));
+      brw_inst *mov = brw_MOV(p, dst, retype(ind_src, reg.type));
  
        if (devinfo->gen == 6 && dst.file == BRW_MESSAGE_REGISTER_FILE &&
            !inst->get_next()->is_tail_sentinel() &&
@@ -511,7 +508,7 @@ fs_generator::generate_cs_terminate(fs_inst *inst, struct brw_reg payload)
     insn = brw_next_insn(p, BRW_OPCODE_SEND);
  
     brw_set_dest(p, insn, retype(brw_null_reg(), BRW_REGISTER_TYPE_UW));
-   brw_set_src0(p, insn, payload);
+   brw_set_src0(p, insn, retype(payload, BRW_REGISTER_TYPE_UW));
     brw_set_src1(p, insn, brw_imm_d(0));
  
     /* Terminate a compute shader by sending a message to the thread spawner.
@@ -703,7 +700,7 @@ fs_generator::generate_tex(fs_inst *inst, struct brw_reg dst, struct brw_reg src
          break;
        case SHADER_OPCODE_TXD:
           if (inst->shadow_compare) {
-            /* Gen7.5+.  Otherwise, lowered by brw_lower_texture_gradients(). */
+            /* Gen7.5+.  Otherwise, lowered in NIR */
              assert(devinfo->gen >= 8 || devinfo->is_haswell);
              msg_type = HSW_SAMPLER_MESSAGE_SAMPLE_DERIV_COMPARE;
           } else {
@@ -919,8 +916,12 @@ fs_generator::generate_tex(fs_inst *inst, struct brw_reg dst, struct brw_reg src
        if (brw_regs_equal(&surface_reg, &sampler_reg)) {
           brw_MUL(p, addr, sampler_reg, brw_imm_uw(0x101));
        } else {
-         brw_SHL(p, addr, sampler_reg, brw_imm_ud(8));
-         brw_OR(p, addr, addr, surface_reg);
+         if (sampler_reg.file == BRW_IMMEDIATE_VALUE) {
+            brw_OR(p, addr, surface_reg, brw_imm_ud(sampler_reg.ud << 8));
+         } else {
+            brw_SHL(p, addr, sampler_reg, brw_imm_ud(8));
+            brw_OR(p, addr, addr, surface_reg);
+         }
        }
        if (base_binding_table_index)
           brw_ADD(p, addr, addr, brw_imm_ud(base_binding_table_index));
@@ -1130,6 +1131,7 @@ fs_generator::generate_uniform_pull_constant_load(fs_inst *inst,
                                                    struct brw_reg index,
                                                    struct brw_reg offset)
  {
+   assert(type_sz(dst.type) == 4);
     assert(inst->mlen != 0);
  
     assert(index.file == BRW_IMMEDIATE_VALUE &&
@@ -1148,68 +1150,35 @@ void
  fs_generator::generate_uniform_pull_constant_load_gen7(fs_inst *inst,
                                                         struct brw_reg dst,
                                                         struct brw_reg index,
-                                                       struct brw_reg offset)
+                                                       struct brw_reg payload)
  {
     assert(index.type == BRW_REGISTER_TYPE_UD);
-
-   assert(offset.file == BRW_GENERAL_REGISTER_FILE);
-   /* Reference just the dword we need, to avoid angering validate_reg(). */
-   offset = brw_vec1_grf(offset.nr, 0);
-
-   /* We use the SIMD4x2 mode because we want to end up with 4 components in
-    * the destination loaded consecutively from the same offset (which appears
-    * in the first component, and the rest are ignored).
-    */
-   dst.width = BRW_WIDTH_4;
-
-   struct brw_reg src = offset;
-   bool header_present = false;
-
-   if (devinfo->gen >= 9) {
-      /* Skylake requires a message header in order to use SIMD4x2 mode. */
-      src = retype(brw_vec4_grf(offset.nr, 0), BRW_REGISTER_TYPE_UD);
-      header_present = true;
-
-      brw_push_insn_state(p);
-      brw_set_default_mask_control(p, BRW_MASK_DISABLE);
-      brw_set_default_exec_size(p, BRW_EXECUTE_8);
-      brw_MOV(p, vec8(src), retype(brw_vec8_grf(0, 0), BRW_REGISTER_TYPE_UD));
-      brw_set_default_access_mode(p, BRW_ALIGN_1);
-
-      brw_MOV(p, get_element_ud(src, 2),
-              brw_imm_ud(GEN9_SAMPLER_SIMD_MODE_EXTENSION_SIMD4X2));
-      brw_pop_insn_state(p);
-   }
+   assert(payload.file == BRW_GENERAL_REGISTER_FILE);
+   assert(type_sz(dst.type) == 4);
  
     if (index.file == BRW_IMMEDIATE_VALUE) {
-
-      uint32_t surf_index = index.ud;
+      const uint32_t surf_index = index.ud;
  
        brw_push_insn_state(p);
-      brw_set_default_compression_control(p, BRW_COMPRESSION_NONE);
        brw_set_default_mask_control(p, BRW_MASK_DISABLE);
        brw_inst *send = brw_next_insn(p, BRW_OPCODE_SEND);
-      brw_inst_set_exec_size(devinfo, send, BRW_EXECUTE_4);
        brw_pop_insn_state(p);
  
        brw_set_dest(p, send, retype(dst, BRW_REGISTER_TYPE_UD));
-      brw_set_src0(p, send, src);
-      brw_set_sampler_message(p, send,
-                              surf_index,
-                              0, /* LD message ignores sampler unit */
-                              GEN5_SAMPLER_MESSAGE_SAMPLE_LD,
-                              1, /* rlen */
-                              inst->mlen,
-                              header_present,
-                              BRW_SAMPLER_SIMD_MODE_SIMD4X2,
-                              0);
-   } else {
+      brw_set_src0(p, send, retype(payload, BRW_REGISTER_TYPE_UD));
+      brw_set_dp_read_message(p, send, surf_index,
+                              BRW_DATAPORT_OWORD_BLOCK_DWORDS(inst->exec_size),
+                              GEN7_DATAPORT_DC_OWORD_BLOCK_READ,
+                              GEN6_SFID_DATAPORT_CONSTANT_CACHE,
+                              1, /* mlen */
+                              true, /* header */
+                              DIV_ROUND_UP(inst->size_written, REG_SIZE));
  
+   } else {
        struct brw_reg addr = vec1(retype(brw_address_reg(0), BRW_REGISTER_TYPE_UD));
  
        brw_push_insn_state(p);
        brw_set_default_mask_control(p, BRW_MASK_DISABLE);
-      brw_set_default_access_mode(p, BRW_ALIGN_1);
  
        /* a0.0 = surf_index & 0xff */
        brw_inst *insn_and = brw_next_insn(p, BRW_OPCODE_AND);
@@ -1220,16 +1189,16 @@ fs_generator::generate_uniform_pull_constant_load_gen7(fs_inst *inst,
  
        /* dst = send(payload, a0.0 | <descriptor>) */
        brw_inst *insn = brw_send_indirect_message(
-         p, BRW_SFID_SAMPLER, dst, src, addr);
-      brw_set_sampler_message(p, insn,
-                              0,
-                              0, /* LD message ignores sampler unit */
-                              GEN5_SAMPLER_MESSAGE_SAMPLE_LD,
-                              1, /* rlen */
-                              inst->mlen,
-                              header_present,
-                              BRW_SAMPLER_SIMD_MODE_SIMD4X2,
-                              0);
+         p, GEN6_SFID_DATAPORT_CONSTANT_CACHE,
+         retype(dst, BRW_REGISTER_TYPE_UD),
+         retype(payload, BRW_REGISTER_TYPE_UD), addr);
+      brw_set_dp_read_message(p, insn, 0 /* surface */,
+                              BRW_DATAPORT_OWORD_BLOCK_DWORDS(inst->exec_size),
+                              GEN7_DATAPORT_DC_OWORD_BLOCK_READ,
+                              GEN6_SFID_DATAPORT_CONSTANT_CACHE,
+                              1, /* mlen */
+                              true, /* header */
+                              DIV_ROUND_UP(inst->size_written, REG_SIZE));
  
        brw_pop_insn_state(p);
     }
@@ -1345,7 +1314,6 @@ fs_generator::generate_varying_pull_constant_load_gen7(fs_inst *inst,
  
        brw_push_insn_state(p);
        brw_set_default_mask_control(p, BRW_MASK_DISABLE);
-      brw_set_default_access_mode(p, BRW_ALIGN_1);
  
        /* a0.0 = surf_index & 0xff */
        brw_inst *insn_and = brw_next_insn(p, BRW_OPCODE_AND);
@@ -1415,29 +1383,6 @@ fs_generator::generate_pixel_interpolator_query(fs_inst *inst,
           inst->size_written / REG_SIZE);
  }
  
-
-/**
- * Sets the first word of a vgrf for gen7+ simd4x2 uniform pull constant
- * sampler LD messages.
- *
- * We don't want to bake it into the send message's code generation because
- * that means we don't get a chance to schedule the instructions.
- */
-void
-fs_generator::generate_set_simd4x2_offset(fs_inst *inst,
-                                          struct brw_reg dst,
-                                          struct brw_reg value)
-{
-   assert(value.file == BRW_IMMEDIATE_VALUE);
-
-   brw_push_insn_state(p);
-   brw_set_default_exec_size(p, BRW_EXECUTE_8);
-   brw_set_default_compression_control(p, BRW_COMPRESSION_NONE);
-   brw_set_default_mask_control(p, BRW_MASK_DISABLE);
-   brw_MOV(p, retype(brw_vec1_reg(dst.file, dst.nr, 0), value.type), value);
-   brw_pop_insn_state(p);
-}
-
  /* Sets vstride=1, width=4, hstride=0 of register src1 during
   * the ADD instruction.
   */
@@ -2040,13 +1985,15 @@ fs_generator::generate_code(const cfg_t *cfg, int dispatch_width)
           brw_memory_fence(p, dst);
           break;
  
-      case FS_OPCODE_SET_SIMD4X2_OFFSET:
-         generate_set_simd4x2_offset(inst, dst, src[0]);
-         break;
-
-      case SHADER_OPCODE_FIND_LIVE_CHANNEL:
-         brw_find_live_channel(p, dst);
+      case SHADER_OPCODE_FIND_LIVE_CHANNEL: {
+         const struct brw_reg mask =
+            brw_stage_has_packed_dispatch(devinfo, stage,
+                                          prog_data) ? brw_imm_ud(~0u) :
+            stage == MESA_SHADER_FRAGMENT ? brw_vmask_reg() :
+            brw_dmask_reg();
+         brw_find_live_channel(p, dst, mask);
           break;
+      }
  
        case SHADER_OPCODE_BROADCAST:
           assert(inst->force_writemask_all);