i965/vec4: use a temp register to compute offsets for pull loads
authorIago Toral Quiroga <itoral@igalia.com>
Wed, 29 Nov 2017 09:50:42 +0000 (10:50 +0100)
committerIago Toral Quiroga <itoral@igalia.com>
Thu, 30 Nov 2017 06:57:53 +0000 (07:57 +0100)
64-bit pull loads are implemented by emitting 2 separate
32-bit pull load messages, where the second message loads from
an offset at +16B.

That addition of 16B to the original offset should not alter the
original offset register used as source for the pull load instruction
though, since the compiler might use that same offset register in other
instructions (for example, for other pull loads in the shader code
that take that same offset as reference).

If the pull load is 32-bit then we only need to emit one message and
we don't need to do offset calculations, but in that case the optimizer
should be able to drop the redundant MOV.

Fixes the following test on Haswell:
KHR-GL45.gpu_shader_fp64.fp64.max_uniform_components

Reviewed-by: Matt Turner <mattst88@gmail.com>
Bugzilla: https://bugs.freedesktop.org/show_bug.cgi?id=103007

src/intel/compiler/brw_vec4_nir.cpp

index c4ea24b8db7aba24366f523e48b88b37a0064f94..4ff3ef9927e2b2873eacc7888a22e2232a36903b 100644 (file)
@@ -842,7 +842,9 @@ vec4_visitor::nir_emit_intrinsic(nir_intrinsic_instr *instr)
       if (const_offset) {
          offset_reg = brw_imm_ud(const_offset->u32[0] & ~15);
       } else {
-         offset_reg = get_nir_src(instr->src[1], nir_type_uint32, 1);
+         offset_reg = src_reg(this, glsl_type::uint_type);
+         emit(MOV(dst_reg(offset_reg),
+                  get_nir_src(instr->src[1], nir_type_uint32, 1)));
       }
 
       src_reg packed_consts;