meson: build r600 driver

[mesa.git] / src / amd / common / ac_llvm_build.c
diff --git a/src/amd/common/ac_llvm_build.c b/src/amd/common/ac_llvm_build.c

index 3df9f53ed7a38016231c3bab1091404df7b7a646..5640a23b8aa32a0db52e0a2eb360a97bc7f39ef9 100644 (file)
--- a/src/amd/common/ac_llvm_build.c
+++ b/src/amd/common/ac_llvm_build.c
@@ -36,6 +36,7 @@
  #include "ac_exp_param.h"
  #include "util/bitscan.h"
  #include "util/macros.h"
+#include "util/u_atomic.h"
  #include "sid.h"
  
  #include "shader_enums.h"
@@ -45,10 +46,13 @@
   * The caller is responsible for initializing ctx::module and ctx::builder.
   */
  void
-ac_llvm_context_init(struct ac_llvm_context *ctx, LLVMContextRef context)
+ac_llvm_context_init(struct ac_llvm_context *ctx, LLVMContextRef context,
+                    enum chip_class chip_class)
  {
         LLVMValueRef args[1];
  
+       ctx->chip_class = chip_class;
+
         ctx->context = context;
         ctx->module = NULL;
         ctx->builder = NULL;
@@ -56,11 +60,26 @@ ac_llvm_context_init(struct ac_llvm_context *ctx, LLVMContextRef context)
         ctx->voidt = LLVMVoidTypeInContext(ctx->context);
         ctx->i1 = LLVMInt1TypeInContext(ctx->context);
         ctx->i8 = LLVMInt8TypeInContext(ctx->context);
+       ctx->i16 = LLVMIntTypeInContext(ctx->context, 16);
         ctx->i32 = LLVMIntTypeInContext(ctx->context, 32);
+       ctx->i64 = LLVMIntTypeInContext(ctx->context, 64);
+       ctx->f16 = LLVMHalfTypeInContext(ctx->context);
         ctx->f32 = LLVMFloatTypeInContext(ctx->context);
+       ctx->f64 = LLVMDoubleTypeInContext(ctx->context);
+       ctx->v2i32 = LLVMVectorType(ctx->i32, 2);
+       ctx->v3i32 = LLVMVectorType(ctx->i32, 3);
         ctx->v4i32 = LLVMVectorType(ctx->i32, 4);
+       ctx->v2f32 = LLVMVectorType(ctx->f32, 2);
         ctx->v4f32 = LLVMVectorType(ctx->f32, 4);
-       ctx->v16i8 = LLVMVectorType(ctx->i8, 16);
+       ctx->v8i32 = LLVMVectorType(ctx->i32, 8);
+
+       ctx->i32_0 = LLVMConstInt(ctx->i32, 0, false);
+       ctx->i32_1 = LLVMConstInt(ctx->i32, 1, false);
+       ctx->f32_0 = LLVMConstReal(ctx->f32, 0.0);
+       ctx->f32_1 = LLVMConstReal(ctx->f32, 1.0);
+
+       ctx->i1false = LLVMConstInt(ctx->i1, 0, false);
+       ctx->i1true = LLVMConstInt(ctx->i1, 1, false);
  
         ctx->range_md_kind = LLVMGetMDKindIDInContext(ctx->context,
                                                      "range", 5);
@@ -79,6 +98,92 @@ ac_llvm_context_init(struct ac_llvm_context *ctx, LLVMContextRef context)
         ctx->empty_md = LLVMMDNodeInContext(ctx->context, NULL, 0);
  }
  
+unsigned
+ac_get_type_size(LLVMTypeRef type)
+{
+       LLVMTypeKind kind = LLVMGetTypeKind(type);
+
+       switch (kind) {
+       case LLVMIntegerTypeKind:
+               return LLVMGetIntTypeWidth(type) / 8;
+       case LLVMFloatTypeKind:
+               return 4;
+       case LLVMDoubleTypeKind:
+       case LLVMPointerTypeKind:
+               return 8;
+       case LLVMVectorTypeKind:
+               return LLVMGetVectorSize(type) *
+                      ac_get_type_size(LLVMGetElementType(type));
+       case LLVMArrayTypeKind:
+               return LLVMGetArrayLength(type) *
+                      ac_get_type_size(LLVMGetElementType(type));
+       default:
+               assert(0);
+               return 0;
+       }
+}
+
+static LLVMTypeRef to_integer_type_scalar(struct ac_llvm_context *ctx, LLVMTypeRef t)
+{
+       if (t == ctx->f16 || t == ctx->i16)
+               return ctx->i16;
+       else if (t == ctx->f32 || t == ctx->i32)
+               return ctx->i32;
+       else if (t == ctx->f64 || t == ctx->i64)
+               return ctx->i64;
+       else
+               unreachable("Unhandled integer size");
+}
+
+LLVMTypeRef
+ac_to_integer_type(struct ac_llvm_context *ctx, LLVMTypeRef t)
+{
+       if (LLVMGetTypeKind(t) == LLVMVectorTypeKind) {
+               LLVMTypeRef elem_type = LLVMGetElementType(t);
+               return LLVMVectorType(to_integer_type_scalar(ctx, elem_type),
+                                     LLVMGetVectorSize(t));
+       }
+       return to_integer_type_scalar(ctx, t);
+}
+
+LLVMValueRef
+ac_to_integer(struct ac_llvm_context *ctx, LLVMValueRef v)
+{
+       LLVMTypeRef type = LLVMTypeOf(v);
+       return LLVMBuildBitCast(ctx->builder, v, ac_to_integer_type(ctx, type), "");
+}
+
+static LLVMTypeRef to_float_type_scalar(struct ac_llvm_context *ctx, LLVMTypeRef t)
+{
+       if (t == ctx->i16 || t == ctx->f16)
+               return ctx->f16;
+       else if (t == ctx->i32 || t == ctx->f32)
+               return ctx->f32;
+       else if (t == ctx->i64 || t == ctx->f64)
+               return ctx->f64;
+       else
+               unreachable("Unhandled float size");
+}
+
+LLVMTypeRef
+ac_to_float_type(struct ac_llvm_context *ctx, LLVMTypeRef t)
+{
+       if (LLVMGetTypeKind(t) == LLVMVectorTypeKind) {
+               LLVMTypeRef elem_type = LLVMGetElementType(t);
+               return LLVMVectorType(to_float_type_scalar(ctx, elem_type),
+                                     LLVMGetVectorSize(t));
+       }
+       return to_float_type_scalar(ctx, t);
+}
+
+LLVMValueRef
+ac_to_float(struct ac_llvm_context *ctx, LLVMValueRef v)
+{
+       LLVMTypeRef type = LLVMTypeOf(v);
+       return LLVMBuildBitCast(ctx->builder, v, ac_to_float_type(ctx, type), "");
+}
+
+
  LLVMValueRef
  ac_build_intrinsic(struct ac_llvm_context *ctx, const char *name,
                    LLVMTypeRef return_type, LLVMValueRef *params,
@@ -116,20 +221,6 @@ ac_build_intrinsic(struct ac_llvm_context *ctx, const char *name,
         return call;
  }
  
-static LLVMValueRef bitcast_to_float(struct ac_llvm_context *ctx,
-                                    LLVMValueRef value)
-{
-       LLVMTypeRef type = LLVMTypeOf(value);
-       LLVMTypeRef new_type;
-
-       if (LLVMGetTypeKind(type) == LLVMVectorTypeKind)
-               new_type = LLVMVectorType(ctx->f32, LLVMGetVectorSize(type));
-       else
-               new_type = ctx->f32;
-
-       return LLVMBuildBitCast(ctx->builder, value, new_type, "");
-}
-
  /**
   * Given the i32 or vNi32 \p type, generate the textual name (e.g. for use with
   * intrinsic names).
@@ -167,18 +258,131 @@ void ac_build_type_name_for_intr(LLVMTypeRef type, char *buf, unsigned bufsize)
         }
  }
  
+/**
+ * Helper function that builds an LLVM IR PHI node and immediately adds
+ * incoming edges.
+ */
+LLVMValueRef
+ac_build_phi(struct ac_llvm_context *ctx, LLVMTypeRef type,
+            unsigned count_incoming, LLVMValueRef *values,
+            LLVMBasicBlockRef *blocks)
+{
+       LLVMValueRef phi = LLVMBuildPhi(ctx->builder, type, "");
+       LLVMAddIncoming(phi, values, blocks, count_incoming);
+       return phi;
+}
+
+/* Prevent optimizations (at least of memory accesses) across the current
+ * point in the program by emitting empty inline assembly that is marked as
+ * having side effects.
+ *
+ * Optionally, a value can be passed through the inline assembly to prevent
+ * LLVM from hoisting calls to ReadNone functions.
+ */
+void
+ac_build_optimization_barrier(struct ac_llvm_context *ctx,
+                             LLVMValueRef *pvgpr)
+{
+       static int counter = 0;
+
+       LLVMBuilderRef builder = ctx->builder;
+       char code[16];
+
+       snprintf(code, sizeof(code), "; %d", p_atomic_inc_return(&counter));
+
+       if (!pvgpr) {
+               LLVMTypeRef ftype = LLVMFunctionType(ctx->voidt, NULL, 0, false);
+               LLVMValueRef inlineasm = LLVMConstInlineAsm(ftype, code, "", true, false);
+               LLVMBuildCall(builder, inlineasm, NULL, 0, "");
+       } else {
+               LLVMTypeRef ftype = LLVMFunctionType(ctx->i32, &ctx->i32, 1, false);
+               LLVMValueRef inlineasm = LLVMConstInlineAsm(ftype, code, "=v,0", true, false);
+               LLVMValueRef vgpr = *pvgpr;
+               LLVMTypeRef vgpr_type = LLVMTypeOf(vgpr);
+               unsigned vgpr_size = ac_get_type_size(vgpr_type);
+               LLVMValueRef vgpr0;
+
+               assert(vgpr_size % 4 == 0);
+
+               vgpr = LLVMBuildBitCast(builder, vgpr, LLVMVectorType(ctx->i32, vgpr_size / 4), "");
+               vgpr0 = LLVMBuildExtractElement(builder, vgpr, ctx->i32_0, "");
+               vgpr0 = LLVMBuildCall(builder, inlineasm, &vgpr0, 1, "");
+               vgpr = LLVMBuildInsertElement(builder, vgpr, vgpr0, ctx->i32_0, "");
+               vgpr = LLVMBuildBitCast(builder, vgpr, vgpr_type, "");
+
+               *pvgpr = vgpr;
+       }
+}
+
+LLVMValueRef
+ac_build_ballot(struct ac_llvm_context *ctx,
+               LLVMValueRef value)
+{
+       LLVMValueRef args[3] = {
+               value,
+               ctx->i32_0,
+               LLVMConstInt(ctx->i32, LLVMIntNE, 0)
+       };
+
+       /* We currently have no other way to prevent LLVM from lifting the icmp
+        * calls to a dominating basic block.
+        */
+       ac_build_optimization_barrier(ctx, &args[0]);
+
+       if (LLVMTypeOf(args[0]) != ctx->i32)
+               args[0] = LLVMBuildBitCast(ctx->builder, args[0], ctx->i32, "");
+
+       return ac_build_intrinsic(ctx,
+                                 "llvm.amdgcn.icmp.i32",
+                                 ctx->i64, args, 3,
+                                 AC_FUNC_ATTR_NOUNWIND |
+                                 AC_FUNC_ATTR_READNONE |
+                                 AC_FUNC_ATTR_CONVERGENT);
+}
+
+LLVMValueRef
+ac_build_vote_all(struct ac_llvm_context *ctx, LLVMValueRef value)
+{
+       LLVMValueRef active_set = ac_build_ballot(ctx, ctx->i32_1);
+       LLVMValueRef vote_set = ac_build_ballot(ctx, value);
+       return LLVMBuildICmp(ctx->builder, LLVMIntEQ, vote_set, active_set, "");
+}
+
+LLVMValueRef
+ac_build_vote_any(struct ac_llvm_context *ctx, LLVMValueRef value)
+{
+       LLVMValueRef vote_set = ac_build_ballot(ctx, value);
+       return LLVMBuildICmp(ctx->builder, LLVMIntNE, vote_set,
+                            LLVMConstInt(ctx->i64, 0, 0), "");
+}
+
+LLVMValueRef
+ac_build_vote_eq(struct ac_llvm_context *ctx, LLVMValueRef value)
+{
+       LLVMValueRef active_set = ac_build_ballot(ctx, ctx->i32_1);
+       LLVMValueRef vote_set = ac_build_ballot(ctx, value);
+
+       LLVMValueRef all = LLVMBuildICmp(ctx->builder, LLVMIntEQ,
+                                        vote_set, active_set, "");
+       LLVMValueRef none = LLVMBuildICmp(ctx->builder, LLVMIntEQ,
+                                         vote_set,
+                                         LLVMConstInt(ctx->i64, 0, 0), "");
+       return LLVMBuildOr(ctx->builder, all, none, "");
+}
+
  LLVMValueRef
  ac_build_gather_values_extended(struct ac_llvm_context *ctx,
                                 LLVMValueRef *values,
                                 unsigned value_count,
                                 unsigned value_stride,
-                               bool load)
+                               bool load,
+                               bool always_vector)
  {
         LLVMBuilderRef builder = ctx->builder;
         LLVMValueRef vec = NULL;
         unsigned i;
  
-       if (value_count == 1) {
+       if (value_count == 1 && !always_vector) {
                 if (load)
                         return LLVMBuildLoad(builder, values[0], "");
                 return values[0];
@@ -203,7 +407,7 @@ ac_build_gather_values(struct ac_llvm_context *ctx,
                        LLVMValueRef *values,
                        unsigned value_count)
  {
-       return ac_build_gather_values_extended(ctx, values, value_count, 1, false);
+       return ac_build_gather_values_extended(ctx, values, value_count, 1, false, false);
  }
  
  LLVMValueRef
@@ -254,12 +458,13 @@ build_cube_intrinsic(struct ac_llvm_context *ctx,
   * selcoords.ma; i.e., a positive out_ma means that coords is pointed towards
   * the selcoords major axis.
   */
-static void build_cube_select(LLVMBuilderRef builder,
+static void build_cube_select(struct ac_llvm_context *ctx,
                               const struct cube_selection_coords *selcoords,
                               const LLVMValueRef *coords,
                               LLVMValueRef *out_st,
                               LLVMValueRef *out_ma)
  {
+       LLVMBuilderRef builder = ctx->builder;
         LLVMTypeRef f32 = LLVMTypeOf(coords[0]);
         LLVMValueRef is_ma_positive;
         LLVMValueRef sgn_ma;
@@ -281,29 +486,29 @@ static void build_cube_select(LLVMBuilderRef builder,
         is_ma_x = LLVMBuildAnd(builder, is_not_ma_z, LLVMBuildNot(builder, is_ma_y, ""), "");
  
         /* Select sc */
-       tmp = LLVMBuildSelect(builder, is_ma_z, coords[2], coords[0], "");
+       tmp = LLVMBuildSelect(builder, is_ma_x, coords[2], coords[0], "");
         sgn = LLVMBuildSelect(builder, is_ma_y, LLVMConstReal(f32, 1.0),
-               LLVMBuildSelect(builder, is_ma_x, sgn_ma,
+               LLVMBuildSelect(builder, is_ma_z, sgn_ma,
                         LLVMBuildFNeg(builder, sgn_ma, ""), ""), "");
         out_st[0] = LLVMBuildFMul(builder, tmp, sgn, "");
  
         /* Select tc */
         tmp = LLVMBuildSelect(builder, is_ma_y, coords[2], coords[1], "");
-       sgn = LLVMBuildSelect(builder, is_ma_y, LLVMBuildFNeg(builder, sgn_ma, ""),
+       sgn = LLVMBuildSelect(builder, is_ma_y, sgn_ma,
                 LLVMConstReal(f32, -1.0), "");
         out_st[1] = LLVMBuildFMul(builder, tmp, sgn, "");
  
         /* Select ma */
         tmp = LLVMBuildSelect(builder, is_ma_z, coords[2],
                 LLVMBuildSelect(builder, is_ma_y, coords[1], coords[0], ""), "");
-       sgn = LLVMBuildSelect(builder, is_ma_positive,
-               LLVMConstReal(f32, 2.0), LLVMConstReal(f32, -2.0), "");
-       *out_ma = LLVMBuildFMul(builder, tmp, sgn, "");
+       tmp = ac_build_intrinsic(ctx, "llvm.fabs.f32",
+                                ctx->f32, &tmp, 1, AC_FUNC_ATTR_READNONE);
+       *out_ma = LLVMBuildFMul(builder, tmp, LLVMConstReal(f32, 2.0), "");
  }
  
  void
  ac_prepare_cube_coords(struct ac_llvm_context *ctx,
-                      bool is_deriv, bool is_array,
+                      bool is_deriv, bool is_array, bool is_lod,
                        LLVMValueRef *coords_arg,
                        LLVMValueRef *derivs_arg)
  {
@@ -313,6 +518,38 @@ ac_prepare_cube_coords(struct ac_llvm_context *ctx,
         LLVMValueRef coords[3];
         LLVMValueRef invma;
  
+       if (is_array && !is_lod) {
+               LLVMValueRef tmp = coords_arg[3];
+               tmp = ac_build_intrinsic(ctx, "llvm.rint.f32", ctx->f32, &tmp, 1, 0);
+
+               /* Section 8.9 (Texture Functions) of the GLSL 4.50 spec says:
+                *
+                *    "For Array forms, the array layer used will be
+                *
+                *       max(0, min(d−1, floor(layer+0.5)))
+                *
+                *     where d is the depth of the texture array and layer
+                *     comes from the component indicated in the tables below.
+                *     Workaroudn for an issue where the layer is taken from a
+                *     helper invocation which happens to fall on a different
+                *     layer due to extrapolation."
+                *
+                * VI and earlier attempt to implement this in hardware by
+                * clamping the value of coords[2] = (8 * layer) + face.
+                * Unfortunately, this means that the we end up with the wrong
+                * face when clamping occurs.
+                *
+                * Clamp the layer earlier to work around the issue.
+                */
+               if (ctx->chip_class <= VI) {
+                       LLVMValueRef ge0;
+                       ge0 = LLVMBuildFCmp(builder, LLVMRealOGE, tmp, ctx->f32_0, "");
+                       tmp = LLVMBuildSelect(builder, ge0, tmp, ctx->f32_0, "");
+               }
+
+               coords_arg[3] = tmp;
+       }
+
         build_cube_intrinsic(ctx, coords_arg, &selcoords);
  
         invma = ac_build_intrinsic(ctx, "llvm.fabs.f32",
@@ -354,7 +591,7 @@ ac_prepare_cube_coords(struct ac_llvm_context *ctx,
                          * seems awfully quiet about how textureGrad for cube
                          * maps should be handled.
                          */
-                       build_cube_select(builder, &selcoords, &derivs_arg[axis * 3],
+                       build_cube_select(ctx, &selcoords, &derivs_arg[axis * 3],
                                           deriv_st, &deriv_ma);
  
                         deriv_ma = LLVMBuildFMul(builder, deriv_ma, invma, "");
@@ -486,32 +723,40 @@ ac_build_indexed_store(struct ac_llvm_context *ctx,
   * \param base_ptr  Where the array starts.
   * \param index     The element index into the array.
   * \param uniform   Whether the base_ptr and index can be assumed to be
- *                  dynamically uniform
+ *                  dynamically uniform (i.e. load to an SGPR)
+ * \param invariant Whether the load is invariant (no other opcodes affect it)
   */
-LLVMValueRef
-ac_build_indexed_load(struct ac_llvm_context *ctx,
-                     LLVMValueRef base_ptr, LLVMValueRef index,
-                     bool uniform)
+static LLVMValueRef
+ac_build_load_custom(struct ac_llvm_context *ctx, LLVMValueRef base_ptr,
+                    LLVMValueRef index, bool uniform, bool invariant)
  {
-       LLVMValueRef pointer;
+       LLVMValueRef pointer, result;
  
         pointer = ac_build_gep0(ctx, base_ptr, index);
         if (uniform)
                 LLVMSetMetadata(pointer, ctx->uniform_md_kind, ctx->empty_md);
-       return LLVMBuildLoad(ctx->builder, pointer, "");
+       result = LLVMBuildLoad(ctx->builder, pointer, "");
+       if (invariant)
+               LLVMSetMetadata(result, ctx->invariant_load_md_kind, ctx->empty_md);
+       return result;
  }
  
-/**
- * Do a load from &base_ptr[index], but also add a flag that it's loading
- * a constant from a dynamically uniform index.
- */
-LLVMValueRef
-ac_build_indexed_load_const(struct ac_llvm_context *ctx,
-                           LLVMValueRef base_ptr, LLVMValueRef index)
+LLVMValueRef ac_build_load(struct ac_llvm_context *ctx, LLVMValueRef base_ptr,
+                          LLVMValueRef index)
  {
-       LLVMValueRef result = ac_build_indexed_load(ctx, base_ptr, index, true);
-       LLVMSetMetadata(result, ctx->invariant_load_md_kind, ctx->empty_md);
-       return result;
+       return ac_build_load_custom(ctx, base_ptr, index, false, false);
+}
+
+LLVMValueRef ac_build_load_invariant(struct ac_llvm_context *ctx,
+                                    LLVMValueRef base_ptr, LLVMValueRef index)
+{
+       return ac_build_load_custom(ctx, base_ptr, index, false, true);
+}
+
+LLVMValueRef ac_build_load_to_sgpr(struct ac_llvm_context *ctx,
+                                  LLVMValueRef base_ptr, LLVMValueRef index)
+{
+       return ac_build_load_custom(ctx, base_ptr, index, true, true);
  }
  
  /* TBUFFER_STORE_FORMAT_{X,XY,XYZ,XYZW} <- the suffix is selected by num_channels=1..4.
@@ -529,10 +774,13 @@ ac_build_buffer_store_dword(struct ac_llvm_context *ctx,
                             bool glc,
                             bool slc,
                             bool writeonly_memory,
-                           bool has_add_tid)
+                           bool swizzle_enable_hint)
  {
-       /* TODO: Fix stores with ADD_TID and remove the "has_add_tid" flag. */
-       if (!has_add_tid) {
+       /* SWIZZLE_ENABLE requires that soffset isn't folded into voffset
+        * (voffset is swizzled, but soffset isn't swizzled).
+        * llvm.amdgcn.buffer.store doesn't have a separate soffset parameter.
+        */
+       if (!swizzle_enable_hint) {
                 /* Split 3 channel stores, becase LLVM doesn't support 3-channel
                  * intrinsics. */
                 if (num_channels == 3) {
@@ -546,11 +794,11 @@ ac_build_buffer_store_dword(struct ac_llvm_context *ctx,
  
                         ac_build_buffer_store_dword(ctx, rsrc, v01, 2, voffset,
                                                     soffset, inst_offset, glc, slc,
-                                                   writeonly_memory, has_add_tid);
+                                                   writeonly_memory, swizzle_enable_hint);
                         ac_build_buffer_store_dword(ctx, rsrc, v[2], 1, voffset,
                                                     soffset, inst_offset + 8,
                                                     glc, slc,
-                                                   writeonly_memory, has_add_tid);
+                                                   writeonly_memory, swizzle_enable_hint);
                         return;
                 }
  
@@ -566,7 +814,7 @@ ac_build_buffer_store_dword(struct ac_llvm_context *ctx,
                         offset = LLVMBuildAdd(ctx->builder, offset, voffset, "");
  
                 LLVMValueRef args[] = {
-                       bitcast_to_float(ctx, vdata),
+                       ac_to_float(ctx, vdata),
                         LLVMBuildBitCast(ctx->builder, rsrc, ctx->v4i32, ""),
                         LLVMConstInt(ctx->i32, 0, 0),
                         offset,
@@ -633,14 +881,46 @@ ac_build_buffer_load(struct ac_llvm_context *ctx,
                      unsigned inst_offset,
                      unsigned glc,
                      unsigned slc,
-                    bool can_speculate)
+                    bool can_speculate,
+                    bool allow_smem)
  {
+       LLVMValueRef offset = LLVMConstInt(ctx->i32, inst_offset, 0);
+       if (voffset)
+               offset = LLVMBuildAdd(ctx->builder, offset, voffset, "");
+       if (soffset)
+               offset = LLVMBuildAdd(ctx->builder, offset, soffset, "");
+
+       /* TODO: VI and later generations can use SMEM with GLC=1.*/
+       if (allow_smem && !glc && !slc) {
+               assert(vindex == NULL);
+
+               LLVMValueRef result[4];
+
+               for (int i = 0; i < num_channels; i++) {
+                       if (i) {
+                               offset = LLVMBuildAdd(ctx->builder, offset,
+                                                     LLVMConstInt(ctx->i32, 4, 0), "");
+                       }
+                       LLVMValueRef args[2] = {rsrc, offset};
+                       result[i] = ac_build_intrinsic(ctx, "llvm.SI.load.const.v4i32",
+                                                      ctx->f32, args, 2,
+                                                      AC_FUNC_ATTR_READNONE |
+                                                      AC_FUNC_ATTR_LEGACY);
+               }
+               if (num_channels == 1)
+                       return result[0];
+
+               if (num_channels == 3)
+                       result[num_channels++] = LLVMGetUndef(ctx->f32);
+               return ac_build_gather_values(ctx, result, num_channels);
+       }
+
         unsigned func = CLAMP(num_channels, 1, 3) - 1;
  
         LLVMValueRef args[] = {
                 LLVMBuildBitCast(ctx->builder, rsrc, ctx->v4i32, ""),
                 vindex ? vindex : LLVMConstInt(ctx->i32, 0, 0),
-               LLVMConstInt(ctx->i32, inst_offset, 0),
+               offset,
                 LLVMConstInt(ctx->i1, glc, 0),
                 LLVMConstInt(ctx->i1, slc, 0)
         };
@@ -650,16 +930,6 @@ ac_build_buffer_load(struct ac_llvm_context *ctx,
         const char *type_names[] = {"f32", "v2f32", "v4f32"};
         char name[256];
  
-       if (voffset) {
-               args[2] = LLVMBuildAdd(ctx->builder, args[2], voffset,
-                               "");
-       }
-
-       if (soffset) {
-               args[2] = LLVMBuildAdd(ctx->builder, args[2], soffset,
-                               "");
-       }
-
         snprintf(name, sizeof(name), "llvm.amdgcn.buffer.load.%s",
                  type_names[func]);
  
@@ -682,8 +952,8 @@ LLVMValueRef ac_build_buffer_load_format(struct ac_llvm_context *ctx,
                 LLVMBuildBitCast(ctx->builder, rsrc, ctx->v4i32, ""),
                 vindex,
                 voffset,
-               LLVMConstInt(ctx->i1, 0, 0), /* glc */
-               LLVMConstInt(ctx->i1, 0, 0), /* slc */
+               ctx->i1false, /* glc */
+               ctx->i1false, /* slc */
         };
  
         return ac_build_intrinsic(ctx,
@@ -761,24 +1031,23 @@ ac_get_thread_id(struct ac_llvm_context *ctx)
   */
  LLVMValueRef
  ac_build_ddxy(struct ac_llvm_context *ctx,
-             bool has_ds_bpermute,
               uint32_t mask,
               int idx,
-             LLVMValueRef lds,
               LLVMValueRef val)
  {
-       LLVMValueRef thread_id, tl, trbl, tl_tid, trbl_tid, args[2];
+       LLVMValueRef tl, trbl, args[2];
         LLVMValueRef result;
  
-       thread_id = ac_get_thread_id(ctx);
+       if (ctx->chip_class >= VI) {
+               LLVMValueRef thread_id, tl_tid, trbl_tid;
+               thread_id = ac_get_thread_id(ctx);
  
-       tl_tid = LLVMBuildAnd(ctx->builder, thread_id,
-                             LLVMConstInt(ctx->i32, mask, false), "");
+               tl_tid = LLVMBuildAnd(ctx->builder, thread_id,
+                                     LLVMConstInt(ctx->i32, mask, false), "");
  
-       trbl_tid = LLVMBuildAdd(ctx->builder, tl_tid,
-                               LLVMConstInt(ctx->i32, idx, false), "");
+               trbl_tid = LLVMBuildAdd(ctx->builder, tl_tid,
+                                       LLVMConstInt(ctx->i32, idx, false), "");
  
-       if (has_ds_bpermute) {
                 args[0] = LLVMBuildMul(ctx->builder, tl_tid,
                                        LLVMConstInt(ctx->i32, 4, false), "");
                 args[1] = val;
@@ -796,15 +1065,44 @@ ac_build_ddxy(struct ac_llvm_context *ctx,
                                           AC_FUNC_ATTR_READNONE |
                                           AC_FUNC_ATTR_CONVERGENT);
         } else {
-               LLVMValueRef store_ptr, load_ptr0, load_ptr1;
+               uint32_t masks[2] = {};
+
+               switch (mask) {
+               case AC_TID_MASK_TOP_LEFT:
+                       masks[0] = 0x8000;
+                       if (idx == 1)
+                               masks[1] = 0x8055;
+                       else
+                               masks[1] = 0x80aa;
+
+                       break;
+               case AC_TID_MASK_TOP:
+                       masks[0] = 0x8044;
+                       masks[1] = 0x80ee;
+                       break;
+               case AC_TID_MASK_LEFT:
+                       masks[0] = 0x80a0;
+                       masks[1] = 0x80f5;
+                       break;
+               default:
+                       assert(0);
+               }
  
-               store_ptr = ac_build_gep0(ctx, lds, thread_id);
-               load_ptr0 = ac_build_gep0(ctx, lds, tl_tid);
-               load_ptr1 = ac_build_gep0(ctx, lds, trbl_tid);
+               args[0] = val;
+               args[1] = LLVMConstInt(ctx->i32, masks[0], false);
  
-               LLVMBuildStore(ctx->builder, val, store_ptr);
-               tl = LLVMBuildLoad(ctx->builder, load_ptr0, "");
-               trbl = LLVMBuildLoad(ctx->builder, load_ptr1, "");
+               tl = ac_build_intrinsic(ctx,
+                                       "llvm.amdgcn.ds.swizzle", ctx->i32,
+                                       args, 2,
+                                       AC_FUNC_ATTR_READNONE |
+                                       AC_FUNC_ATTR_CONVERGENT);
+
+               args[1] = LLVMConstInt(ctx->i32, masks[1], false);
+               trbl = ac_build_intrinsic(ctx,
+                                       "llvm.amdgcn.ds.swizzle", ctx->i32,
+                                       args, 2,
+                                       AC_FUNC_ATTR_READNONE |
+                                       AC_FUNC_ATTR_CONVERGENT);
         }
  
         tl = LLVMBuildBitCast(ctx->builder, tl, ctx->f32, "");
@@ -858,7 +1156,7 @@ ac_build_umsb(struct ac_llvm_context *ctx,
  {
         LLVMValueRef args[2] = {
                 arg,
-               LLVMConstInt(ctx->i1, 1, 0),
+               ctx->i1true,
         };
         LLVMValueRef msb = ac_build_intrinsic(ctx, "llvm.ctlz.i32",
                                               dst_type, args, ARRAY_SIZE(args),
@@ -876,6 +1174,13 @@ ac_build_umsb(struct ac_llvm_context *ctx,
                                LLVMConstInt(ctx->i32, -1, true), msb, "");
  }
  
+LLVMValueRef ac_build_umin(struct ac_llvm_context *ctx, LLVMValueRef a,
+                          LLVMValueRef b)
+{
+       LLVMValueRef cmp = LLVMBuildICmp(ctx->builder, LLVMIntULE, a, b, "");
+       return LLVMBuildSelect(ctx->builder, cmp, a, b, "");
+}
+
  LLVMValueRef ac_build_clamp(struct ac_llvm_context *ctx, LLVMValueRef value)
  {
         if (HAVE_LLVM >= 0x0500) {
@@ -958,7 +1263,7 @@ LLVMValueRef ac_build_image_opcode(struct ac_llvm_context *ctx,
         LLVMTypeRef dst_type;
         LLVMValueRef args[11];
         unsigned num_args = 0;
-       const char *name;
+       const char *name = NULL;
         char intr_name[128], type[64];
  
         if (HAVE_LLVM >= 0x0400) {
@@ -967,7 +1272,7 @@ LLVMValueRef ac_build_image_opcode(struct ac_llvm_context *ctx,
                               a->opcode == ac_image_get_lod;
  
                 if (sample)
-                       args[num_args++] = bitcast_to_float(ctx, a->addr);
+                       args[num_args++] = ac_to_float(ctx, a->addr);
                 else
                         args[num_args++] = a->addr;
  
@@ -977,9 +1282,9 @@ LLVMValueRef ac_build_image_opcode(struct ac_llvm_context *ctx,
                 args[num_args++] = LLVMConstInt(ctx->i32, a->dmask, 0);
                 if (sample)
                         args[num_args++] = LLVMConstInt(ctx->i1, a->unorm, 0);
-               args[num_args++] = LLVMConstInt(ctx->i1, 0, 0); /* glc */
-               args[num_args++] = LLVMConstInt(ctx->i1, 0, 0); /* slc */
-               args[num_args++] = LLVMConstInt(ctx->i1, 0, 0); /* lwe */
+               args[num_args++] = ctx->i1false; /* glc */
+               args[num_args++] = ctx->i1false; /* slc */
+               args[num_args++] = ctx->i1false; /* lwe */
                 args[num_args++] = LLVMConstInt(ctx->i1, a->da, 0);
  
                 switch (a->opcode) {
@@ -1106,20 +1411,26 @@ LLVMValueRef ac_build_cvt_pkrtz_f16(struct ac_llvm_context *ctx,
                                   AC_FUNC_ATTR_LEGACY);
  }
  
-/**
- * KILL, AKA discard in GLSL.
- *
- * \param value  kill if value < 0.0 or value == NULL.
- */
-void ac_build_kill(struct ac_llvm_context *ctx, LLVMValueRef value)
+LLVMValueRef ac_build_wqm_vote(struct ac_llvm_context *ctx, LLVMValueRef i1)
  {
-       if (value) {
-               ac_build_intrinsic(ctx, "llvm.AMDGPU.kill", ctx->voidt,
-                                  &value, 1, AC_FUNC_ATTR_LEGACY);
-       } else {
-               ac_build_intrinsic(ctx, "llvm.AMDGPU.kilp", ctx->voidt,
-                                  NULL, 0, AC_FUNC_ATTR_LEGACY);
+       assert(HAVE_LLVM >= 0x0600);
+       return ac_build_intrinsic(ctx, "llvm.amdgcn.wqm.vote", ctx->i1,
+                                 &i1, 1, AC_FUNC_ATTR_READNONE);
+}
+
+void ac_build_kill_if_false(struct ac_llvm_context *ctx, LLVMValueRef i1)
+{
+       if (HAVE_LLVM >= 0x0600) {
+               ac_build_intrinsic(ctx, "llvm.amdgcn.kill", ctx->voidt,
+                                  &i1, 1, 0);
+               return;
         }
+
+       LLVMValueRef value = LLVMBuildSelect(ctx->builder, i1,
+                                            LLVMConstReal(ctx->f32, 1),
+                                            LLVMConstReal(ctx->f32, -1), "");
+       ac_build_intrinsic(ctx, "llvm.AMDGPU.kill", ctx->voidt,
+                          &value, 1, AC_FUNC_ATTR_LEGACY);
  }
  
  LLVMValueRef ac_build_bfe(struct ac_llvm_context *ctx, LLVMValueRef input,
@@ -1435,3 +1746,65 @@ void ac_optimize_vs_outputs(struct ac_llvm_context *ctx,
                 *num_param_exports = exports.num;
         }
  }
+
+void ac_init_exec_full_mask(struct ac_llvm_context *ctx)
+{
+       LLVMValueRef full_mask = LLVMConstInt(ctx->i64, ~0ull, 0);
+       ac_build_intrinsic(ctx,
+                          "llvm.amdgcn.init.exec", ctx->voidt,
+                          &full_mask, 1, AC_FUNC_ATTR_CONVERGENT);
+}
+
+void ac_declare_lds_as_pointer(struct ac_llvm_context *ctx)
+{
+       unsigned lds_size = ctx->chip_class >= CIK ? 65536 : 32768;
+       ctx->lds = LLVMBuildIntToPtr(ctx->builder, ctx->i32_0,
+                                    LLVMPointerType(LLVMArrayType(ctx->i32, lds_size / 4), AC_LOCAL_ADDR_SPACE),
+                                    "lds");
+}
+
+LLVMValueRef ac_lds_load(struct ac_llvm_context *ctx,
+                        LLVMValueRef dw_addr)
+{
+       return ac_build_load(ctx, ctx->lds, dw_addr);
+}
+
+void ac_lds_store(struct ac_llvm_context *ctx,
+                 LLVMValueRef dw_addr,
+                 LLVMValueRef value)
+{
+       value = ac_to_integer(ctx, value);
+       ac_build_indexed_store(ctx, ctx->lds,
+                              dw_addr, value);
+}
+
+LLVMValueRef ac_find_lsb(struct ac_llvm_context *ctx,
+                        LLVMTypeRef dst_type,
+                        LLVMValueRef src0)
+{
+       LLVMValueRef params[2] = {
+               src0,
+
+               /* The value of 1 means that ffs(x=0) = undef, so LLVM won't
+                * add special code to check for x=0. The reason is that
+                * the LLVM behavior for x=0 is different from what we
+                * need here. However, LLVM also assumes that ffs(x) is
+                * in [0, 31], but GLSL expects that ffs(0) = -1, so
+                * a conditional assignment to handle 0 is still required.
+                *
+                * The hardware already implements the correct behavior.
+                */
+               LLVMConstInt(ctx->i1, 1, false),
+       };
+
+       LLVMValueRef lsb = ac_build_intrinsic(ctx, "llvm.cttz.i32", ctx->i32,
+                                             params, 2,
+                                             AC_FUNC_ATTR_READNONE);
+
+       /* TODO: We need an intrinsic to skip this conditional. */
+       /* Check for zero: */
+       return LLVMBuildSelect(ctx->builder, LLVMBuildICmp(ctx->builder,
+                                                          LLVMIntEQ, src0,
+                                                          ctx->i32_0, ""),
+                              LLVMConstInt(ctx->i32, -1, 0), lsb, "");
+}