ac: add ac_build_{struct,raw}_tbuffer_store() helpers

[mesa.git] / src / amd / common / ac_surface.c
diff --git a/src/amd/common/ac_surface.c b/src/amd/common/ac_surface.c

index 22c653f0c4f475aff736afefbe3f54002e95ca2e..91004e032a392435d4ebefc79ae6242289ebf8b3 100644 (file)
--- a/src/amd/common/ac_surface.c
+++ b/src/amd/common/ac_surface.c
@@ -27,7 +27,7 @@
  
  #include "ac_surface.h"
  #include "amd_family.h"
-#include "amdgpu_id.h"
+#include "addrlib/src/amdgpu_asic_addr.h"
  #include "ac_gpu_info.h"
  #include "util/macros.h"
  #include "util/u_atomic.h"
@@ -39,7 +39,7 @@
  #include <amdgpu.h>
  #include <amdgpu_drm.h>
  
-#include "addrlib/addrinterface.h"
+#include "addrlib/inc/addrinterface.h"
  
  #ifndef CIASICIDGFXENGINE_SOUTHERNISLAND
  #define CIASICIDGFXENGINE_SOUTHERNISLAND 0x0000000A
@@ -49,90 +49,111 @@
  #define CIASICIDGFXENGINE_ARCTICISLAND 0x0000000D
  #endif
  
+static unsigned get_first(unsigned x, unsigned y)
+{
+       return x;
+}
+
  static void addrlib_family_rev_id(enum radeon_family family,
-                                 unsigned *addrlib_family,
-                                 unsigned *addrlib_revid)
+                                 unsigned *addrlib_family,
+                                 unsigned *addrlib_revid)
  {
         switch (family) {
         case CHIP_TAHITI:
                 *addrlib_family = FAMILY_SI;
-               *addrlib_revid = SI_TAHITI_P_A0;
+               *addrlib_revid = get_first(AMDGPU_TAHITI_RANGE);
                 break;
         case CHIP_PITCAIRN:
                 *addrlib_family = FAMILY_SI;
-               *addrlib_revid = SI_PITCAIRN_PM_A0;
+               *addrlib_revid = get_first(AMDGPU_PITCAIRN_RANGE);
                 break;
         case CHIP_VERDE:
                 *addrlib_family = FAMILY_SI;
-               *addrlib_revid = SI_CAPEVERDE_M_A0;
+               *addrlib_revid =  get_first(AMDGPU_CAPEVERDE_RANGE);
                 break;
         case CHIP_OLAND:
                 *addrlib_family = FAMILY_SI;
-               *addrlib_revid = SI_OLAND_M_A0;
+               *addrlib_revid = get_first(AMDGPU_OLAND_RANGE);
                 break;
         case CHIP_HAINAN:
                 *addrlib_family = FAMILY_SI;
-               *addrlib_revid = SI_HAINAN_V_A0;
+               *addrlib_revid = get_first(AMDGPU_HAINAN_RANGE);
                 break;
         case CHIP_BONAIRE:
                 *addrlib_family = FAMILY_CI;
-               *addrlib_revid = CI_BONAIRE_M_A0;
+               *addrlib_revid = get_first(AMDGPU_BONAIRE_RANGE);
                 break;
         case CHIP_KAVERI:
                 *addrlib_family = FAMILY_KV;
-               *addrlib_revid = KV_SPECTRE_A0;
+               *addrlib_revid = get_first(AMDGPU_SPECTRE_RANGE);
                 break;
         case CHIP_KABINI:
                 *addrlib_family = FAMILY_KV;
-               *addrlib_revid = KB_KALINDI_A0;
+               *addrlib_revid = get_first(AMDGPU_KALINDI_RANGE);
                 break;
         case CHIP_HAWAII:
                 *addrlib_family = FAMILY_CI;
-               *addrlib_revid = CI_HAWAII_P_A0;
+               *addrlib_revid = get_first(AMDGPU_HAWAII_RANGE);
                 break;
         case CHIP_MULLINS:
                 *addrlib_family = FAMILY_KV;
-               *addrlib_revid = ML_GODAVARI_A0;
+               *addrlib_revid = get_first(AMDGPU_GODAVARI_RANGE);
                 break;
         case CHIP_TONGA:
                 *addrlib_family = FAMILY_VI;
-               *addrlib_revid = VI_TONGA_P_A0;
+               *addrlib_revid = get_first(AMDGPU_TONGA_RANGE);
                 break;
         case CHIP_ICELAND:
                 *addrlib_family = FAMILY_VI;
-               *addrlib_revid = VI_ICELAND_M_A0;
+               *addrlib_revid = get_first(AMDGPU_ICELAND_RANGE);
                 break;
         case CHIP_CARRIZO:
                 *addrlib_family = FAMILY_CZ;
-               *addrlib_revid = CARRIZO_A0;
+               *addrlib_revid = get_first(AMDGPU_CARRIZO_RANGE);
                 break;
         case CHIP_STONEY:
                 *addrlib_family = FAMILY_CZ;
-               *addrlib_revid = STONEY_A0;
+               *addrlib_revid = get_first(AMDGPU_STONEY_RANGE);
                 break;
         case CHIP_FIJI:
                 *addrlib_family = FAMILY_VI;
-               *addrlib_revid = VI_FIJI_P_A0;
+               *addrlib_revid = get_first(AMDGPU_FIJI_RANGE);
                 break;
         case CHIP_POLARIS10:
                 *addrlib_family = FAMILY_VI;
-               *addrlib_revid = VI_POLARIS10_P_A0;
+               *addrlib_revid = get_first(AMDGPU_POLARIS10_RANGE);
                 break;
         case CHIP_POLARIS11:
                 *addrlib_family = FAMILY_VI;
-               *addrlib_revid = VI_POLARIS11_M_A0;
+               *addrlib_revid = get_first(AMDGPU_POLARIS11_RANGE);
                 break;
         case CHIP_POLARIS12:
                 *addrlib_family = FAMILY_VI;
-               *addrlib_revid = VI_POLARIS12_V_A0;
+               *addrlib_revid = get_first(AMDGPU_POLARIS12_RANGE);
+               break;
+       case CHIP_VEGAM:
+               *addrlib_family = FAMILY_VI;
+               *addrlib_revid = get_first(AMDGPU_VEGAM_RANGE);
                 break;
         case CHIP_VEGA10:
                 *addrlib_family = FAMILY_AI;
-               *addrlib_revid = AI_VEGA10_P_A0;
+               *addrlib_revid = get_first(AMDGPU_VEGA10_RANGE);
+               break;
+       case CHIP_VEGA12:
+               *addrlib_family = FAMILY_AI;
+               *addrlib_revid = get_first(AMDGPU_VEGA12_RANGE);
+               break;
+       case CHIP_VEGA20:
+               *addrlib_family = FAMILY_AI;
+               *addrlib_revid = get_first(AMDGPU_VEGA20_RANGE);
                 break;
         case CHIP_RAVEN:
                 *addrlib_family = FAMILY_RV;
-               *addrlib_revid = RAVEN_A0;
+               *addrlib_revid = get_first(AMDGPU_RAVEN_RANGE);
+               break;
+       case CHIP_RAVEN2:
+               *addrlib_family = FAMILY_RV;
+               *addrlib_revid = get_first(AMDGPU_RAVEN2_RANGE);
                 break;
         default:
                 fprintf(stderr, "amdgpu: Unknown family.\n");
@@ -158,7 +179,7 @@ ADDR_HANDLE amdgpu_addr_create(const struct radeon_info *info,
         ADDR_CREATE_OUTPUT addrCreateOutput = {0};
         ADDR_REGISTER_VALUE regValue = {0};
         ADDR_CREATE_FLAGS createFlags = {{0}};
-       ADDR_GET_MAX_ALIGNMENTS_OUTPUT addrGetMaxAlignmentsOutput = {0};
+       ADDR_GET_MAX_ALINGMENTS_OUTPUT addrGetMaxAlignmentsOutput = {0};
         ADDR_E_RETURNCODE addrRet;
  
         addrCreateInput.size = sizeof(ADDR_CREATE_INPUT);
@@ -167,7 +188,7 @@ ADDR_HANDLE amdgpu_addr_create(const struct radeon_info *info,
         regValue.gbAddrConfig = amdinfo->gb_addr_cfg;
         createFlags.value = 0;
  
-       addrlib_family_rev_id(info->family, &addrCreateInput.chipFamily, &addrCreateInput.chipRevision);
+       addrlib_family_rev_id(info->family, &addrCreateInput.chipFamily, &addrCreateInput.chipRevision);
         if (addrCreateInput.chipFamily == FAMILY_UNKNOWN)
                 return NULL;
  
@@ -214,8 +235,16 @@ ADDR_HANDLE amdgpu_addr_create(const struct radeon_info *info,
         return addrCreateOutput.hLib;
  }
  
-static int surf_config_sanity(const struct ac_surf_config *config)
+static int surf_config_sanity(const struct ac_surf_config *config,
+                             unsigned flags)
  {
+       /* FMASK is allocated together with the color surface and can't be
+        * allocated separately.
+        */
+       assert(!(flags & RADEON_SURF_FMASK));
+       if (flags & RADEON_SURF_FMASK)
+               return -EINVAL;
+
         /* all dimension must be at least 1 ! */
         if (!config->info.width || !config->info.height || !config->info.depth ||
             !config->info.array_size || !config->info.levels)
@@ -228,10 +257,27 @@ static int surf_config_sanity(const struct ac_surf_config *config)
         case 4:
         case 8:
                 break;
+       case 16:
+               if (flags & RADEON_SURF_Z_OR_SBUFFER)
+                       return -EINVAL;
+               break;
         default:
                 return -EINVAL;
         }
  
+       if (!(flags & RADEON_SURF_Z_OR_SBUFFER)) {
+               switch (config->info.storage_samples) {
+               case 0:
+               case 1:
+               case 2:
+               case 4:
+               case 8:
+                       break;
+               default:
+                       return -EINVAL;
+               }
+       }
+
         if (config->is_3d && config->info.array_size > 1)
                 return -EINVAL;
         if (config->is_cube && config->info.depth > 1)
@@ -263,10 +309,10 @@ static int gfx6_compute_level(ADDR_HANDLE addrlib,
          */
         if (config->info.levels == 1 &&
             AddrSurfInfoIn->tileMode == ADDR_TM_LINEAR_ALIGNED &&
-           AddrSurfInfoIn->bpp) {
+           AddrSurfInfoIn->bpp &&
+           util_is_power_of_two_or_zero(AddrSurfInfoIn->bpp)) {
                 unsigned alignment = 256 / (AddrSurfInfoIn->bpp / 8);
  
-               assert(util_is_power_of_two(AddrSurfInfoIn->bpp));
                 AddrSurfInfoIn->width = align(AddrSurfInfoIn->width, alignment);
         }
  
@@ -299,7 +345,7 @@ static int gfx6_compute_level(ADDR_HANDLE addrlib,
  
         surf_level = is_stencil ? &surf->u.legacy.stencil_level[level] : &surf->u.legacy.level[level];
         surf_level->offset = align64(surf->surf_size, AddrSurfInfoOut->baseAlign);
-       surf_level->slice_size = AddrSurfInfoOut->sliceSize;
+       surf_level->slice_size_dw = AddrSurfInfoOut->sliceSize / 4;
         surf_level->nblk_x = AddrSurfInfoOut->pitch;
         surf_level->nblk_y = AddrSurfInfoOut->height;
  
@@ -330,6 +376,9 @@ static int gfx6_compute_level(ADDR_HANDLE addrlib,
         /* The previous level's flag tells us if we can use DCC for this level. */
         if (AddrSurfInfoIn->flags.dccCompatible &&
             (level == 0 || AddrDccOut->subLvlCompressible)) {
+               bool prev_level_clearable = level == 0 ||
+                                           AddrDccOut->dccRamSizeAligned;
+
                 AddrDccIn->colorSurfSize = AddrSurfInfoOut->surfSize;
                 AddrDccIn->tileMode = AddrSurfInfoOut->tileMode;
                 AddrDccIn->tileInfo = *AddrSurfInfoOut->pTileInfo;
@@ -342,10 +391,26 @@ static int gfx6_compute_level(ADDR_HANDLE addrlib,
  
                 if (ret == ADDR_OK) {
                         surf_level->dcc_offset = surf->dcc_size;
-                       surf_level->dcc_fast_clear_size = AddrDccOut->dccFastClearSize;
                         surf->num_dcc_levels = level + 1;
                         surf->dcc_size = surf_level->dcc_offset + AddrDccOut->dccRamSize;
                         surf->dcc_alignment = MAX2(surf->dcc_alignment, AddrDccOut->dccRamBaseAlign);
+
+                       /* If the DCC size of a subresource (1 mip level or 1 slice)
+                        * is not aligned, the DCC memory layout is not contiguous for
+                        * that subresource, which means we can't use fast clear.
+                        *
+                        * We only do fast clears for whole mipmap levels. If we did
+                        * per-slice fast clears, the same restriction would apply.
+                        * (i.e. only compute the slice size and see if it's aligned)
+                        *
+                        * The last level can be non-contiguous and still be clearable
+                        * if it's interleaved with the next level that doesn't exist.
+                        */
+                       if (AddrDccOut->dccRamSizeAligned ||
+                           (prev_level_clearable && level == config->info.levels - 1))
+                               surf_level->dcc_fast_clear_size = AddrDccOut->dccFastClearSize;
+                       else
+                               surf_level->dcc_fast_clear_size = 0;
                 }
         }
  
@@ -379,6 +444,7 @@ static int gfx6_compute_level(ADDR_HANDLE addrlib,
  }
  
  #define   G_009910_MICRO_TILE_MODE(x)          (((x) >> 0) & 0x03)
+#define     V_009910_ADDR_SURF_THICK_MICRO_TILING                   0x03
  #define   G_009910_MICRO_TILE_MODE_NEW(x)      (((x) >> 22) & 0x07)
  
  static void gfx6_set_micro_tile_mode(struct radeon_surf *surf,
@@ -406,6 +472,30 @@ static unsigned cik_get_macro_tile_index(struct radeon_surf *surf)
         return index;
  }
  
+static bool get_display_flag(const struct ac_surf_config *config,
+                            const struct radeon_surf *surf)
+{
+       unsigned num_channels = config->info.num_channels;
+       unsigned bpe = surf->bpe;
+
+       if (surf->flags & RADEON_SURF_SCANOUT &&
+           config->info.samples <= 1 &&
+           surf->blk_w <= 2 && surf->blk_h == 1) {
+               /* subsampled */
+               if (surf->blk_w == 2 && surf->blk_h == 1)
+                       return true;
+
+               if  (/* RGBA8 or RGBA16F */
+                    (bpe >= 4 && bpe <= 8 && num_channels == 4) ||
+                    /* R5G6B5 or R5G5B5A1 */
+                    (bpe == 2 && num_channels >= 3) ||
+                    /* C8 palette */
+                    (bpe == 1 && num_channels == 1))
+                       return true;
+       }
+       return false;
+}
+
  /**
   * This must be called after the first level is computed.
   *
@@ -440,7 +530,7 @@ static int gfx6_surface_settings(ADDR_HANDLE addrlib,
             config->info.surf_index &&
             surf->u.legacy.level[0].mode == RADEON_SURF_MODE_2D &&
             !(surf->flags & (RADEON_SURF_Z_OR_SBUFFER | RADEON_SURF_SHAREABLE)) &&
-           (config->info.samples > 1 || !(surf->flags & RADEON_SURF_SCANOUT))) {
+           !get_display_flag(config, surf)) {
                 ADDR_COMPUTE_BASE_SWIZZLE_INPUT AddrBaseSwizzleIn = {0};
                 ADDR_COMPUTE_BASE_SWIZZLE_OUTPUT AddrBaseSwizzleOut = {0};
  
@@ -465,6 +555,66 @@ static int gfx6_surface_settings(ADDR_HANDLE addrlib,
         return 0;
  }
  
+void ac_compute_cmask(const struct radeon_info *info,
+                     const struct ac_surf_config *config,
+                     struct radeon_surf *surf)
+{
+       unsigned pipe_interleave_bytes = info->pipe_interleave_bytes;
+       unsigned num_pipes = info->num_tile_pipes;
+       unsigned cl_width, cl_height;
+
+       if (surf->flags & RADEON_SURF_Z_OR_SBUFFER)
+               return;
+
+       assert(info->chip_class <= VI);
+
+       switch (num_pipes) {
+       case 2:
+               cl_width = 32;
+               cl_height = 16;
+               break;
+       case 4:
+               cl_width = 32;
+               cl_height = 32;
+               break;
+       case 8:
+               cl_width = 64;
+               cl_height = 32;
+               break;
+       case 16: /* Hawaii */
+               cl_width = 64;
+               cl_height = 64;
+               break;
+       default:
+               assert(0);
+               return;
+       }
+
+       unsigned base_align = num_pipes * pipe_interleave_bytes;
+
+       unsigned width = align(surf->u.legacy.level[0].nblk_x, cl_width*8);
+       unsigned height = align(surf->u.legacy.level[0].nblk_y, cl_height*8);
+       unsigned slice_elements = (width * height) / (8*8);
+
+       /* Each element of CMASK is a nibble. */
+       unsigned slice_bytes = slice_elements / 2;
+
+       surf->u.legacy.cmask_slice_tile_max = (width * height) / (128*128);
+       if (surf->u.legacy.cmask_slice_tile_max)
+               surf->u.legacy.cmask_slice_tile_max -= 1;
+
+       unsigned num_layers;
+       if (config->is_3d)
+               num_layers = config->info.depth;
+       else if (config->is_cube)
+               num_layers = 6;
+       else
+               num_layers = config->info.array_size;
+
+       surf->cmask_alignment = MAX2(256, base_align);
+       surf->cmask_size = align(slice_bytes, base_align) * num_layers;
+}
+
  /**
   * Fill in the tiling information in \p surf based on the given surface config.
   *
@@ -499,9 +649,8 @@ static int gfx6_compute_surface(ADDR_HANDLE addrlib,
  
         compressed = surf->blk_w == 4 && surf->blk_h == 4;
  
-       /* MSAA and FMASK require 2D tiling. */
-       if (config->info.samples > 1 ||
-           (surf->flags & RADEON_SURF_FMASK))
+       /* MSAA requires 2D tiling. */
+       if (config->info.samples > 1)
                 mode = RADEON_SURF_MODE_2D;
  
         /* DB doesn't support linear layouts. */
@@ -544,13 +693,18 @@ static int gfx6_compute_surface(ADDR_HANDLE addrlib,
         }
  
         AddrDccIn.numSamples = AddrSurfInfoIn.numSamples =
-               config->info.samples ? config->info.samples : 1;
+               MAX2(1, config->info.samples);
         AddrSurfInfoIn.tileIndex = -1;
  
+       if (!(surf->flags & RADEON_SURF_Z_OR_SBUFFER)) {
+               AddrDccIn.numSamples = AddrSurfInfoIn.numFrags =
+                       MAX2(1, config->info.storage_samples);
+       }
+
         /* Set the micro tile type. */
         if (surf->flags & RADEON_SURF_SCANOUT)
                 AddrSurfInfoIn.tileType = ADDR_DISPLAYABLE;
-       else if (surf->flags & (RADEON_SURF_Z_OR_SBUFFER | RADEON_SURF_FMASK))
+       else if (surf->flags & RADEON_SURF_Z_OR_SBUFFER)
                 AddrSurfInfoIn.tileType = ADDR_DEPTH_SAMPLE_ORDER;
         else
                 AddrSurfInfoIn.tileType = ADDR_NON_DISPLAYABLE;
@@ -558,8 +712,7 @@ static int gfx6_compute_surface(ADDR_HANDLE addrlib,
         AddrSurfInfoIn.flags.color = !(surf->flags & RADEON_SURF_Z_OR_SBUFFER);
         AddrSurfInfoIn.flags.depth = (surf->flags & RADEON_SURF_ZBUFFER) != 0;
         AddrSurfInfoIn.flags.cube = config->is_cube;
-       AddrSurfInfoIn.flags.fmask = (surf->flags & RADEON_SURF_FMASK) != 0;
-       AddrSurfInfoIn.flags.display = (surf->flags & RADEON_SURF_SCANOUT) != 0;
+       AddrSurfInfoIn.flags.display = get_display_flag(config, surf);
         AddrSurfInfoIn.flags.pow2Pad = config->info.levels > 1;
         AddrSurfInfoIn.flags.tcCompatible = (surf->flags & RADEON_SURF_TC_COMPATIBLE_HTILE) != 0;
  
@@ -581,12 +734,12 @@ static int gfx6_compute_surface(ADDR_HANDLE addrlib,
                 info->chip_class >= VI &&
                 !(surf->flags & RADEON_SURF_Z_OR_SBUFFER) &&
                 !(surf->flags & RADEON_SURF_DISABLE_DCC) &&
-               !compressed && AddrDccIn.numSamples <= 1 &&
+               !compressed &&
                 ((config->info.array_size == 1 && config->info.depth == 1) ||
                  config->info.levels == 1);
  
         AddrSurfInfoIn.flags.noStencil = (surf->flags & RADEON_SURF_SBUFFER) == 0;
-       AddrSurfInfoIn.flags.compressZ = AddrSurfInfoIn.flags.depth;
+       AddrSurfInfoIn.flags.compressZ = !!(surf->flags & RADEON_SURF_Z_OR_SBUFFER);
  
         /* On CI/VI, the DB uses the same pitch and tile mode (except tilesplit)
          * for Z and stencil. This can cause a number of problems which we work
@@ -623,8 +776,6 @@ static int gfx6_compute_surface(ADDR_HANDLE addrlib,
         if (AddrSurfInfoIn.tileMode >= ADDR_TM_2D_TILED_THIN1 &&
             surf->u.legacy.bankw && surf->u.legacy.bankh &&
             surf->u.legacy.mtilea && surf->u.legacy.tile_split) {
-               assert(!(surf->flags & RADEON_SURF_FMASK));
-
                 /* If any of these parameters are incorrect, the calculation
                  * will fail. */
                 AddrTileInfoIn.banks = surf->u.legacy.num_banks;
@@ -771,6 +922,67 @@ static int gfx6_compute_surface(ADDR_HANDLE addrlib,
                 }
         }
  
+       /* Compute FMASK. */
+       if (config->info.samples >= 2 && AddrSurfInfoIn.flags.color) {
+               ADDR_COMPUTE_FMASK_INFO_INPUT fin = {0};
+               ADDR_COMPUTE_FMASK_INFO_OUTPUT fout = {0};
+               ADDR_TILEINFO fmask_tile_info = {};
+
+               fin.size = sizeof(fin);
+               fout.size = sizeof(fout);
+
+               fin.tileMode = AddrSurfInfoOut.tileMode;
+               fin.pitch = AddrSurfInfoOut.pitch;
+               fin.height = config->info.height;
+               fin.numSlices = AddrSurfInfoIn.numSlices;
+               fin.numSamples = AddrSurfInfoIn.numSamples;
+               fin.numFrags = AddrSurfInfoIn.numFrags;
+               fin.tileIndex = -1;
+               fout.pTileInfo = &fmask_tile_info;
+
+               r = AddrComputeFmaskInfo(addrlib, &fin, &fout);
+               if (r)
+                       return r;
+
+               surf->fmask_size = fout.fmaskBytes;
+               surf->fmask_alignment = fout.baseAlign;
+               surf->fmask_tile_swizzle = 0;
+
+               surf->u.legacy.fmask.slice_tile_max =
+                       (fout.pitch * fout.height) / 64;
+               if (surf->u.legacy.fmask.slice_tile_max)
+                   surf->u.legacy.fmask.slice_tile_max -= 1;
+
+               surf->u.legacy.fmask.tiling_index = fout.tileIndex;
+               surf->u.legacy.fmask.bankh = fout.pTileInfo->bankHeight;
+               surf->u.legacy.fmask.pitch_in_pixels = fout.pitch;
+
+               /* Compute tile swizzle for FMASK. */
+               if (config->info.fmask_surf_index &&
+                   !(surf->flags & RADEON_SURF_SHAREABLE)) {
+                       ADDR_COMPUTE_BASE_SWIZZLE_INPUT xin = {0};
+                       ADDR_COMPUTE_BASE_SWIZZLE_OUTPUT xout = {0};
+
+                       xin.size = sizeof(ADDR_COMPUTE_BASE_SWIZZLE_INPUT);
+                       xout.size = sizeof(ADDR_COMPUTE_BASE_SWIZZLE_OUTPUT);
+
+                       /* This counter starts from 1 instead of 0. */
+                       xin.surfIndex = p_atomic_inc_return(config->info.fmask_surf_index);
+                       xin.tileIndex = fout.tileIndex;
+                       xin.macroModeIndex = fout.macroModeIndex;
+                       xin.pTileInfo = fout.pTileInfo;
+                       xin.tileMode = fin.tileMode;
+
+                       int r = AddrComputeBaseSwizzle(addrlib, &xin, &xout);
+                       if (r != ADDR_OK)
+                               return r;
+
+                       assert(xout.tileSwizzle <=
+                              u_bit_consecutive(0, sizeof(surf->tile_swizzle) * 8));
+                       surf->fmask_tile_swizzle = xout.tileSwizzle;
+               }
+       }
+
         /* Recalculate the whole DCC miptree size including disabled levels.
          * This is what addrlib does, but calling addrlib would be a lot more
          * complicated.
@@ -791,10 +1003,34 @@ static int gfx6_compute_surface(ADDR_HANDLE addrlib,
         /* Make sure HTILE covers the whole miptree, because the shader reads
          * TC-compatible HTILE even for levels where it's disabled by DB.
          */
-       if (surf->htile_size && config->info.levels > 1)
-               surf->htile_size *= 2;
+       if (surf->htile_size && config->info.levels > 1 &&
+           surf->flags & RADEON_SURF_TC_COMPATIBLE_HTILE) {
+               /* MSAA can't occur with levels > 1, so ignore the sample count. */
+               const unsigned total_pixels = surf->surf_size / surf->bpe;
+               const unsigned htile_block_size = 8 * 8;
+               const unsigned htile_element_size = 4;
+
+               surf->htile_size = (total_pixels / htile_block_size) *
+                                  htile_element_size;
+               surf->htile_size = align(surf->htile_size, surf->htile_alignment);
+       }
  
         surf->is_linear = surf->u.legacy.level[0].mode == RADEON_SURF_MODE_LINEAR_ALIGNED;
+       surf->is_displayable = surf->is_linear ||
+                              surf->micro_tile_mode == RADEON_MICRO_MODE_DISPLAY ||
+                              surf->micro_tile_mode == RADEON_MICRO_MODE_ROTATED;
+
+       /* The rotated micro tile mode doesn't work if both CMASK and RB+ are
+        * used at the same time. This case is not currently expected to occur
+        * because we don't use rotated. Enforce this restriction on all chips
+        * to facilitate testing.
+        */
+       if (surf->micro_tile_mode == RADEON_MICRO_MODE_ROTATED) {
+               assert(!"rotate micro tile mode is unsupported");
+               return ADDR_ERROR;
+       }
+
+       ac_compute_cmask(info, config, surf);
         return 0;
  }
  
@@ -828,6 +1064,7 @@ gfx9_get_preferred_swizzle_mode(ADDR_HANDLE addrlib,
         sin.numFrags = in->numFrags;
  
         if (is_fmask) {
+               sin.flags.display = 0;
                 sin.flags.color = 0;
                 sin.flags.fmask = 1;
         }
@@ -841,6 +1078,7 @@ gfx9_get_preferred_swizzle_mode(ADDR_HANDLE addrlib,
  }
  
  static int gfx9_compute_miptree(ADDR_HANDLE addrlib,
+                               const struct ac_surf_config *config,
                                 struct radeon_surf *surf, bool compressed,
                                 ADDR2_COMPUTE_SURFACE_INFO_INPUT *in)
  {
@@ -853,7 +1091,7 @@ static int gfx9_compute_miptree(ADDR_HANDLE addrlib,
  
         ret = Addr2ComputeSurfaceInfo(addrlib, in, &out);
         if (ret != ADDR_OK)
-       return ret;
+               return ret;
  
         if (in->flags.stencil) {
                 surf->u.gfx9.stencil.swizzle_mode = in->swizzleMode;
@@ -896,8 +1134,8 @@ static int gfx9_compute_miptree(ADDR_HANDLE addrlib,
                 hin.size = sizeof(ADDR2_COMPUTE_HTILE_INFO_INPUT);
                 hout.size = sizeof(ADDR2_COMPUTE_HTILE_INFO_OUTPUT);
  
-               hin.hTileFlags.pipeAligned = 1;
-               hin.hTileFlags.rbAligned = 1;
+               hin.hTileFlags.pipeAligned = !in->flags.metaPipeUnaligned;
+               hin.hTileFlags.rbAligned = !in->flags.metaRbUnaligned;
                 hin.depthFlags = in->flags;
                 hin.swizzleMode = in->swizzleMode;
                 hin.unalignedWidth = in->width;
@@ -915,21 +1153,51 @@ static int gfx9_compute_miptree(ADDR_HANDLE addrlib,
                 surf->htile_slice_size = hout.sliceSize;
                 surf->htile_alignment = hout.baseAlign;
         } else {
+               /* Compute tile swizzle for the color surface.
+                * All *_X and *_T modes can use the swizzle.
+                */
+               if (config->info.surf_index &&
+                   in->swizzleMode >= ADDR_SW_64KB_Z_T &&
+                   !out.mipChainInTail &&
+                   !(surf->flags & RADEON_SURF_SHAREABLE) &&
+                   !in->flags.display) {
+                       ADDR2_COMPUTE_PIPEBANKXOR_INPUT xin = {0};
+                       ADDR2_COMPUTE_PIPEBANKXOR_OUTPUT xout = {0};
+
+                       xin.size = sizeof(ADDR2_COMPUTE_PIPEBANKXOR_INPUT);
+                       xout.size = sizeof(ADDR2_COMPUTE_PIPEBANKXOR_OUTPUT);
+
+                       xin.surfIndex = p_atomic_inc_return(config->info.surf_index) - 1;
+                       xin.flags = in->flags;
+                       xin.swizzleMode = in->swizzleMode;
+                       xin.resourceType = in->resourceType;
+                       xin.format = in->format;
+                       xin.numSamples = in->numSamples;
+                       xin.numFrags = in->numFrags;
+
+                       ret = Addr2ComputePipeBankXor(addrlib, &xin, &xout);
+                       if (ret != ADDR_OK)
+                               return ret;
+
+                       assert(xout.pipeBankXor <=
+                              u_bit_consecutive(0, sizeof(surf->tile_swizzle) * 8));
+                       surf->tile_swizzle = xout.pipeBankXor;
+               }
+
                 /* DCC */
                 if (!(surf->flags & RADEON_SURF_DISABLE_DCC) &&
-                   !(surf->flags & RADEON_SURF_SCANOUT) &&
                     !compressed &&
-                   in->swizzleMode != ADDR_SW_LINEAR &&
-                   /* TODO: We could support DCC with MSAA. */
-                   in->numSamples == 1) {
+                   in->swizzleMode != ADDR_SW_LINEAR) {
                         ADDR2_COMPUTE_DCCINFO_INPUT din = {0};
                         ADDR2_COMPUTE_DCCINFO_OUTPUT dout = {0};
+                       ADDR2_META_MIP_INFO meta_mip_info[RADEON_SURF_MAX_LEVELS] = {};
  
                         din.size = sizeof(ADDR2_COMPUTE_DCCINFO_INPUT);
                         dout.size = sizeof(ADDR2_COMPUTE_DCCINFO_OUTPUT);
+                       dout.pMipInfo = meta_mip_info;
  
-                       din.dccKeyFlags.pipeAligned = 1;
-                       din.dccKeyFlags.rbAligned = 1;
+                       din.dccKeyFlags.pipeAligned = !in->flags.metaPipeUnaligned;
+                       din.dccKeyFlags.rbAligned = !in->flags.metaRbUnaligned;
                         din.colorFlags = in->flags;
                         din.resourceType = in->resourceType;
                         din.swizzleMode = in->swizzleMode;
@@ -952,21 +1220,37 @@ static int gfx9_compute_miptree(ADDR_HANDLE addrlib,
                         surf->dcc_alignment = dout.dccRamBaseAlign;
                         surf->num_dcc_levels = in->numMipLevels;
  
-                       /* Disable DCC for the smallest levels. It seems to be
-                        * required for DCC readability between CB and shaders
-                        * when TC L2 isn't flushed. This was guessed.
+                       /* Disable DCC for levels that are in the mip tail.
+                        *
+                        * There are two issues that this is intended to
+                        * address:
+                        *
+                        * 1. Multiple mip levels may share a cache line. This
+                        *    can lead to corruption when switching between
+                        *    rendering to different mip levels because the
+                        *    RBs don't maintain coherency.
+                        *
+                        * 2. Texturing with metadata after rendering sometimes
+                        *    fails with corruption, probably for a similar
+                        *    reason.
+                        *
+                        * Working around these issues for all levels in the
+                        * mip tail may be overly conservative, but it's what
+                        * Vulkan does.
                          *
                          * Alternative solutions that also work but are worse:
-                        * - Disable DCC.
+                        * - Disable DCC entirely.
                          * - Flush TC L2 after rendering.
                          */
-                       for (unsigned i = 1; i < in->numMipLevels; i++) {
-                               if (mip_info[i].pitch *
-                                   mip_info[i].height * surf->bpe < 1024) {
+                       for (unsigned i = 0; i < in->numMipLevels; i++) {
+                               if (meta_mip_info[i].inMiptail) {
                                         surf->num_dcc_levels = i;
                                         break;
                                 }
                         }
+
+                       if (!surf->num_dcc_levels)
+                               surf->dcc_size = 0;
                 }
  
                 /* FMASK */
@@ -977,7 +1261,8 @@ static int gfx9_compute_miptree(ADDR_HANDLE addrlib,
                         fin.size = sizeof(ADDR2_COMPUTE_FMASK_INFO_INPUT);
                         fout.size = sizeof(ADDR2_COMPUTE_FMASK_INFO_OUTPUT);
  
-                       ret = gfx9_get_preferred_swizzle_mode(addrlib, in, true, &fin.swizzleMode);
+                       ret = gfx9_get_preferred_swizzle_mode(addrlib, in,
+                                                             true, &fin.swizzleMode);
                         if (ret != ADDR_OK)
                                 return ret;
  
@@ -993,8 +1278,36 @@ static int gfx9_compute_miptree(ADDR_HANDLE addrlib,
  
                         surf->u.gfx9.fmask.swizzle_mode = fin.swizzleMode;
                         surf->u.gfx9.fmask.epitch = fout.pitch - 1;
-                       surf->u.gfx9.fmask_size = fout.fmaskBytes;
-                       surf->u.gfx9.fmask_alignment = fout.baseAlign;
+                       surf->fmask_size = fout.fmaskBytes;
+                       surf->fmask_alignment = fout.baseAlign;
+
+                       /* Compute tile swizzle for the FMASK surface. */
+                       if (config->info.fmask_surf_index &&
+                           fin.swizzleMode >= ADDR_SW_64KB_Z_T &&
+                           !(surf->flags & RADEON_SURF_SHAREABLE)) {
+                               ADDR2_COMPUTE_PIPEBANKXOR_INPUT xin = {0};
+                               ADDR2_COMPUTE_PIPEBANKXOR_OUTPUT xout = {0};
+
+                               xin.size = sizeof(ADDR2_COMPUTE_PIPEBANKXOR_INPUT);
+                               xout.size = sizeof(ADDR2_COMPUTE_PIPEBANKXOR_OUTPUT);
+
+                               /* This counter starts from 1 instead of 0. */
+                               xin.surfIndex = p_atomic_inc_return(config->info.fmask_surf_index);
+                               xin.flags = in->flags;
+                               xin.swizzleMode = fin.swizzleMode;
+                               xin.resourceType = in->resourceType;
+                               xin.format = in->format;
+                               xin.numSamples = in->numSamples;
+                               xin.numFrags = in->numFrags;
+
+                               ret = Addr2ComputePipeBankXor(addrlib, &xin, &xout);
+                               if (ret != ADDR_OK)
+                                       return ret;
+
+                               assert(xout.pipeBankXor <=
+                                      u_bit_consecutive(0, sizeof(surf->fmask_tile_swizzle) * 8));
+                               surf->fmask_tile_swizzle = xout.pipeBankXor;
+                       }
                 }
  
                 /* CMASK */
@@ -1005,8 +1318,14 @@ static int gfx9_compute_miptree(ADDR_HANDLE addrlib,
                         cin.size = sizeof(ADDR2_COMPUTE_CMASK_INFO_INPUT);
                         cout.size = sizeof(ADDR2_COMPUTE_CMASK_INFO_OUTPUT);
  
-                       cin.cMaskFlags.pipeAligned = 1;
-                       cin.cMaskFlags.rbAligned = 1;
+                       if (in->numSamples > 1) {
+                               /* FMASK is always aligned. */
+                               cin.cMaskFlags.pipeAligned = 1;
+                               cin.cMaskFlags.rbAligned = 1;
+                       } else {
+                               cin.cMaskFlags.pipeAligned = !in->flags.metaPipeUnaligned;
+                               cin.cMaskFlags.rbAligned = !in->flags.metaRbUnaligned;
+                       }
                         cin.colorFlags = in->flags;
                         cin.resourceType = in->resourceType;
                         cin.unalignedWidth = in->width;
@@ -1024,8 +1343,8 @@ static int gfx9_compute_miptree(ADDR_HANDLE addrlib,
  
                         surf->u.gfx9.cmask.rb_aligned = cin.cMaskFlags.rbAligned;
                         surf->u.gfx9.cmask.pipe_aligned = cin.cMaskFlags.pipeAligned;
-                       surf->u.gfx9.cmask_size = cout.cmaskBytes;
-                       surf->u.gfx9.cmask_alignment = cout.baseAlign;
+                       surf->cmask_size = cout.cmaskBytes;
+                       surf->cmask_alignment = cout.baseAlign;
                 }
         }
  
@@ -1033,6 +1352,7 @@ static int gfx9_compute_miptree(ADDR_HANDLE addrlib,
  }
  
  static int gfx9_compute_surface(ADDR_HANDLE addrlib,
+                               const struct radeon_info *info,
                                 const struct ac_surf_config *config,
                                 enum radeon_surf_mode mode,
                                 struct radeon_surf *surf)
@@ -1041,8 +1361,6 @@ static int gfx9_compute_surface(ADDR_HANDLE addrlib,
         ADDR2_COMPUTE_SURFACE_INFO_INPUT AddrSurfInfoIn = {0};
         int r;
  
-       assert(!(surf->flags & RADEON_SURF_FMASK));
-
         AddrSurfInfoIn.size = sizeof(ADDR2_COMPUTE_SURFACE_INFO_INPUT);
  
         compressed = surf->blk_w == 4 && surf->blk_h == 4;
@@ -1061,21 +1379,56 @@ static int gfx9_compute_surface(ADDR_HANDLE addrlib,
                         assert(0);
                 }
         } else {
+               switch (surf->bpe) {
+               case 1:
+                       assert(!(surf->flags & RADEON_SURF_ZBUFFER));
+                       AddrSurfInfoIn.format = ADDR_FMT_8;
+                       break;
+               case 2:
+                       assert(surf->flags & RADEON_SURF_ZBUFFER ||
+                              !(surf->flags & RADEON_SURF_SBUFFER));
+                       AddrSurfInfoIn.format = ADDR_FMT_16;
+                       break;
+               case 4:
+                       assert(surf->flags & RADEON_SURF_ZBUFFER ||
+                              !(surf->flags & RADEON_SURF_SBUFFER));
+                       AddrSurfInfoIn.format = ADDR_FMT_32;
+                       break;
+               case 8:
+                       assert(!(surf->flags & RADEON_SURF_Z_OR_SBUFFER));
+                       AddrSurfInfoIn.format = ADDR_FMT_32_32;
+                       break;
+               case 12:
+                       assert(!(surf->flags & RADEON_SURF_Z_OR_SBUFFER));
+                       AddrSurfInfoIn.format = ADDR_FMT_32_32_32;
+                       break;
+               case 16:
+                       assert(!(surf->flags & RADEON_SURF_Z_OR_SBUFFER));
+                       AddrSurfInfoIn.format = ADDR_FMT_32_32_32_32;
+                       break;
+               default:
+                       assert(0);
+               }
                 AddrSurfInfoIn.bpp = surf->bpe * 8;
         }
  
-       AddrSurfInfoIn.flags.color = !(surf->flags & RADEON_SURF_Z_OR_SBUFFER);
+       bool is_color_surface = !(surf->flags & RADEON_SURF_Z_OR_SBUFFER);
+       AddrSurfInfoIn.flags.color = is_color_surface &&
+                                    !(surf->flags & RADEON_SURF_NO_RENDER_TARGET);
         AddrSurfInfoIn.flags.depth = (surf->flags & RADEON_SURF_ZBUFFER) != 0;
-       AddrSurfInfoIn.flags.display = (surf->flags & RADEON_SURF_SCANOUT) != 0;
+       AddrSurfInfoIn.flags.display = get_display_flag(config, surf);
         /* flags.texture currently refers to TC-compatible HTILE */
-       AddrSurfInfoIn.flags.texture = AddrSurfInfoIn.flags.color ||
+       AddrSurfInfoIn.flags.texture = is_color_surface ||
                                        surf->flags & RADEON_SURF_TC_COMPATIBLE_HTILE;
         AddrSurfInfoIn.flags.opt4space = 1;
  
         AddrSurfInfoIn.numMipLevels = config->info.levels;
-       AddrSurfInfoIn.numSamples = config->info.samples ? config->info.samples : 1;
+       AddrSurfInfoIn.numSamples = MAX2(1, config->info.samples);
         AddrSurfInfoIn.numFrags = AddrSurfInfoIn.numSamples;
  
+       if (!(surf->flags & RADEON_SURF_Z_OR_SBUFFER))
+               AddrSurfInfoIn.numFrags = MAX2(1, config->info.storage_samples);
+
         /* GFX9 doesn't support 1D depth textures, so allocate all 1D textures
          * as 2D to avoid having shader variants for 1D vs 2D, so all shaders
          * must sample 1D textures as 2D. */
@@ -1094,6 +1447,10 @@ static int gfx9_compute_surface(ADDR_HANDLE addrlib,
         else
                 AddrSurfInfoIn.numSlices = config->info.array_size;
  
+       /* This is propagated to HTILE/DCC/CMASK. */
+       AddrSurfInfoIn.flags.metaPipeUnaligned = 0;
+       AddrSurfInfoIn.flags.metaRbUnaligned = 0;
+
         switch (mode) {
         case RADEON_SURF_MODE_LINEAR_ALIGNED:
                 assert(config->info.samples <= 1);
@@ -1108,8 +1465,8 @@ static int gfx9_compute_surface(ADDR_HANDLE addrlib,
                         break;
                 }
  
-               r = gfx9_get_preferred_swizzle_mode(addrlib, &AddrSurfInfoIn, false,
-                                                   &AddrSurfInfoIn.swizzleMode);
+               r = gfx9_get_preferred_swizzle_mode(addrlib, &AddrSurfInfoIn,
+                                                   false, &AddrSurfInfoIn.swizzleMode);
                 if (r)
                         return r;
                 break;
@@ -1123,16 +1480,17 @@ static int gfx9_compute_surface(ADDR_HANDLE addrlib,
  
         surf->num_dcc_levels = 0;
         surf->surf_size = 0;
+       surf->fmask_size = 0;
         surf->dcc_size = 0;
         surf->htile_size = 0;
         surf->htile_slice_size = 0;
         surf->u.gfx9.surf_offset = 0;
         surf->u.gfx9.stencil_offset = 0;
-       surf->u.gfx9.fmask_size = 0;
-       surf->u.gfx9.cmask_size = 0;
+       surf->cmask_size = 0;
  
         /* Calculate texture layout information. */
-       r = gfx9_compute_miptree(addrlib, surf, compressed, &AddrSurfInfoIn);
+       r = gfx9_compute_miptree(addrlib, config, surf, compressed,
+                                &AddrSurfInfoIn);
         if (r)
                 return r;
  
@@ -1140,22 +1498,34 @@ static int gfx9_compute_surface(ADDR_HANDLE addrlib,
         if (surf->flags & RADEON_SURF_SBUFFER) {
                 AddrSurfInfoIn.flags.stencil = 1;
                 AddrSurfInfoIn.bpp = 8;
+               AddrSurfInfoIn.format = ADDR_FMT_8;
  
                 if (!AddrSurfInfoIn.flags.depth) {
-                       r = gfx9_get_preferred_swizzle_mode(addrlib, &AddrSurfInfoIn, false,
-                                                           &AddrSurfInfoIn.swizzleMode);
+                       r = gfx9_get_preferred_swizzle_mode(addrlib, &AddrSurfInfoIn,
+                                                           false, &AddrSurfInfoIn.swizzleMode);
                         if (r)
                                 return r;
                 } else
                         AddrSurfInfoIn.flags.depth = 0;
  
-               r = gfx9_compute_miptree(addrlib, surf, compressed, &AddrSurfInfoIn);
+               r = gfx9_compute_miptree(addrlib, config, surf, compressed,
+                                        &AddrSurfInfoIn);
                 if (r)
                         return r;
         }
  
         surf->is_linear = surf->u.gfx9.surf.swizzle_mode == ADDR_SW_LINEAR;
  
+       /* Query whether the surface is displayable. */
+       bool displayable = false;
+       if (!config->is_3d && !config->is_cube) {
+               r = Addr2IsValidDisplaySwizzleMode(addrlib, surf->u.gfx9.surf.swizzle_mode,
+                                          surf->bpe * 8, &displayable);
+               if (r)
+                       return r;
+       }
+       surf->is_displayable = displayable;
+
         switch (surf->u.gfx9.surf.swizzle_mode) {
                 /* S = standard. */
                 case ADDR_SW_256B_S:
@@ -1191,8 +1561,13 @@ static int gfx9_compute_surface(ADDR_HANDLE addrlib,
                 case ADDR_SW_4KB_R_X:
                 case ADDR_SW_64KB_R_X:
                 case ADDR_SW_VAR_R_X:
-                       surf->micro_tile_mode = RADEON_MICRO_MODE_ROTATED;
-                       break;
+                       /* The rotated micro tile mode doesn't work if both CMASK and RB+ are
+                        * used at the same time. This case is not currently expected to occur
+                        * because we don't use rotated. Enforce this restriction on all chips
+                        * to facilitate testing.
+                        */
+                       assert(!"rotate micro tile mode is unsupported");
+                       return ADDR_ERROR;
  
                 /* Z = depth. */
                 case ADDR_SW_4KB_Z:
@@ -1219,12 +1594,12 @@ int ac_compute_surface(ADDR_HANDLE addrlib, const struct radeon_info *info,
  {
         int r;
  
-       r = surf_config_sanity(config);
+       r = surf_config_sanity(config, surf->flags);
         if (r)
                 return r;
  
         if (info->chip_class >= GFX9)
-               return gfx9_compute_surface(addrlib, config, mode, surf);
+               return gfx9_compute_surface(addrlib, info, config, mode, surf);
         else
                 return gfx6_compute_surface(addrlib, info, config, mode, surf);
  }