src/gallium/winsys/radeon/drm/radeon_drm_bo.c

   1 /*
   2  * Copyright © 2011 Marek Olšák <maraeo@gmail.com>
   3  * All Rights Reserved.
   4  *
   5  * Permission is hereby granted, free of charge, to any person obtaining
   6  * a copy of this software and associated documentation files (the
   7  * "Software"), to deal in the Software without restriction, including
   8  * without limitation the rights to use, copy, modify, merge, publish,
   9  * distribute, sub license, and/or sell copies of the Software, and to
  10  * permit persons to whom the Software is furnished to do so, subject to
  11  * the following conditions:
  12  *
  13  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
  14  * EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES
  15  * OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
  16  * NON-INFRINGEMENT. IN NO EVENT SHALL THE COPYRIGHT HOLDERS, AUTHORS
  17  * AND/OR ITS SUPPLIERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
  18  * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE,
  19  * ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE
  20  * USE OR OTHER DEALINGS IN THE SOFTWARE.
  21  *
  22  * The above copyright notice and this permission notice (including the
  23  * next paragraph) shall be included in all copies or substantial portions
  24  * of the Software.
  25  */
  26
  27 #include "radeon_drm_cs.h"
  28
  29 #include "util/u_hash_table.h"
  30 #include "util/u_memory.h"
  31 #include "util/simple_list.h"
  32 #include "os/os_thread.h"
  33 #include "os/os_mman.h"
  34 #include "os/os_time.h"
  35
  36 #include "state_tracker/drm_driver.h"
  37
  38 #include <sys/ioctl.h>
  39 #include <xf86drm.h>
  40 #include <errno.h>
  41 #include <fcntl.h>
  42 #include <stdio.h>
  43 #include <inttypes.h>
  44
  45 static inline struct radeon_bo *radeon_bo(struct pb_buffer *bo)
  46 {
  47     return (struct radeon_bo *)bo;
  48 }
  49
  50 struct radeon_bo_va_hole {
  51     struct list_head list;
  52     uint64_t         offset;
  53     uint64_t         size;
  54 };
  55
  56 static bool radeon_bo_is_busy(struct radeon_bo *bo)
  57 {
  58     struct drm_radeon_gem_busy args = {0};
  59
  60     args.handle = bo->handle;
  61     return drmCommandWriteRead(bo->rws->fd, DRM_RADEON_GEM_BUSY,
  62                                &args, sizeof(args)) != 0;
  63 }
  64
  65 static void radeon_bo_wait_idle(struct radeon_bo *bo)
  66 {
  67     struct drm_radeon_gem_wait_idle args = {0};
  68
  69     args.handle = bo->handle;
  70     while (drmCommandWrite(bo->rws->fd, DRM_RADEON_GEM_WAIT_IDLE,
  71                            &args, sizeof(args)) == -EBUSY);
  72 }
  73
  74 static bool radeon_bo_wait(struct pb_buffer *_buf, uint64_t timeout,
  75                            enum radeon_bo_usage usage)
  76 {
  77     struct radeon_bo *bo = radeon_bo(_buf);
  78     int64_t abs_timeout;
  79
  80     /* No timeout. Just query. */
  81     if (timeout == 0)
  82         return !bo->num_active_ioctls && !radeon_bo_is_busy(bo);
  83
  84     abs_timeout = os_time_get_absolute_timeout(timeout);
  85
  86     /* Wait if any ioctl is being submitted with this buffer. */
  87     if (!os_wait_until_zero_abs_timeout(&bo->num_active_ioctls, abs_timeout))
  88         return false;
  89
  90     /* Infinite timeout. */
  91     if (abs_timeout == PIPE_TIMEOUT_INFINITE) {
  92         radeon_bo_wait_idle(bo);
  93         return true;
  94     }
  95
  96     /* Other timeouts need to be emulated with a loop. */
  97     while (radeon_bo_is_busy(bo)) {
  98        if (os_time_get_nano() >= abs_timeout)
  99           return false;
 100        os_time_sleep(10);
 101     }
 102
 103     return true;
 104 }
 105
 106 static enum radeon_bo_domain get_valid_domain(enum radeon_bo_domain domain)
 107 {
 108     /* Zero domains the driver doesn't understand. */
 109     domain &= RADEON_DOMAIN_VRAM_GTT;
 110
 111     /* If no domain is set, we must set something... */
 112     if (!domain)
 113         domain = RADEON_DOMAIN_VRAM_GTT;
 114
 115     return domain;
 116 }
 117
 118 static enum radeon_bo_domain radeon_bo_get_initial_domain(
 119                 struct pb_buffer *buf)
 120 {
 121     struct radeon_bo *bo = (struct radeon_bo*)buf;
 122     struct drm_radeon_gem_op args;
 123
 124     if (bo->rws->info.drm_minor < 38)
 125         return RADEON_DOMAIN_VRAM_GTT;
 126
 127     memset(&args, 0, sizeof(args));
 128     args.handle = bo->handle;
 129     args.op = RADEON_GEM_OP_GET_INITIAL_DOMAIN;
 130
 131     drmCommandWriteRead(bo->rws->fd, DRM_RADEON_GEM_OP,
 132                         &args, sizeof(args));
 133
 134     /* GEM domains and winsys domains are defined the same. */
 135     return get_valid_domain(args.value);
 136 }
 137
 138 static uint64_t radeon_bomgr_find_va(struct radeon_drm_winsys *rws,
 139                                      uint64_t size, uint64_t alignment)
 140 {
 141     struct radeon_bo_va_hole *hole, *n;
 142     uint64_t offset = 0, waste = 0;
 143
 144     /* All VM address space holes will implicitly start aligned to the
 145      * size alignment, so we don't need to sanitize the alignment here
 146      */
 147     size = align(size, rws->info.gart_page_size);
 148
 149     pipe_mutex_lock(rws->bo_va_mutex);
 150     /* first look for a hole */
 151     LIST_FOR_EACH_ENTRY_SAFE(hole, n, &rws->va_holes, list) {
 152         offset = hole->offset;
 153         waste = offset % alignment;
 154         waste = waste ? alignment - waste : 0;
 155         offset += waste;
 156         if (offset >= (hole->offset + hole->size)) {
 157             continue;
 158         }
 159         if (!waste && hole->size == size) {
 160             offset = hole->offset;
 161             list_del(&hole->list);
 162             FREE(hole);
 163             pipe_mutex_unlock(rws->bo_va_mutex);
 164             return offset;
 165         }
 166         if ((hole->size - waste) > size) {
 167             if (waste) {
 168                 n = CALLOC_STRUCT(radeon_bo_va_hole);
 169                 n->size = waste;
 170                 n->offset = hole->offset;
 171                 list_add(&n->list, &hole->list);
 172             }
 173             hole->size -= (size + waste);
 174             hole->offset += size + waste;
 175             pipe_mutex_unlock(rws->bo_va_mutex);
 176             return offset;
 177         }
 178         if ((hole->size - waste) == size) {
 179             hole->size = waste;
 180             pipe_mutex_unlock(rws->bo_va_mutex);
 181             return offset;
 182         }
 183     }
 184
 185     offset = rws->va_offset;
 186     waste = offset % alignment;
 187     waste = waste ? alignment - waste : 0;
 188     if (waste) {
 189         n = CALLOC_STRUCT(radeon_bo_va_hole);
 190         n->size = waste;
 191         n->offset = offset;
 192         list_add(&n->list, &rws->va_holes);
 193     }
 194     offset += waste;
 195     rws->va_offset += size + waste;
 196     pipe_mutex_unlock(rws->bo_va_mutex);
 197     return offset;
 198 }
 199
 200 static void radeon_bomgr_free_va(struct radeon_drm_winsys *rws,
 201                                  uint64_t va, uint64_t size)
 202 {
 203     struct radeon_bo_va_hole *hole;
 204
 205     size = align(size, rws->info.gart_page_size);
 206
 207     pipe_mutex_lock(rws->bo_va_mutex);
 208     if ((va + size) == rws->va_offset) {
 209         rws->va_offset = va;
 210         /* Delete uppermost hole if it reaches the new top */
 211         if (!LIST_IS_EMPTY(&rws->va_holes)) {
 212             hole = container_of(rws->va_holes.next, hole, list);
 213             if ((hole->offset + hole->size) == va) {
 214                 rws->va_offset = hole->offset;
 215                 list_del(&hole->list);
 216                 FREE(hole);
 217             }
 218         }
 219     } else {
 220         struct radeon_bo_va_hole *next;
 221
 222         hole = container_of(&rws->va_holes, hole, list);
 223         LIST_FOR_EACH_ENTRY(next, &rws->va_holes, list) {
 224             if (next->offset < va)
 225                 break;
 226             hole = next;
 227         }
 228
 229         if (&hole->list != &rws->va_holes) {
 230             /* Grow upper hole if it's adjacent */
 231             if (hole->offset == (va + size)) {
 232                 hole->offset = va;
 233                 hole->size += size;
 234                 /* Merge lower hole if it's adjacent */
 235                 if (next != hole && &next->list != &rws->va_holes &&
 236                     (next->offset + next->size) == va) {
 237                     next->size += hole->size;
 238                     list_del(&hole->list);
 239                     FREE(hole);
 240                 }
 241                 goto out;
 242             }
 243         }
 244
 245         /* Grow lower hole if it's adjacent */
 246         if (next != hole && &next->list != &rws->va_holes &&
 247             (next->offset + next->size) == va) {
 248             next->size += size;
 249             goto out;
 250         }
 251
 252         /* FIXME on allocation failure we just lose virtual address space
 253          * maybe print a warning
 254          */
 255         next = CALLOC_STRUCT(radeon_bo_va_hole);
 256         if (next) {
 257             next->size = size;
 258             next->offset = va;
 259             list_add(&next->list, &hole->list);
 260         }
 261     }
 262 out:
 263     pipe_mutex_unlock(rws->bo_va_mutex);
 264 }
 265
 266 void radeon_bo_destroy(struct pb_buffer *_buf)
 267 {
 268     struct radeon_bo *bo = radeon_bo(_buf);
 269     struct radeon_drm_winsys *rws = bo->rws;
 270     struct drm_gem_close args;
 271
 272     memset(&args, 0, sizeof(args));
 273
 274     pipe_mutex_lock(rws->bo_handles_mutex);
 275     util_hash_table_remove(rws->bo_handles, (void*)(uintptr_t)bo->handle);
 276     if (bo->flink_name) {
 277         util_hash_table_remove(rws->bo_names,
 278                                (void*)(uintptr_t)bo->flink_name);
 279     }
 280     pipe_mutex_unlock(rws->bo_handles_mutex);
 281
 282     if (bo->ptr)
 283         os_munmap(bo->ptr, bo->base.size);
 284
 285     if (rws->info.has_virtual_memory) {
 286         if (rws->va_unmap_working) {
 287             struct drm_radeon_gem_va va;
 288
 289             va.handle = bo->handle;
 290             va.vm_id = 0;
 291             va.operation = RADEON_VA_UNMAP;
 292             va.flags = RADEON_VM_PAGE_READABLE |
 293                        RADEON_VM_PAGE_WRITEABLE |
 294                        RADEON_VM_PAGE_SNOOPED;
 295             va.offset = bo->va;
 296
 297             if (drmCommandWriteRead(rws->fd, DRM_RADEON_GEM_VA, &va,
 298                                     sizeof(va)) != 0 &&
 299                 va.operation == RADEON_VA_RESULT_ERROR) {
 300                 fprintf(stderr, "radeon: Failed to deallocate virtual address for buffer:\n");
 301                 fprintf(stderr, "radeon:    size      : %"PRIu64" bytes\n", bo->base.size);
 302                 fprintf(stderr, "radeon:    va        : 0x%"PRIx64"\n", bo->va);
 303             }
 304         }
 305
 306         radeon_bomgr_free_va(rws, bo->va, bo->base.size);
 307     }
 308
 309     /* Close object. */
 310     args.handle = bo->handle;
 311     drmIoctl(rws->fd, DRM_IOCTL_GEM_CLOSE, &args);
 312
 313     pipe_mutex_destroy(bo->map_mutex);
 314
 315     if (bo->initial_domain & RADEON_DOMAIN_VRAM)
 316         rws->allocated_vram -= align(bo->base.size, rws->info.gart_page_size);
 317     else if (bo->initial_domain & RADEON_DOMAIN_GTT)
 318         rws->allocated_gtt -= align(bo->base.size, rws->info.gart_page_size);
 319     FREE(bo);
 320 }
 321
 322 static void radeon_bo_destroy_or_cache(struct pb_buffer *_buf)
 323 {
 324    struct radeon_bo *bo = radeon_bo(_buf);
 325
 326    if (bo->use_reusable_pool)
 327       pb_cache_add_buffer(&bo->cache_entry);
 328    else
 329       radeon_bo_destroy(_buf);
 330 }
 331
 332 void *radeon_bo_do_map(struct radeon_bo *bo)
 333 {
 334     struct drm_radeon_gem_mmap args = {0};
 335     void *ptr;
 336
 337     /* If the buffer is created from user memory, return the user pointer. */
 338     if (bo->user_ptr)
 339         return bo->user_ptr;
 340
 341     /* Map the buffer. */
 342     pipe_mutex_lock(bo->map_mutex);
 343     /* Return the pointer if it's already mapped. */
 344     if (bo->ptr) {
 345         bo->map_count++;
 346         pipe_mutex_unlock(bo->map_mutex);
 347         return bo->ptr;
 348     }
 349     args.handle = bo->handle;
 350     args.offset = 0;
 351     args.size = (uint64_t)bo->base.size;
 352     if (drmCommandWriteRead(bo->rws->fd,
 353                             DRM_RADEON_GEM_MMAP,
 354                             &args,
 355                             sizeof(args))) {
 356         pipe_mutex_unlock(bo->map_mutex);
 357         fprintf(stderr, "radeon: gem_mmap failed: %p 0x%08X\n",
 358                 bo, bo->handle);
 359         return NULL;
 360     }
 361
 362     ptr = os_mmap(0, args.size, PROT_READ|PROT_WRITE, MAP_SHARED,
 363                bo->rws->fd, args.addr_ptr);
 364     if (ptr == MAP_FAILED) {
 365         /* Clear the cache and try again. */
 366         pb_cache_release_all_buffers(&bo->rws->bo_cache);
 367
 368         ptr = os_mmap(0, args.size, PROT_READ|PROT_WRITE, MAP_SHARED,
 369                       bo->rws->fd, args.addr_ptr);
 370         if (ptr == MAP_FAILED) {
 371             pipe_mutex_unlock(bo->map_mutex);
 372             fprintf(stderr, "radeon: mmap failed, errno: %i\n", errno);
 373             return NULL;
 374         }
 375     }
 376     bo->ptr = ptr;
 377     bo->map_count = 1;
 378
 379     if (bo->initial_domain & RADEON_DOMAIN_VRAM)
 380        bo->rws->mapped_vram += bo->base.size;
 381     else
 382        bo->rws->mapped_gtt += bo->base.size;
 383
 384     pipe_mutex_unlock(bo->map_mutex);
 385     return bo->ptr;
 386 }
 387
 388 static void *radeon_bo_map(struct pb_buffer *buf,
 389                            struct radeon_winsys_cs *rcs,
 390                            enum pipe_transfer_usage usage)
 391 {
 392     struct radeon_bo *bo = (struct radeon_bo*)buf;
 393     struct radeon_drm_cs *cs = (struct radeon_drm_cs*)rcs;
 394
 395     /* If it's not unsynchronized bo_map, flush CS if needed and then wait. */
 396     if (!(usage & PIPE_TRANSFER_UNSYNCHRONIZED)) {
 397         /* DONTBLOCK doesn't make sense with UNSYNCHRONIZED. */
 398         if (usage & PIPE_TRANSFER_DONTBLOCK) {
 399             if (!(usage & PIPE_TRANSFER_WRITE)) {
 400                 /* Mapping for read.
 401                  *
 402                  * Since we are mapping for read, we don't need to wait
 403                  * if the GPU is using the buffer for read too
 404                  * (neither one is changing it).
 405                  *
 406                  * Only check whether the buffer is being used for write. */
 407                 if (cs && radeon_bo_is_referenced_by_cs_for_write(cs, bo)) {
 408                     cs->flush_cs(cs->flush_data, RADEON_FLUSH_ASYNC, NULL);
 409                     return NULL;
 410                 }
 411
 412                 if (!radeon_bo_wait((struct pb_buffer*)bo, 0,
 413                                     RADEON_USAGE_WRITE)) {
 414                     return NULL;
 415                 }
 416             } else {
 417                 if (cs && radeon_bo_is_referenced_by_cs(cs, bo)) {
 418                     cs->flush_cs(cs->flush_data, RADEON_FLUSH_ASYNC, NULL);
 419                     return NULL;
 420                 }
 421
 422                 if (!radeon_bo_wait((struct pb_buffer*)bo, 0,
 423                                     RADEON_USAGE_READWRITE)) {
 424                     return NULL;
 425                 }
 426             }
 427         } else {
 428             uint64_t time = os_time_get_nano();
 429
 430             if (!(usage & PIPE_TRANSFER_WRITE)) {
 431                 /* Mapping for read.
 432                  *
 433                  * Since we are mapping for read, we don't need to wait
 434                  * if the GPU is using the buffer for read too
 435                  * (neither one is changing it).
 436                  *
 437                  * Only check whether the buffer is being used for write. */
 438                 if (cs && radeon_bo_is_referenced_by_cs_for_write(cs, bo)) {
 439                     cs->flush_cs(cs->flush_data, 0, NULL);
 440                 }
 441                 radeon_bo_wait((struct pb_buffer*)bo, PIPE_TIMEOUT_INFINITE,
 442                                RADEON_USAGE_WRITE);
 443             } else {
 444                 /* Mapping for write. */
 445                 if (cs) {
 446                     if (radeon_bo_is_referenced_by_cs(cs, bo)) {
 447                         cs->flush_cs(cs->flush_data, 0, NULL);
 448                     } else {
 449                         /* Try to avoid busy-waiting in radeon_bo_wait. */
 450                         if (p_atomic_read(&bo->num_active_ioctls))
 451                             radeon_drm_cs_sync_flush(rcs);
 452                     }
 453                 }
 454
 455                 radeon_bo_wait((struct pb_buffer*)bo, PIPE_TIMEOUT_INFINITE,
 456                                RADEON_USAGE_READWRITE);
 457             }
 458
 459             bo->rws->buffer_wait_time += os_time_get_nano() - time;
 460         }
 461     }
 462
 463     return radeon_bo_do_map(bo);
 464 }
 465
 466 static void radeon_bo_unmap(struct pb_buffer *_buf)
 467 {
 468     struct radeon_bo *bo = (struct radeon_bo*)_buf;
 469
 470     if (bo->user_ptr)
 471         return;
 472
 473     pipe_mutex_lock(bo->map_mutex);
 474     if (!bo->ptr) {
 475         pipe_mutex_unlock(bo->map_mutex);
 476         return; /* it's not been mapped */
 477     }
 478
 479     assert(bo->map_count);
 480     if (--bo->map_count) {
 481         pipe_mutex_unlock(bo->map_mutex);
 482         return; /* it's been mapped multiple times */
 483     }
 484
 485     os_munmap(bo->ptr, bo->base.size);
 486     bo->ptr = NULL;
 487
 488     if (bo->initial_domain & RADEON_DOMAIN_VRAM)
 489        bo->rws->mapped_vram -= bo->base.size;
 490     else
 491        bo->rws->mapped_gtt -= bo->base.size;
 492
 493     pipe_mutex_unlock(bo->map_mutex);
 494 }
 495
 496 static const struct pb_vtbl radeon_bo_vtbl = {
 497     radeon_bo_destroy_or_cache
 498     /* other functions are never called */
 499 };
 500
 501 #ifndef RADEON_GEM_GTT_WC
 502 #define RADEON_GEM_GTT_WC               (1 << 2)
 503 #endif
 504 #ifndef RADEON_GEM_CPU_ACCESS
 505 /* BO is expected to be accessed by the CPU */
 506 #define RADEON_GEM_CPU_ACCESS           (1 << 3)
 507 #endif
 508 #ifndef RADEON_GEM_NO_CPU_ACCESS
 509 /* CPU access is not expected to work for this BO */
 510 #define RADEON_GEM_NO_CPU_ACCESS        (1 << 4)
 511 #endif
 512
 513 static struct radeon_bo *radeon_create_bo(struct radeon_drm_winsys *rws,
 514                                           unsigned size, unsigned alignment,
 515                                           unsigned usage,
 516                                           unsigned initial_domains,
 517                                           unsigned flags,
 518                                           unsigned pb_cache_bucket)
 519 {
 520     struct radeon_bo *bo;
 521     struct drm_radeon_gem_create args;
 522     int r;
 523
 524     memset(&args, 0, sizeof(args));
 525
 526     assert(initial_domains);
 527     assert((initial_domains &
 528             ~(RADEON_GEM_DOMAIN_GTT | RADEON_GEM_DOMAIN_VRAM)) == 0);
 529
 530     args.size = size;
 531     args.alignment = alignment;
 532     args.initial_domain = initial_domains;
 533     args.flags = 0;
 534
 535     if (flags & RADEON_FLAG_GTT_WC)
 536         args.flags |= RADEON_GEM_GTT_WC;
 537     if (flags & RADEON_FLAG_CPU_ACCESS)
 538         args.flags |= RADEON_GEM_CPU_ACCESS;
 539     if (flags & RADEON_FLAG_NO_CPU_ACCESS)
 540         args.flags |= RADEON_GEM_NO_CPU_ACCESS;
 541
 542     if (drmCommandWriteRead(rws->fd, DRM_RADEON_GEM_CREATE,
 543                             &args, sizeof(args))) {
 544         fprintf(stderr, "radeon: Failed to allocate a buffer:\n");
 545         fprintf(stderr, "radeon:    size      : %u bytes\n", size);
 546         fprintf(stderr, "radeon:    alignment : %u bytes\n", alignment);
 547         fprintf(stderr, "radeon:    domains   : %u\n", args.initial_domain);
 548         fprintf(stderr, "radeon:    flags     : %u\n", args.flags);
 549         return NULL;
 550     }
 551
 552     bo = CALLOC_STRUCT(radeon_bo);
 553     if (!bo)
 554         return NULL;
 555
 556     pipe_reference_init(&bo->base.reference, 1);
 557     bo->base.alignment = alignment;
 558     bo->base.usage = usage;
 559     bo->base.size = size;
 560     bo->base.vtbl = &radeon_bo_vtbl;
 561     bo->rws = rws;
 562     bo->handle = args.handle;
 563     bo->va = 0;
 564     bo->initial_domain = initial_domains;
 565     pipe_mutex_init(bo->map_mutex);
 566     pb_cache_init_entry(&rws->bo_cache, &bo->cache_entry, &bo->base,
 567                         pb_cache_bucket);
 568
 569     if (rws->info.has_virtual_memory) {
 570         struct drm_radeon_gem_va va;
 571         unsigned va_gap_size;
 572
 573         va_gap_size = rws->check_vm ? MAX2(4 * alignment, 64 * 1024) : 0;
 574         bo->va = radeon_bomgr_find_va(rws, size + va_gap_size, alignment);
 575
 576         va.handle = bo->handle;
 577         va.vm_id = 0;
 578         va.operation = RADEON_VA_MAP;
 579         va.flags = RADEON_VM_PAGE_READABLE |
 580                    RADEON_VM_PAGE_WRITEABLE |
 581                    RADEON_VM_PAGE_SNOOPED;
 582         va.offset = bo->va;
 583         r = drmCommandWriteRead(rws->fd, DRM_RADEON_GEM_VA, &va, sizeof(va));
 584         if (r && va.operation == RADEON_VA_RESULT_ERROR) {
 585             fprintf(stderr, "radeon: Failed to allocate virtual address for buffer:\n");
 586             fprintf(stderr, "radeon:    size      : %d bytes\n", size);
 587             fprintf(stderr, "radeon:    alignment : %d bytes\n", alignment);
 588             fprintf(stderr, "radeon:    domains   : %d\n", args.initial_domain);
 589             fprintf(stderr, "radeon:    va        : 0x%016llx\n", (unsigned long long)bo->va);
 590             radeon_bo_destroy(&bo->base);
 591             return NULL;
 592         }
 593         pipe_mutex_lock(rws->bo_handles_mutex);
 594         if (va.operation == RADEON_VA_RESULT_VA_EXIST) {
 595             struct pb_buffer *b = &bo->base;
 596             struct radeon_bo *old_bo =
 597                 util_hash_table_get(rws->bo_vas, (void*)(uintptr_t)va.offset);
 598
 599             pipe_mutex_unlock(rws->bo_handles_mutex);
 600             pb_reference(&b, &old_bo->base);
 601             return radeon_bo(b);
 602         }
 603
 604         util_hash_table_set(rws->bo_vas, (void*)(uintptr_t)bo->va, bo);
 605         pipe_mutex_unlock(rws->bo_handles_mutex);
 606     }
 607
 608     if (initial_domains & RADEON_DOMAIN_VRAM)
 609         rws->allocated_vram += align(size, rws->info.gart_page_size);
 610     else if (initial_domains & RADEON_DOMAIN_GTT)
 611         rws->allocated_gtt += align(size, rws->info.gart_page_size);
 612
 613     return bo;
 614 }
 615
 616 bool radeon_bo_can_reclaim(struct pb_buffer *_buf)
 617 {
 618    struct radeon_bo *bo = radeon_bo(_buf);
 619
 620    if (radeon_bo_is_referenced_by_any_cs(bo))
 621       return false;
 622
 623    return radeon_bo_wait(_buf, 0, RADEON_USAGE_READWRITE);
 624 }
 625
 626 static unsigned eg_tile_split(unsigned tile_split)
 627 {
 628     switch (tile_split) {
 629     case 0:     tile_split = 64;    break;
 630     case 1:     tile_split = 128;   break;
 631     case 2:     tile_split = 256;   break;
 632     case 3:     tile_split = 512;   break;
 633     default:
 634     case 4:     tile_split = 1024;  break;
 635     case 5:     tile_split = 2048;  break;
 636     case 6:     tile_split = 4096;  break;
 637     }
 638     return tile_split;
 639 }
 640
 641 static unsigned eg_tile_split_rev(unsigned eg_tile_split)
 642 {
 643     switch (eg_tile_split) {
 644     case 64:    return 0;
 645     case 128:   return 1;
 646     case 256:   return 2;
 647     case 512:   return 3;
 648     default:
 649     case 1024:  return 4;
 650     case 2048:  return 5;
 651     case 4096:  return 6;
 652     }
 653 }
 654
 655 static void radeon_bo_get_metadata(struct pb_buffer *_buf,
 656                                    struct radeon_bo_metadata *md)
 657 {
 658     struct radeon_bo *bo = radeon_bo(_buf);
 659     struct drm_radeon_gem_set_tiling args;
 660
 661     memset(&args, 0, sizeof(args));
 662
 663     args.handle = bo->handle;
 664
 665     drmCommandWriteRead(bo->rws->fd,
 666                         DRM_RADEON_GEM_GET_TILING,
 667                         &args,
 668                         sizeof(args));
 669
 670     md->microtile = RADEON_LAYOUT_LINEAR;
 671     md->macrotile = RADEON_LAYOUT_LINEAR;
 672     if (args.tiling_flags & RADEON_TILING_MICRO)
 673         md->microtile = RADEON_LAYOUT_TILED;
 674     else if (args.tiling_flags & RADEON_TILING_MICRO_SQUARE)
 675         md->microtile = RADEON_LAYOUT_SQUARETILED;
 676
 677     if (args.tiling_flags & RADEON_TILING_MACRO)
 678         md->macrotile = RADEON_LAYOUT_TILED;
 679
 680     md->bankw = (args.tiling_flags >> RADEON_TILING_EG_BANKW_SHIFT) & RADEON_TILING_EG_BANKW_MASK;
 681     md->bankh = (args.tiling_flags >> RADEON_TILING_EG_BANKH_SHIFT) & RADEON_TILING_EG_BANKH_MASK;
 682     md->tile_split = (args.tiling_flags >> RADEON_TILING_EG_TILE_SPLIT_SHIFT) & RADEON_TILING_EG_TILE_SPLIT_MASK;
 683     md->mtilea = (args.tiling_flags >> RADEON_TILING_EG_MACRO_TILE_ASPECT_SHIFT) & RADEON_TILING_EG_MACRO_TILE_ASPECT_MASK;
 684     md->tile_split = eg_tile_split(md->tile_split);
 685     md->scanout = bo->rws->gen >= DRV_SI && !(args.tiling_flags & RADEON_TILING_R600_NO_SCANOUT);
 686 }
 687
 688 static void radeon_bo_set_metadata(struct pb_buffer *_buf,
 689                                    struct radeon_bo_metadata *md)
 690 {
 691     struct radeon_bo *bo = radeon_bo(_buf);
 692     struct drm_radeon_gem_set_tiling args;
 693
 694     memset(&args, 0, sizeof(args));
 695
 696     os_wait_until_zero(&bo->num_active_ioctls, PIPE_TIMEOUT_INFINITE);
 697
 698     if (md->microtile == RADEON_LAYOUT_TILED)
 699         args.tiling_flags |= RADEON_TILING_MICRO;
 700     else if (md->microtile == RADEON_LAYOUT_SQUARETILED)
 701         args.tiling_flags |= RADEON_TILING_MICRO_SQUARE;
 702
 703     if (md->macrotile == RADEON_LAYOUT_TILED)
 704         args.tiling_flags |= RADEON_TILING_MACRO;
 705
 706     args.tiling_flags |= (md->bankw & RADEON_TILING_EG_BANKW_MASK) <<
 707         RADEON_TILING_EG_BANKW_SHIFT;
 708     args.tiling_flags |= (md->bankh & RADEON_TILING_EG_BANKH_MASK) <<
 709         RADEON_TILING_EG_BANKH_SHIFT;
 710     if (md->tile_split) {
 711         args.tiling_flags |= (eg_tile_split_rev(md->tile_split) &
 712                               RADEON_TILING_EG_TILE_SPLIT_MASK) <<
 713             RADEON_TILING_EG_TILE_SPLIT_SHIFT;
 714     }
 715     args.tiling_flags |= (md->mtilea & RADEON_TILING_EG_MACRO_TILE_ASPECT_MASK) <<
 716         RADEON_TILING_EG_MACRO_TILE_ASPECT_SHIFT;
 717
 718     if (bo->rws->gen >= DRV_SI && !md->scanout)
 719         args.tiling_flags |= RADEON_TILING_R600_NO_SCANOUT;
 720
 721     args.handle = bo->handle;
 722     args.pitch = md->stride;
 723
 724     drmCommandWriteRead(bo->rws->fd,
 725                         DRM_RADEON_GEM_SET_TILING,
 726                         &args,
 727                         sizeof(args));
 728 }
 729
 730 static struct pb_buffer *
 731 radeon_winsys_bo_create(struct radeon_winsys *rws,
 732                         uint64_t size,
 733                         unsigned alignment,
 734                         enum radeon_bo_domain domain,
 735                         enum radeon_bo_flag flags)
 736 {
 737     struct radeon_drm_winsys *ws = radeon_drm_winsys(rws);
 738     struct radeon_bo *bo;
 739     unsigned usage = 0, pb_cache_bucket;
 740
 741     /* Only 32-bit sizes are supported. */
 742     if (size > UINT_MAX)
 743         return NULL;
 744
 745     /* Align size to page size. This is the minimum alignment for normal
 746      * BOs. Aligning this here helps the cached bufmgr. Especially small BOs,
 747      * like constant/uniform buffers, can benefit from better and more reuse.
 748      */
 749     size = align(size, ws->info.gart_page_size);
 750     alignment = align(alignment, ws->info.gart_page_size);
 751
 752     /* Only set one usage bit each for domains and flags, or the cache manager
 753      * might consider different sets of domains / flags compatible
 754      */
 755     if (domain == RADEON_DOMAIN_VRAM_GTT)
 756         usage = 1 << 2;
 757     else
 758         usage = (unsigned)domain >> 1;
 759     assert(flags < sizeof(usage) * 8 - 3);
 760     usage |= 1 << (flags + 3);
 761
 762     /* Determine the pb_cache bucket for minimizing pb_cache misses. */
 763     pb_cache_bucket = 0;
 764     if (size <= 4096) /* small buffers */
 765        pb_cache_bucket += 1;
 766     if (domain & RADEON_DOMAIN_VRAM) /* VRAM or VRAM+GTT */
 767        pb_cache_bucket += 2;
 768     if (flags == RADEON_FLAG_GTT_WC) /* WC */
 769        pb_cache_bucket += 4;
 770     assert(pb_cache_bucket < ARRAY_SIZE(ws->bo_cache.buckets));
 771
 772     bo = radeon_bo(pb_cache_reclaim_buffer(&ws->bo_cache, size, alignment,
 773                                            usage, pb_cache_bucket));
 774     if (bo)
 775         return &bo->base;
 776
 777     bo = radeon_create_bo(ws, size, alignment, usage, domain, flags,
 778                           pb_cache_bucket);
 779     if (!bo) {
 780         /* Clear the cache and try again. */
 781         pb_cache_release_all_buffers(&ws->bo_cache);
 782         bo = radeon_create_bo(ws, size, alignment, usage, domain, flags,
 783                               pb_cache_bucket);
 784         if (!bo)
 785             return NULL;
 786     }
 787
 788     bo->use_reusable_pool = true;
 789
 790     pipe_mutex_lock(ws->bo_handles_mutex);
 791     util_hash_table_set(ws->bo_handles, (void*)(uintptr_t)bo->handle, bo);
 792     pipe_mutex_unlock(ws->bo_handles_mutex);
 793
 794     return &bo->base;
 795 }
 796
 797 static struct pb_buffer *radeon_winsys_bo_from_ptr(struct radeon_winsys *rws,
 798                                                    void *pointer, uint64_t size)
 799 {
 800     struct radeon_drm_winsys *ws = radeon_drm_winsys(rws);
 801     struct drm_radeon_gem_userptr args;
 802     struct radeon_bo *bo;
 803     int r;
 804
 805     bo = CALLOC_STRUCT(radeon_bo);
 806     if (!bo)
 807         return NULL;
 808
 809     memset(&args, 0, sizeof(args));
 810     args.addr = (uintptr_t)pointer;
 811     args.size = align(size, ws->info.gart_page_size);
 812     args.flags = RADEON_GEM_USERPTR_ANONONLY |
 813         RADEON_GEM_USERPTR_VALIDATE |
 814         RADEON_GEM_USERPTR_REGISTER;
 815     if (drmCommandWriteRead(ws->fd, DRM_RADEON_GEM_USERPTR,
 816                             &args, sizeof(args))) {
 817         FREE(bo);
 818         return NULL;
 819     }
 820
 821     pipe_mutex_lock(ws->bo_handles_mutex);
 822
 823     /* Initialize it. */
 824     pipe_reference_init(&bo->base.reference, 1);
 825     bo->handle = args.handle;
 826     bo->base.alignment = 0;
 827     bo->base.size = size;
 828     bo->base.vtbl = &radeon_bo_vtbl;
 829     bo->rws = ws;
 830     bo->user_ptr = pointer;
 831     bo->va = 0;
 832     bo->initial_domain = RADEON_DOMAIN_GTT;
 833     pipe_mutex_init(bo->map_mutex);
 834
 835     util_hash_table_set(ws->bo_handles, (void*)(uintptr_t)bo->handle, bo);
 836
 837     pipe_mutex_unlock(ws->bo_handles_mutex);
 838
 839     if (ws->info.has_virtual_memory) {
 840         struct drm_radeon_gem_va va;
 841
 842         bo->va = radeon_bomgr_find_va(ws, bo->base.size, 1 << 20);
 843
 844         va.handle = bo->handle;
 845         va.operation = RADEON_VA_MAP;
 846         va.vm_id = 0;
 847         va.offset = bo->va;
 848         va.flags = RADEON_VM_PAGE_READABLE |
 849                    RADEON_VM_PAGE_WRITEABLE |
 850                    RADEON_VM_PAGE_SNOOPED;
 851         va.offset = bo->va;
 852         r = drmCommandWriteRead(ws->fd, DRM_RADEON_GEM_VA, &va, sizeof(va));
 853         if (r && va.operation == RADEON_VA_RESULT_ERROR) {
 854             fprintf(stderr, "radeon: Failed to assign virtual address space\n");
 855             radeon_bo_destroy(&bo->base);
 856             return NULL;
 857         }
 858         pipe_mutex_lock(ws->bo_handles_mutex);
 859         if (va.operation == RADEON_VA_RESULT_VA_EXIST) {
 860             struct pb_buffer *b = &bo->base;
 861             struct radeon_bo *old_bo =
 862                 util_hash_table_get(ws->bo_vas, (void*)(uintptr_t)va.offset);
 863
 864             pipe_mutex_unlock(ws->bo_handles_mutex);
 865             pb_reference(&b, &old_bo->base);
 866             return b;
 867         }
 868
 869         util_hash_table_set(ws->bo_vas, (void*)(uintptr_t)bo->va, bo);
 870         pipe_mutex_unlock(ws->bo_handles_mutex);
 871     }
 872
 873     ws->allocated_gtt += align(bo->base.size, ws->info.gart_page_size);
 874
 875     return (struct pb_buffer*)bo;
 876 }
 877
 878 static struct pb_buffer *radeon_winsys_bo_from_handle(struct radeon_winsys *rws,
 879                                                       struct winsys_handle *whandle,
 880                                                       unsigned *stride,
 881                                                       unsigned *offset)
 882 {
 883     struct radeon_drm_winsys *ws = radeon_drm_winsys(rws);
 884     struct radeon_bo *bo;
 885     int r;
 886     unsigned handle;
 887     uint64_t size = 0;
 888
 889     if (!offset && whandle->offset != 0) {
 890         fprintf(stderr, "attempt to import unsupported winsys offset %u\n",
 891                 whandle->offset);
 892         return NULL;
 893     }
 894
 895     /* We must maintain a list of pairs <handle, bo>, so that we always return
 896      * the same BO for one particular handle. If we didn't do that and created
 897      * more than one BO for the same handle and then relocated them in a CS,
 898      * we would hit a deadlock in the kernel.
 899      *
 900      * The list of pairs is guarded by a mutex, of course. */
 901     pipe_mutex_lock(ws->bo_handles_mutex);
 902
 903     if (whandle->type == DRM_API_HANDLE_TYPE_SHARED) {
 904         /* First check if there already is an existing bo for the handle. */
 905         bo = util_hash_table_get(ws->bo_names, (void*)(uintptr_t)whandle->handle);
 906     } else if (whandle->type == DRM_API_HANDLE_TYPE_FD) {
 907         /* We must first get the GEM handle, as fds are unreliable keys */
 908         r = drmPrimeFDToHandle(ws->fd, whandle->handle, &handle);
 909         if (r)
 910             goto fail;
 911         bo = util_hash_table_get(ws->bo_handles, (void*)(uintptr_t)handle);
 912     } else {
 913         /* Unknown handle type */
 914         goto fail;
 915     }
 916
 917     if (bo) {
 918         /* Increase the refcount. */
 919         struct pb_buffer *b = NULL;
 920         pb_reference(&b, &bo->base);
 921         goto done;
 922     }
 923
 924     /* There isn't, create a new one. */
 925     bo = CALLOC_STRUCT(radeon_bo);
 926     if (!bo) {
 927         goto fail;
 928     }
 929
 930     if (whandle->type == DRM_API_HANDLE_TYPE_SHARED) {
 931         struct drm_gem_open open_arg = {};
 932         memset(&open_arg, 0, sizeof(open_arg));
 933         /* Open the BO. */
 934         open_arg.name = whandle->handle;
 935         if (drmIoctl(ws->fd, DRM_IOCTL_GEM_OPEN, &open_arg)) {
 936             FREE(bo);
 937             goto fail;
 938         }
 939         handle = open_arg.handle;
 940         size = open_arg.size;
 941         bo->flink_name = whandle->handle;
 942     } else if (whandle->type == DRM_API_HANDLE_TYPE_FD) {
 943         size = lseek(whandle->handle, 0, SEEK_END);
 944         /*
 945          * Could check errno to determine whether the kernel is new enough, but
 946          * it doesn't really matter why this failed, just that it failed.
 947          */
 948         if (size == (off_t)-1) {
 949             FREE(bo);
 950             goto fail;
 951         }
 952         lseek(whandle->handle, 0, SEEK_SET);
 953     }
 954
 955     bo->handle = handle;
 956
 957     /* Initialize it. */
 958     pipe_reference_init(&bo->base.reference, 1);
 959     bo->base.alignment = 0;
 960     bo->base.size = (unsigned) size;
 961     bo->base.vtbl = &radeon_bo_vtbl;
 962     bo->rws = ws;
 963     bo->va = 0;
 964     pipe_mutex_init(bo->map_mutex);
 965
 966     if (bo->flink_name)
 967         util_hash_table_set(ws->bo_names, (void*)(uintptr_t)bo->flink_name, bo);
 968
 969     util_hash_table_set(ws->bo_handles, (void*)(uintptr_t)bo->handle, bo);
 970
 971 done:
 972     pipe_mutex_unlock(ws->bo_handles_mutex);
 973
 974     if (stride)
 975         *stride = whandle->stride;
 976     if (offset)
 977         *offset = whandle->offset;
 978
 979     if (ws->info.has_virtual_memory && !bo->va) {
 980         struct drm_radeon_gem_va va;
 981
 982         bo->va = radeon_bomgr_find_va(ws, bo->base.size, 1 << 20);
 983
 984         va.handle = bo->handle;
 985         va.operation = RADEON_VA_MAP;
 986         va.vm_id = 0;
 987         va.offset = bo->va;
 988         va.flags = RADEON_VM_PAGE_READABLE |
 989                    RADEON_VM_PAGE_WRITEABLE |
 990                    RADEON_VM_PAGE_SNOOPED;
 991         va.offset = bo->va;
 992         r = drmCommandWriteRead(ws->fd, DRM_RADEON_GEM_VA, &va, sizeof(va));
 993         if (r && va.operation == RADEON_VA_RESULT_ERROR) {
 994             fprintf(stderr, "radeon: Failed to assign virtual address space\n");
 995             radeon_bo_destroy(&bo->base);
 996             return NULL;
 997         }
 998         pipe_mutex_lock(ws->bo_handles_mutex);
 999         if (va.operation == RADEON_VA_RESULT_VA_EXIST) {
1000             struct pb_buffer *b = &bo->base;
1001             struct radeon_bo *old_bo =
1002                 util_hash_table_get(ws->bo_vas, (void*)(uintptr_t)va.offset);
1003
1004             pipe_mutex_unlock(ws->bo_handles_mutex);
1005             pb_reference(&b, &old_bo->base);
1006             return b;
1007         }
1008
1009         util_hash_table_set(ws->bo_vas, (void*)(uintptr_t)bo->va, bo);
1010         pipe_mutex_unlock(ws->bo_handles_mutex);
1011     }
1012
1013     bo->initial_domain = radeon_bo_get_initial_domain((void*)bo);
1014
1015     if (bo->initial_domain & RADEON_DOMAIN_VRAM)
1016         ws->allocated_vram += align(bo->base.size, ws->info.gart_page_size);
1017     else if (bo->initial_domain & RADEON_DOMAIN_GTT)
1018         ws->allocated_gtt += align(bo->base.size, ws->info.gart_page_size);
1019
1020     return (struct pb_buffer*)bo;
1021
1022 fail:
1023     pipe_mutex_unlock(ws->bo_handles_mutex);
1024     return NULL;
1025 }
1026
1027 static bool radeon_winsys_bo_get_handle(struct pb_buffer *buffer,
1028                                         unsigned stride, unsigned offset,
1029                                         unsigned slice_size,
1030                                         struct winsys_handle *whandle)
1031 {
1032     struct drm_gem_flink flink;
1033     struct radeon_bo *bo = radeon_bo(buffer);
1034     struct radeon_drm_winsys *ws = bo->rws;
1035
1036     memset(&flink, 0, sizeof(flink));
1037
1038     bo->use_reusable_pool = false;
1039
1040     if (whandle->type == DRM_API_HANDLE_TYPE_SHARED) {
1041         if (!bo->flink_name) {
1042             flink.handle = bo->handle;
1043
1044             if (ioctl(ws->fd, DRM_IOCTL_GEM_FLINK, &flink)) {
1045                 return false;
1046             }
1047
1048             bo->flink_name = flink.name;
1049
1050             pipe_mutex_lock(ws->bo_handles_mutex);
1051             util_hash_table_set(ws->bo_names, (void*)(uintptr_t)bo->flink_name, bo);
1052             pipe_mutex_unlock(ws->bo_handles_mutex);
1053         }
1054         whandle->handle = bo->flink_name;
1055     } else if (whandle->type == DRM_API_HANDLE_TYPE_KMS) {
1056         whandle->handle = bo->handle;
1057     } else if (whandle->type == DRM_API_HANDLE_TYPE_FD) {
1058         if (drmPrimeHandleToFD(ws->fd, bo->handle, DRM_CLOEXEC, (int*)&whandle->handle))
1059             return false;
1060     }
1061
1062     whandle->stride = stride;
1063     whandle->offset = offset;
1064     whandle->offset += slice_size * whandle->layer;
1065
1066     return true;
1067 }
1068
1069 static bool radeon_winsys_bo_is_user_ptr(struct pb_buffer *buf)
1070 {
1071    return ((struct radeon_bo*)buf)->user_ptr != NULL;
1072 }
1073
1074 static uint64_t radeon_winsys_bo_va(struct pb_buffer *buf)
1075 {
1076     return ((struct radeon_bo*)buf)->va;
1077 }
1078
1079 void radeon_drm_bo_init_functions(struct radeon_drm_winsys *ws)
1080 {
1081     ws->base.buffer_set_metadata = radeon_bo_set_metadata;
1082     ws->base.buffer_get_metadata = radeon_bo_get_metadata;
1083     ws->base.buffer_map = radeon_bo_map;
1084     ws->base.buffer_unmap = radeon_bo_unmap;
1085     ws->base.buffer_wait = radeon_bo_wait;
1086     ws->base.buffer_create = radeon_winsys_bo_create;
1087     ws->base.buffer_from_handle = radeon_winsys_bo_from_handle;
1088     ws->base.buffer_from_ptr = radeon_winsys_bo_from_ptr;
1089     ws->base.buffer_is_user_ptr = radeon_winsys_bo_is_user_ptr;
1090     ws->base.buffer_get_handle = radeon_winsys_bo_get_handle;
1091     ws->base.buffer_get_virtual_address = radeon_winsys_bo_va;
1092     ws->base.buffer_get_initial_domain = radeon_bo_get_initial_domain;
1093 }