src/gallium/winsys/radeon/drm/radeon_drm_bo.c

   1 /*
   2  * Copyright © 2011 Marek Olšák <maraeo@gmail.com>
   3  * All Rights Reserved.
   4  *
   5  * Permission is hereby granted, free of charge, to any person obtaining
   6  * a copy of this software and associated documentation files (the
   7  * "Software"), to deal in the Software without restriction, including
   8  * without limitation the rights to use, copy, modify, merge, publish,
   9  * distribute, sub license, and/or sell copies of the Software, and to
  10  * permit persons to whom the Software is furnished to do so, subject to
  11  * the following conditions:
  12  *
  13  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
  14  * EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES
  15  * OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
  16  * NON-INFRINGEMENT. IN NO EVENT SHALL THE COPYRIGHT HOLDERS, AUTHORS
  17  * AND/OR ITS SUPPLIERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
  18  * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE,
  19  * ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE
  20  * USE OR OTHER DEALINGS IN THE SOFTWARE.
  21  *
  22  * The above copyright notice and this permission notice (including the
  23  * next paragraph) shall be included in all copies or substantial portions
  24  * of the Software.
  25  */
  26
  27 #include "radeon_drm_cs.h"
  28
  29 #include "util/u_hash_table.h"
  30 #include "util/u_memory.h"
  31 #include "util/simple_list.h"
  32 #include "os/os_thread.h"
  33 #include "os/os_mman.h"
  34 #include "os/os_time.h"
  35
  36 #include "state_tracker/drm_driver.h"
  37
  38 #include <sys/ioctl.h>
  39 #include <xf86drm.h>
  40 #include <errno.h>
  41 #include <fcntl.h>
  42 #include <stdio.h>
  43 #include <inttypes.h>
  44
  45 static inline struct radeon_bo *radeon_bo(struct pb_buffer *bo)
  46 {
  47     return (struct radeon_bo *)bo;
  48 }
  49
  50 struct radeon_bo_va_hole {
  51     struct list_head list;
  52     uint64_t         offset;
  53     uint64_t         size;
  54 };
  55
  56 static bool radeon_bo_is_busy(struct radeon_bo *bo)
  57 {
  58     struct drm_radeon_gem_busy args = {0};
  59
  60     args.handle = bo->handle;
  61     return drmCommandWriteRead(bo->rws->fd, DRM_RADEON_GEM_BUSY,
  62                                &args, sizeof(args)) != 0;
  63 }
  64
  65 static void radeon_bo_wait_idle(struct radeon_bo *bo)
  66 {
  67     struct drm_radeon_gem_wait_idle args = {0};
  68
  69     args.handle = bo->handle;
  70     while (drmCommandWrite(bo->rws->fd, DRM_RADEON_GEM_WAIT_IDLE,
  71                            &args, sizeof(args)) == -EBUSY);
  72 }
  73
  74 static bool radeon_bo_wait(struct pb_buffer *_buf, uint64_t timeout,
  75                            enum radeon_bo_usage usage)
  76 {
  77     struct radeon_bo *bo = radeon_bo(_buf);
  78     int64_t abs_timeout;
  79
  80     /* No timeout. Just query. */
  81     if (timeout == 0)
  82         return !bo->num_active_ioctls && !radeon_bo_is_busy(bo);
  83
  84     abs_timeout = os_time_get_absolute_timeout(timeout);
  85
  86     /* Wait if any ioctl is being submitted with this buffer. */
  87     if (!os_wait_until_zero_abs_timeout(&bo->num_active_ioctls, abs_timeout))
  88         return false;
  89
  90     /* Infinite timeout. */
  91     if (abs_timeout == PIPE_TIMEOUT_INFINITE) {
  92         radeon_bo_wait_idle(bo);
  93         return true;
  94     }
  95
  96     /* Other timeouts need to be emulated with a loop. */
  97     while (radeon_bo_is_busy(bo)) {
  98        if (os_time_get_nano() >= abs_timeout)
  99           return false;
 100        os_time_sleep(10);
 101     }
 102
 103     return true;
 104 }
 105
 106 static enum radeon_bo_domain get_valid_domain(enum radeon_bo_domain domain)
 107 {
 108     /* Zero domains the driver doesn't understand. */
 109     domain &= RADEON_DOMAIN_VRAM_GTT;
 110
 111     /* If no domain is set, we must set something... */
 112     if (!domain)
 113         domain = RADEON_DOMAIN_VRAM_GTT;
 114
 115     return domain;
 116 }
 117
 118 static enum radeon_bo_domain radeon_bo_get_initial_domain(
 119                 struct pb_buffer *buf)
 120 {
 121     struct radeon_bo *bo = (struct radeon_bo*)buf;
 122     struct drm_radeon_gem_op args;
 123
 124     if (bo->rws->info.drm_minor < 38)
 125         return RADEON_DOMAIN_VRAM_GTT;
 126
 127     memset(&args, 0, sizeof(args));
 128     args.handle = bo->handle;
 129     args.op = RADEON_GEM_OP_GET_INITIAL_DOMAIN;
 130
 131     drmCommandWriteRead(bo->rws->fd, DRM_RADEON_GEM_OP,
 132                         &args, sizeof(args));
 133
 134     /* GEM domains and winsys domains are defined the same. */
 135     return get_valid_domain(args.value);
 136 }
 137
 138 static uint64_t radeon_bomgr_find_va(struct radeon_drm_winsys *rws,
 139                                      uint64_t size, uint64_t alignment)
 140 {
 141     struct radeon_bo_va_hole *hole, *n;
 142     uint64_t offset = 0, waste = 0;
 143
 144     /* All VM address space holes will implicitly start aligned to the
 145      * size alignment, so we don't need to sanitize the alignment here
 146      */
 147     size = align(size, rws->info.gart_page_size);
 148
 149     pipe_mutex_lock(rws->bo_va_mutex);
 150     /* first look for a hole */
 151     LIST_FOR_EACH_ENTRY_SAFE(hole, n, &rws->va_holes, list) {
 152         offset = hole->offset;
 153         waste = offset % alignment;
 154         waste = waste ? alignment - waste : 0;
 155         offset += waste;
 156         if (offset >= (hole->offset + hole->size)) {
 157             continue;
 158         }
 159         if (!waste && hole->size == size) {
 160             offset = hole->offset;
 161             list_del(&hole->list);
 162             FREE(hole);
 163             pipe_mutex_unlock(rws->bo_va_mutex);
 164             return offset;
 165         }
 166         if ((hole->size - waste) > size) {
 167             if (waste) {
 168                 n = CALLOC_STRUCT(radeon_bo_va_hole);
 169                 n->size = waste;
 170                 n->offset = hole->offset;
 171                 list_add(&n->list, &hole->list);
 172             }
 173             hole->size -= (size + waste);
 174             hole->offset += size + waste;
 175             pipe_mutex_unlock(rws->bo_va_mutex);
 176             return offset;
 177         }
 178         if ((hole->size - waste) == size) {
 179             hole->size = waste;
 180             pipe_mutex_unlock(rws->bo_va_mutex);
 181             return offset;
 182         }
 183     }
 184
 185     offset = rws->va_offset;
 186     waste = offset % alignment;
 187     waste = waste ? alignment - waste : 0;
 188     if (waste) {
 189         n = CALLOC_STRUCT(radeon_bo_va_hole);
 190         n->size = waste;
 191         n->offset = offset;
 192         list_add(&n->list, &rws->va_holes);
 193     }
 194     offset += waste;
 195     rws->va_offset += size + waste;
 196     pipe_mutex_unlock(rws->bo_va_mutex);
 197     return offset;
 198 }
 199
 200 static void radeon_bomgr_free_va(struct radeon_drm_winsys *rws,
 201                                  uint64_t va, uint64_t size)
 202 {
 203     struct radeon_bo_va_hole *hole;
 204
 205     size = align(size, rws->info.gart_page_size);
 206
 207     pipe_mutex_lock(rws->bo_va_mutex);
 208     if ((va + size) == rws->va_offset) {
 209         rws->va_offset = va;
 210         /* Delete uppermost hole if it reaches the new top */
 211         if (!LIST_IS_EMPTY(&rws->va_holes)) {
 212             hole = container_of(rws->va_holes.next, hole, list);
 213             if ((hole->offset + hole->size) == va) {
 214                 rws->va_offset = hole->offset;
 215                 list_del(&hole->list);
 216                 FREE(hole);
 217             }
 218         }
 219     } else {
 220         struct radeon_bo_va_hole *next;
 221
 222         hole = container_of(&rws->va_holes, hole, list);
 223         LIST_FOR_EACH_ENTRY(next, &rws->va_holes, list) {
 224             if (next->offset < va)
 225                 break;
 226             hole = next;
 227         }
 228
 229         if (&hole->list != &rws->va_holes) {
 230             /* Grow upper hole if it's adjacent */
 231             if (hole->offset == (va + size)) {
 232                 hole->offset = va;
 233                 hole->size += size;
 234                 /* Merge lower hole if it's adjacent */
 235                 if (next != hole && &next->list != &rws->va_holes &&
 236                     (next->offset + next->size) == va) {
 237                     next->size += hole->size;
 238                     list_del(&hole->list);
 239                     FREE(hole);
 240                 }
 241                 goto out;
 242             }
 243         }
 244
 245         /* Grow lower hole if it's adjacent */
 246         if (next != hole && &next->list != &rws->va_holes &&
 247             (next->offset + next->size) == va) {
 248             next->size += size;
 249             goto out;
 250         }
 251
 252         /* FIXME on allocation failure we just lose virtual address space
 253          * maybe print a warning
 254          */
 255         next = CALLOC_STRUCT(radeon_bo_va_hole);
 256         if (next) {
 257             next->size = size;
 258             next->offset = va;
 259             list_add(&next->list, &hole->list);
 260         }
 261     }
 262 out:
 263     pipe_mutex_unlock(rws->bo_va_mutex);
 264 }
 265
 266 void radeon_bo_destroy(struct pb_buffer *_buf)
 267 {
 268     struct radeon_bo *bo = radeon_bo(_buf);
 269     struct radeon_drm_winsys *rws = bo->rws;
 270     struct drm_gem_close args;
 271
 272     memset(&args, 0, sizeof(args));
 273
 274     pipe_mutex_lock(rws->bo_handles_mutex);
 275     util_hash_table_remove(rws->bo_handles, (void*)(uintptr_t)bo->handle);
 276     if (bo->flink_name) {
 277         util_hash_table_remove(rws->bo_names,
 278                                (void*)(uintptr_t)bo->flink_name);
 279     }
 280     pipe_mutex_unlock(rws->bo_handles_mutex);
 281
 282     if (bo->ptr)
 283         os_munmap(bo->ptr, bo->base.size);
 284
 285     if (rws->info.has_virtual_memory) {
 286         if (rws->va_unmap_working) {
 287             struct drm_radeon_gem_va va;
 288
 289             va.handle = bo->handle;
 290             va.vm_id = 0;
 291             va.operation = RADEON_VA_UNMAP;
 292             va.flags = RADEON_VM_PAGE_READABLE |
 293                        RADEON_VM_PAGE_WRITEABLE |
 294                        RADEON_VM_PAGE_SNOOPED;
 295             va.offset = bo->va;
 296
 297             if (drmCommandWriteRead(rws->fd, DRM_RADEON_GEM_VA, &va,
 298                                     sizeof(va)) != 0 &&
 299                 va.operation == RADEON_VA_RESULT_ERROR) {
 300                 fprintf(stderr, "radeon: Failed to deallocate virtual address for buffer:\n");
 301                 fprintf(stderr, "radeon:    size      : %"PRIu64" bytes\n", bo->base.size);
 302                 fprintf(stderr, "radeon:    va        : 0x%"PRIx64"\n", bo->va);
 303             }
 304         }
 305
 306         radeon_bomgr_free_va(rws, bo->va, bo->base.size);
 307     }
 308
 309     /* Close object. */
 310     args.handle = bo->handle;
 311     drmIoctl(rws->fd, DRM_IOCTL_GEM_CLOSE, &args);
 312
 313     pipe_mutex_destroy(bo->map_mutex);
 314
 315     if (bo->initial_domain & RADEON_DOMAIN_VRAM)
 316         rws->allocated_vram -= align(bo->base.size, rws->info.gart_page_size);
 317     else if (bo->initial_domain & RADEON_DOMAIN_GTT)
 318         rws->allocated_gtt -= align(bo->base.size, rws->info.gart_page_size);
 319
 320     if (bo->map_count >= 1) {
 321         if (bo->initial_domain & RADEON_DOMAIN_VRAM)
 322             bo->rws->mapped_vram -= bo->base.size;
 323         else
 324             bo->rws->mapped_gtt -= bo->base.size;
 325     }
 326
 327     FREE(bo);
 328 }
 329
 330 static void radeon_bo_destroy_or_cache(struct pb_buffer *_buf)
 331 {
 332    struct radeon_bo *bo = radeon_bo(_buf);
 333
 334    if (bo->use_reusable_pool)
 335       pb_cache_add_buffer(&bo->cache_entry);
 336    else
 337       radeon_bo_destroy(_buf);
 338 }
 339
 340 void *radeon_bo_do_map(struct radeon_bo *bo)
 341 {
 342     struct drm_radeon_gem_mmap args = {0};
 343     void *ptr;
 344
 345     /* If the buffer is created from user memory, return the user pointer. */
 346     if (bo->user_ptr)
 347         return bo->user_ptr;
 348
 349     /* Map the buffer. */
 350     pipe_mutex_lock(bo->map_mutex);
 351     /* Return the pointer if it's already mapped. */
 352     if (bo->ptr) {
 353         bo->map_count++;
 354         pipe_mutex_unlock(bo->map_mutex);
 355         return bo->ptr;
 356     }
 357     args.handle = bo->handle;
 358     args.offset = 0;
 359     args.size = (uint64_t)bo->base.size;
 360     if (drmCommandWriteRead(bo->rws->fd,
 361                             DRM_RADEON_GEM_MMAP,
 362                             &args,
 363                             sizeof(args))) {
 364         pipe_mutex_unlock(bo->map_mutex);
 365         fprintf(stderr, "radeon: gem_mmap failed: %p 0x%08X\n",
 366                 bo, bo->handle);
 367         return NULL;
 368     }
 369
 370     ptr = os_mmap(0, args.size, PROT_READ|PROT_WRITE, MAP_SHARED,
 371                bo->rws->fd, args.addr_ptr);
 372     if (ptr == MAP_FAILED) {
 373         /* Clear the cache and try again. */
 374         pb_cache_release_all_buffers(&bo->rws->bo_cache);
 375
 376         ptr = os_mmap(0, args.size, PROT_READ|PROT_WRITE, MAP_SHARED,
 377                       bo->rws->fd, args.addr_ptr);
 378         if (ptr == MAP_FAILED) {
 379             pipe_mutex_unlock(bo->map_mutex);
 380             fprintf(stderr, "radeon: mmap failed, errno: %i\n", errno);
 381             return NULL;
 382         }
 383     }
 384     bo->ptr = ptr;
 385     bo->map_count = 1;
 386
 387     if (bo->initial_domain & RADEON_DOMAIN_VRAM)
 388        bo->rws->mapped_vram += bo->base.size;
 389     else
 390        bo->rws->mapped_gtt += bo->base.size;
 391
 392     pipe_mutex_unlock(bo->map_mutex);
 393     return bo->ptr;
 394 }
 395
 396 static void *radeon_bo_map(struct pb_buffer *buf,
 397                            struct radeon_winsys_cs *rcs,
 398                            enum pipe_transfer_usage usage)
 399 {
 400     struct radeon_bo *bo = (struct radeon_bo*)buf;
 401     struct radeon_drm_cs *cs = (struct radeon_drm_cs*)rcs;
 402
 403     /* If it's not unsynchronized bo_map, flush CS if needed and then wait. */
 404     if (!(usage & PIPE_TRANSFER_UNSYNCHRONIZED)) {
 405         /* DONTBLOCK doesn't make sense with UNSYNCHRONIZED. */
 406         if (usage & PIPE_TRANSFER_DONTBLOCK) {
 407             if (!(usage & PIPE_TRANSFER_WRITE)) {
 408                 /* Mapping for read.
 409                  *
 410                  * Since we are mapping for read, we don't need to wait
 411                  * if the GPU is using the buffer for read too
 412                  * (neither one is changing it).
 413                  *
 414                  * Only check whether the buffer is being used for write. */
 415                 if (cs && radeon_bo_is_referenced_by_cs_for_write(cs, bo)) {
 416                     cs->flush_cs(cs->flush_data, RADEON_FLUSH_ASYNC, NULL);
 417                     return NULL;
 418                 }
 419
 420                 if (!radeon_bo_wait((struct pb_buffer*)bo, 0,
 421                                     RADEON_USAGE_WRITE)) {
 422                     return NULL;
 423                 }
 424             } else {
 425                 if (cs && radeon_bo_is_referenced_by_cs(cs, bo)) {
 426                     cs->flush_cs(cs->flush_data, RADEON_FLUSH_ASYNC, NULL);
 427                     return NULL;
 428                 }
 429
 430                 if (!radeon_bo_wait((struct pb_buffer*)bo, 0,
 431                                     RADEON_USAGE_READWRITE)) {
 432                     return NULL;
 433                 }
 434             }
 435         } else {
 436             uint64_t time = os_time_get_nano();
 437
 438             if (!(usage & PIPE_TRANSFER_WRITE)) {
 439                 /* Mapping for read.
 440                  *
 441                  * Since we are mapping for read, we don't need to wait
 442                  * if the GPU is using the buffer for read too
 443                  * (neither one is changing it).
 444                  *
 445                  * Only check whether the buffer is being used for write. */
 446                 if (cs && radeon_bo_is_referenced_by_cs_for_write(cs, bo)) {
 447                     cs->flush_cs(cs->flush_data, 0, NULL);
 448                 }
 449                 radeon_bo_wait((struct pb_buffer*)bo, PIPE_TIMEOUT_INFINITE,
 450                                RADEON_USAGE_WRITE);
 451             } else {
 452                 /* Mapping for write. */
 453                 if (cs) {
 454                     if (radeon_bo_is_referenced_by_cs(cs, bo)) {
 455                         cs->flush_cs(cs->flush_data, 0, NULL);
 456                     } else {
 457                         /* Try to avoid busy-waiting in radeon_bo_wait. */
 458                         if (p_atomic_read(&bo->num_active_ioctls))
 459                             radeon_drm_cs_sync_flush(rcs);
 460                     }
 461                 }
 462
 463                 radeon_bo_wait((struct pb_buffer*)bo, PIPE_TIMEOUT_INFINITE,
 464                                RADEON_USAGE_READWRITE);
 465             }
 466
 467             bo->rws->buffer_wait_time += os_time_get_nano() - time;
 468         }
 469     }
 470
 471     return radeon_bo_do_map(bo);
 472 }
 473
 474 static void radeon_bo_unmap(struct pb_buffer *_buf)
 475 {
 476     struct radeon_bo *bo = (struct radeon_bo*)_buf;
 477
 478     if (bo->user_ptr)
 479         return;
 480
 481     pipe_mutex_lock(bo->map_mutex);
 482     if (!bo->ptr) {
 483         pipe_mutex_unlock(bo->map_mutex);
 484         return; /* it's not been mapped */
 485     }
 486
 487     assert(bo->map_count);
 488     if (--bo->map_count) {
 489         pipe_mutex_unlock(bo->map_mutex);
 490         return; /* it's been mapped multiple times */
 491     }
 492
 493     os_munmap(bo->ptr, bo->base.size);
 494     bo->ptr = NULL;
 495
 496     if (bo->initial_domain & RADEON_DOMAIN_VRAM)
 497        bo->rws->mapped_vram -= bo->base.size;
 498     else
 499        bo->rws->mapped_gtt -= bo->base.size;
 500
 501     pipe_mutex_unlock(bo->map_mutex);
 502 }
 503
 504 static const struct pb_vtbl radeon_bo_vtbl = {
 505     radeon_bo_destroy_or_cache
 506     /* other functions are never called */
 507 };
 508
 509 #ifndef RADEON_GEM_GTT_WC
 510 #define RADEON_GEM_GTT_WC               (1 << 2)
 511 #endif
 512 #ifndef RADEON_GEM_CPU_ACCESS
 513 /* BO is expected to be accessed by the CPU */
 514 #define RADEON_GEM_CPU_ACCESS           (1 << 3)
 515 #endif
 516 #ifndef RADEON_GEM_NO_CPU_ACCESS
 517 /* CPU access is not expected to work for this BO */
 518 #define RADEON_GEM_NO_CPU_ACCESS        (1 << 4)
 519 #endif
 520
 521 static struct radeon_bo *radeon_create_bo(struct radeon_drm_winsys *rws,
 522                                           unsigned size, unsigned alignment,
 523                                           unsigned usage,
 524                                           unsigned initial_domains,
 525                                           unsigned flags,
 526                                           unsigned pb_cache_bucket)
 527 {
 528     struct radeon_bo *bo;
 529     struct drm_radeon_gem_create args;
 530     int r;
 531
 532     memset(&args, 0, sizeof(args));
 533
 534     assert(initial_domains);
 535     assert((initial_domains &
 536             ~(RADEON_GEM_DOMAIN_GTT | RADEON_GEM_DOMAIN_VRAM)) == 0);
 537
 538     args.size = size;
 539     args.alignment = alignment;
 540     args.initial_domain = initial_domains;
 541     args.flags = 0;
 542
 543     if (flags & RADEON_FLAG_GTT_WC)
 544         args.flags |= RADEON_GEM_GTT_WC;
 545     if (flags & RADEON_FLAG_CPU_ACCESS)
 546         args.flags |= RADEON_GEM_CPU_ACCESS;
 547     if (flags & RADEON_FLAG_NO_CPU_ACCESS)
 548         args.flags |= RADEON_GEM_NO_CPU_ACCESS;
 549
 550     if (drmCommandWriteRead(rws->fd, DRM_RADEON_GEM_CREATE,
 551                             &args, sizeof(args))) {
 552         fprintf(stderr, "radeon: Failed to allocate a buffer:\n");
 553         fprintf(stderr, "radeon:    size      : %u bytes\n", size);
 554         fprintf(stderr, "radeon:    alignment : %u bytes\n", alignment);
 555         fprintf(stderr, "radeon:    domains   : %u\n", args.initial_domain);
 556         fprintf(stderr, "radeon:    flags     : %u\n", args.flags);
 557         return NULL;
 558     }
 559
 560     bo = CALLOC_STRUCT(radeon_bo);
 561     if (!bo)
 562         return NULL;
 563
 564     pipe_reference_init(&bo->base.reference, 1);
 565     bo->base.alignment = alignment;
 566     bo->base.usage = usage;
 567     bo->base.size = size;
 568     bo->base.vtbl = &radeon_bo_vtbl;
 569     bo->rws = rws;
 570     bo->handle = args.handle;
 571     bo->va = 0;
 572     bo->initial_domain = initial_domains;
 573     pipe_mutex_init(bo->map_mutex);
 574     pb_cache_init_entry(&rws->bo_cache, &bo->cache_entry, &bo->base,
 575                         pb_cache_bucket);
 576
 577     if (rws->info.has_virtual_memory) {
 578         struct drm_radeon_gem_va va;
 579         unsigned va_gap_size;
 580
 581         va_gap_size = rws->check_vm ? MAX2(4 * alignment, 64 * 1024) : 0;
 582         bo->va = radeon_bomgr_find_va(rws, size + va_gap_size, alignment);
 583
 584         va.handle = bo->handle;
 585         va.vm_id = 0;
 586         va.operation = RADEON_VA_MAP;
 587         va.flags = RADEON_VM_PAGE_READABLE |
 588                    RADEON_VM_PAGE_WRITEABLE |
 589                    RADEON_VM_PAGE_SNOOPED;
 590         va.offset = bo->va;
 591         r = drmCommandWriteRead(rws->fd, DRM_RADEON_GEM_VA, &va, sizeof(va));
 592         if (r && va.operation == RADEON_VA_RESULT_ERROR) {
 593             fprintf(stderr, "radeon: Failed to allocate virtual address for buffer:\n");
 594             fprintf(stderr, "radeon:    size      : %d bytes\n", size);
 595             fprintf(stderr, "radeon:    alignment : %d bytes\n", alignment);
 596             fprintf(stderr, "radeon:    domains   : %d\n", args.initial_domain);
 597             fprintf(stderr, "radeon:    va        : 0x%016llx\n", (unsigned long long)bo->va);
 598             radeon_bo_destroy(&bo->base);
 599             return NULL;
 600         }
 601         pipe_mutex_lock(rws->bo_handles_mutex);
 602         if (va.operation == RADEON_VA_RESULT_VA_EXIST) {
 603             struct pb_buffer *b = &bo->base;
 604             struct radeon_bo *old_bo =
 605                 util_hash_table_get(rws->bo_vas, (void*)(uintptr_t)va.offset);
 606
 607             pipe_mutex_unlock(rws->bo_handles_mutex);
 608             pb_reference(&b, &old_bo->base);
 609             return radeon_bo(b);
 610         }
 611
 612         util_hash_table_set(rws->bo_vas, (void*)(uintptr_t)bo->va, bo);
 613         pipe_mutex_unlock(rws->bo_handles_mutex);
 614     }
 615
 616     if (initial_domains & RADEON_DOMAIN_VRAM)
 617         rws->allocated_vram += align(size, rws->info.gart_page_size);
 618     else if (initial_domains & RADEON_DOMAIN_GTT)
 619         rws->allocated_gtt += align(size, rws->info.gart_page_size);
 620
 621     return bo;
 622 }
 623
 624 bool radeon_bo_can_reclaim(struct pb_buffer *_buf)
 625 {
 626    struct radeon_bo *bo = radeon_bo(_buf);
 627
 628    if (radeon_bo_is_referenced_by_any_cs(bo))
 629       return false;
 630
 631    return radeon_bo_wait(_buf, 0, RADEON_USAGE_READWRITE);
 632 }
 633
 634 static unsigned eg_tile_split(unsigned tile_split)
 635 {
 636     switch (tile_split) {
 637     case 0:     tile_split = 64;    break;
 638     case 1:     tile_split = 128;   break;
 639     case 2:     tile_split = 256;   break;
 640     case 3:     tile_split = 512;   break;
 641     default:
 642     case 4:     tile_split = 1024;  break;
 643     case 5:     tile_split = 2048;  break;
 644     case 6:     tile_split = 4096;  break;
 645     }
 646     return tile_split;
 647 }
 648
 649 static unsigned eg_tile_split_rev(unsigned eg_tile_split)
 650 {
 651     switch (eg_tile_split) {
 652     case 64:    return 0;
 653     case 128:   return 1;
 654     case 256:   return 2;
 655     case 512:   return 3;
 656     default:
 657     case 1024:  return 4;
 658     case 2048:  return 5;
 659     case 4096:  return 6;
 660     }
 661 }
 662
 663 static void radeon_bo_get_metadata(struct pb_buffer *_buf,
 664                                    struct radeon_bo_metadata *md)
 665 {
 666     struct radeon_bo *bo = radeon_bo(_buf);
 667     struct drm_radeon_gem_set_tiling args;
 668
 669     memset(&args, 0, sizeof(args));
 670
 671     args.handle = bo->handle;
 672
 673     drmCommandWriteRead(bo->rws->fd,
 674                         DRM_RADEON_GEM_GET_TILING,
 675                         &args,
 676                         sizeof(args));
 677
 678     md->microtile = RADEON_LAYOUT_LINEAR;
 679     md->macrotile = RADEON_LAYOUT_LINEAR;
 680     if (args.tiling_flags & RADEON_TILING_MICRO)
 681         md->microtile = RADEON_LAYOUT_TILED;
 682     else if (args.tiling_flags & RADEON_TILING_MICRO_SQUARE)
 683         md->microtile = RADEON_LAYOUT_SQUARETILED;
 684
 685     if (args.tiling_flags & RADEON_TILING_MACRO)
 686         md->macrotile = RADEON_LAYOUT_TILED;
 687
 688     md->bankw = (args.tiling_flags >> RADEON_TILING_EG_BANKW_SHIFT) & RADEON_TILING_EG_BANKW_MASK;
 689     md->bankh = (args.tiling_flags >> RADEON_TILING_EG_BANKH_SHIFT) & RADEON_TILING_EG_BANKH_MASK;
 690     md->tile_split = (args.tiling_flags >> RADEON_TILING_EG_TILE_SPLIT_SHIFT) & RADEON_TILING_EG_TILE_SPLIT_MASK;
 691     md->mtilea = (args.tiling_flags >> RADEON_TILING_EG_MACRO_TILE_ASPECT_SHIFT) & RADEON_TILING_EG_MACRO_TILE_ASPECT_MASK;
 692     md->tile_split = eg_tile_split(md->tile_split);
 693     md->scanout = bo->rws->gen >= DRV_SI && !(args.tiling_flags & RADEON_TILING_R600_NO_SCANOUT);
 694 }
 695
 696 static void radeon_bo_set_metadata(struct pb_buffer *_buf,
 697                                    struct radeon_bo_metadata *md)
 698 {
 699     struct radeon_bo *bo = radeon_bo(_buf);
 700     struct drm_radeon_gem_set_tiling args;
 701
 702     memset(&args, 0, sizeof(args));
 703
 704     os_wait_until_zero(&bo->num_active_ioctls, PIPE_TIMEOUT_INFINITE);
 705
 706     if (md->microtile == RADEON_LAYOUT_TILED)
 707         args.tiling_flags |= RADEON_TILING_MICRO;
 708     else if (md->microtile == RADEON_LAYOUT_SQUARETILED)
 709         args.tiling_flags |= RADEON_TILING_MICRO_SQUARE;
 710
 711     if (md->macrotile == RADEON_LAYOUT_TILED)
 712         args.tiling_flags |= RADEON_TILING_MACRO;
 713
 714     args.tiling_flags |= (md->bankw & RADEON_TILING_EG_BANKW_MASK) <<
 715         RADEON_TILING_EG_BANKW_SHIFT;
 716     args.tiling_flags |= (md->bankh & RADEON_TILING_EG_BANKH_MASK) <<
 717         RADEON_TILING_EG_BANKH_SHIFT;
 718     if (md->tile_split) {
 719         args.tiling_flags |= (eg_tile_split_rev(md->tile_split) &
 720                               RADEON_TILING_EG_TILE_SPLIT_MASK) <<
 721             RADEON_TILING_EG_TILE_SPLIT_SHIFT;
 722     }
 723     args.tiling_flags |= (md->mtilea & RADEON_TILING_EG_MACRO_TILE_ASPECT_MASK) <<
 724         RADEON_TILING_EG_MACRO_TILE_ASPECT_SHIFT;
 725
 726     if (bo->rws->gen >= DRV_SI && !md->scanout)
 727         args.tiling_flags |= RADEON_TILING_R600_NO_SCANOUT;
 728
 729     args.handle = bo->handle;
 730     args.pitch = md->stride;
 731
 732     drmCommandWriteRead(bo->rws->fd,
 733                         DRM_RADEON_GEM_SET_TILING,
 734                         &args,
 735                         sizeof(args));
 736 }
 737
 738 static struct pb_buffer *
 739 radeon_winsys_bo_create(struct radeon_winsys *rws,
 740                         uint64_t size,
 741                         unsigned alignment,
 742                         enum radeon_bo_domain domain,
 743                         enum radeon_bo_flag flags)
 744 {
 745     struct radeon_drm_winsys *ws = radeon_drm_winsys(rws);
 746     struct radeon_bo *bo;
 747     unsigned usage = 0, pb_cache_bucket;
 748
 749     /* Only 32-bit sizes are supported. */
 750     if (size > UINT_MAX)
 751         return NULL;
 752
 753     /* Align size to page size. This is the minimum alignment for normal
 754      * BOs. Aligning this here helps the cached bufmgr. Especially small BOs,
 755      * like constant/uniform buffers, can benefit from better and more reuse.
 756      */
 757     size = align(size, ws->info.gart_page_size);
 758     alignment = align(alignment, ws->info.gart_page_size);
 759
 760     /* Only set one usage bit each for domains and flags, or the cache manager
 761      * might consider different sets of domains / flags compatible
 762      */
 763     if (domain == RADEON_DOMAIN_VRAM_GTT)
 764         usage = 1 << 2;
 765     else
 766         usage = (unsigned)domain >> 1;
 767     assert(flags < sizeof(usage) * 8 - 3);
 768     usage |= 1 << (flags + 3);
 769
 770     /* Determine the pb_cache bucket for minimizing pb_cache misses. */
 771     pb_cache_bucket = 0;
 772     if (size <= 4096) /* small buffers */
 773        pb_cache_bucket += 1;
 774     if (domain & RADEON_DOMAIN_VRAM) /* VRAM or VRAM+GTT */
 775        pb_cache_bucket += 2;
 776     if (flags == RADEON_FLAG_GTT_WC) /* WC */
 777        pb_cache_bucket += 4;
 778     assert(pb_cache_bucket < ARRAY_SIZE(ws->bo_cache.buckets));
 779
 780     bo = radeon_bo(pb_cache_reclaim_buffer(&ws->bo_cache, size, alignment,
 781                                            usage, pb_cache_bucket));
 782     if (bo)
 783         return &bo->base;
 784
 785     bo = radeon_create_bo(ws, size, alignment, usage, domain, flags,
 786                           pb_cache_bucket);
 787     if (!bo) {
 788         /* Clear the cache and try again. */
 789         pb_cache_release_all_buffers(&ws->bo_cache);
 790         bo = radeon_create_bo(ws, size, alignment, usage, domain, flags,
 791                               pb_cache_bucket);
 792         if (!bo)
 793             return NULL;
 794     }
 795
 796     bo->use_reusable_pool = true;
 797
 798     pipe_mutex_lock(ws->bo_handles_mutex);
 799     util_hash_table_set(ws->bo_handles, (void*)(uintptr_t)bo->handle, bo);
 800     pipe_mutex_unlock(ws->bo_handles_mutex);
 801
 802     return &bo->base;
 803 }
 804
 805 static struct pb_buffer *radeon_winsys_bo_from_ptr(struct radeon_winsys *rws,
 806                                                    void *pointer, uint64_t size)
 807 {
 808     struct radeon_drm_winsys *ws = radeon_drm_winsys(rws);
 809     struct drm_radeon_gem_userptr args;
 810     struct radeon_bo *bo;
 811     int r;
 812
 813     bo = CALLOC_STRUCT(radeon_bo);
 814     if (!bo)
 815         return NULL;
 816
 817     memset(&args, 0, sizeof(args));
 818     args.addr = (uintptr_t)pointer;
 819     args.size = align(size, ws->info.gart_page_size);
 820     args.flags = RADEON_GEM_USERPTR_ANONONLY |
 821         RADEON_GEM_USERPTR_VALIDATE |
 822         RADEON_GEM_USERPTR_REGISTER;
 823     if (drmCommandWriteRead(ws->fd, DRM_RADEON_GEM_USERPTR,
 824                             &args, sizeof(args))) {
 825         FREE(bo);
 826         return NULL;
 827     }
 828
 829     pipe_mutex_lock(ws->bo_handles_mutex);
 830
 831     /* Initialize it. */
 832     pipe_reference_init(&bo->base.reference, 1);
 833     bo->handle = args.handle;
 834     bo->base.alignment = 0;
 835     bo->base.size = size;
 836     bo->base.vtbl = &radeon_bo_vtbl;
 837     bo->rws = ws;
 838     bo->user_ptr = pointer;
 839     bo->va = 0;
 840     bo->initial_domain = RADEON_DOMAIN_GTT;
 841     pipe_mutex_init(bo->map_mutex);
 842
 843     util_hash_table_set(ws->bo_handles, (void*)(uintptr_t)bo->handle, bo);
 844
 845     pipe_mutex_unlock(ws->bo_handles_mutex);
 846
 847     if (ws->info.has_virtual_memory) {
 848         struct drm_radeon_gem_va va;
 849
 850         bo->va = radeon_bomgr_find_va(ws, bo->base.size, 1 << 20);
 851
 852         va.handle = bo->handle;
 853         va.operation = RADEON_VA_MAP;
 854         va.vm_id = 0;
 855         va.offset = bo->va;
 856         va.flags = RADEON_VM_PAGE_READABLE |
 857                    RADEON_VM_PAGE_WRITEABLE |
 858                    RADEON_VM_PAGE_SNOOPED;
 859         va.offset = bo->va;
 860         r = drmCommandWriteRead(ws->fd, DRM_RADEON_GEM_VA, &va, sizeof(va));
 861         if (r && va.operation == RADEON_VA_RESULT_ERROR) {
 862             fprintf(stderr, "radeon: Failed to assign virtual address space\n");
 863             radeon_bo_destroy(&bo->base);
 864             return NULL;
 865         }
 866         pipe_mutex_lock(ws->bo_handles_mutex);
 867         if (va.operation == RADEON_VA_RESULT_VA_EXIST) {
 868             struct pb_buffer *b = &bo->base;
 869             struct radeon_bo *old_bo =
 870                 util_hash_table_get(ws->bo_vas, (void*)(uintptr_t)va.offset);
 871
 872             pipe_mutex_unlock(ws->bo_handles_mutex);
 873             pb_reference(&b, &old_bo->base);
 874             return b;
 875         }
 876
 877         util_hash_table_set(ws->bo_vas, (void*)(uintptr_t)bo->va, bo);
 878         pipe_mutex_unlock(ws->bo_handles_mutex);
 879     }
 880
 881     ws->allocated_gtt += align(bo->base.size, ws->info.gart_page_size);
 882
 883     return (struct pb_buffer*)bo;
 884 }
 885
 886 static struct pb_buffer *radeon_winsys_bo_from_handle(struct radeon_winsys *rws,
 887                                                       struct winsys_handle *whandle,
 888                                                       unsigned *stride,
 889                                                       unsigned *offset)
 890 {
 891     struct radeon_drm_winsys *ws = radeon_drm_winsys(rws);
 892     struct radeon_bo *bo;
 893     int r;
 894     unsigned handle;
 895     uint64_t size = 0;
 896
 897     if (!offset && whandle->offset != 0) {
 898         fprintf(stderr, "attempt to import unsupported winsys offset %u\n",
 899                 whandle->offset);
 900         return NULL;
 901     }
 902
 903     /* We must maintain a list of pairs <handle, bo>, so that we always return
 904      * the same BO for one particular handle. If we didn't do that and created
 905      * more than one BO for the same handle and then relocated them in a CS,
 906      * we would hit a deadlock in the kernel.
 907      *
 908      * The list of pairs is guarded by a mutex, of course. */
 909     pipe_mutex_lock(ws->bo_handles_mutex);
 910
 911     if (whandle->type == DRM_API_HANDLE_TYPE_SHARED) {
 912         /* First check if there already is an existing bo for the handle. */
 913         bo = util_hash_table_get(ws->bo_names, (void*)(uintptr_t)whandle->handle);
 914     } else if (whandle->type == DRM_API_HANDLE_TYPE_FD) {
 915         /* We must first get the GEM handle, as fds are unreliable keys */
 916         r = drmPrimeFDToHandle(ws->fd, whandle->handle, &handle);
 917         if (r)
 918             goto fail;
 919         bo = util_hash_table_get(ws->bo_handles, (void*)(uintptr_t)handle);
 920     } else {
 921         /* Unknown handle type */
 922         goto fail;
 923     }
 924
 925     if (bo) {
 926         /* Increase the refcount. */
 927         struct pb_buffer *b = NULL;
 928         pb_reference(&b, &bo->base);
 929         goto done;
 930     }
 931
 932     /* There isn't, create a new one. */
 933     bo = CALLOC_STRUCT(radeon_bo);
 934     if (!bo) {
 935         goto fail;
 936     }
 937
 938     if (whandle->type == DRM_API_HANDLE_TYPE_SHARED) {
 939         struct drm_gem_open open_arg = {};
 940         memset(&open_arg, 0, sizeof(open_arg));
 941         /* Open the BO. */
 942         open_arg.name = whandle->handle;
 943         if (drmIoctl(ws->fd, DRM_IOCTL_GEM_OPEN, &open_arg)) {
 944             FREE(bo);
 945             goto fail;
 946         }
 947         handle = open_arg.handle;
 948         size = open_arg.size;
 949         bo->flink_name = whandle->handle;
 950     } else if (whandle->type == DRM_API_HANDLE_TYPE_FD) {
 951         size = lseek(whandle->handle, 0, SEEK_END);
 952         /*
 953          * Could check errno to determine whether the kernel is new enough, but
 954          * it doesn't really matter why this failed, just that it failed.
 955          */
 956         if (size == (off_t)-1) {
 957             FREE(bo);
 958             goto fail;
 959         }
 960         lseek(whandle->handle, 0, SEEK_SET);
 961     }
 962
 963     bo->handle = handle;
 964
 965     /* Initialize it. */
 966     pipe_reference_init(&bo->base.reference, 1);
 967     bo->base.alignment = 0;
 968     bo->base.size = (unsigned) size;
 969     bo->base.vtbl = &radeon_bo_vtbl;
 970     bo->rws = ws;
 971     bo->va = 0;
 972     pipe_mutex_init(bo->map_mutex);
 973
 974     if (bo->flink_name)
 975         util_hash_table_set(ws->bo_names, (void*)(uintptr_t)bo->flink_name, bo);
 976
 977     util_hash_table_set(ws->bo_handles, (void*)(uintptr_t)bo->handle, bo);
 978
 979 done:
 980     pipe_mutex_unlock(ws->bo_handles_mutex);
 981
 982     if (stride)
 983         *stride = whandle->stride;
 984     if (offset)
 985         *offset = whandle->offset;
 986
 987     if (ws->info.has_virtual_memory && !bo->va) {
 988         struct drm_radeon_gem_va va;
 989
 990         bo->va = radeon_bomgr_find_va(ws, bo->base.size, 1 << 20);
 991
 992         va.handle = bo->handle;
 993         va.operation = RADEON_VA_MAP;
 994         va.vm_id = 0;
 995         va.offset = bo->va;
 996         va.flags = RADEON_VM_PAGE_READABLE |
 997                    RADEON_VM_PAGE_WRITEABLE |
 998                    RADEON_VM_PAGE_SNOOPED;
 999         va.offset = bo->va;
1000         r = drmCommandWriteRead(ws->fd, DRM_RADEON_GEM_VA, &va, sizeof(va));
1001         if (r && va.operation == RADEON_VA_RESULT_ERROR) {
1002             fprintf(stderr, "radeon: Failed to assign virtual address space\n");
1003             radeon_bo_destroy(&bo->base);
1004             return NULL;
1005         }
1006         pipe_mutex_lock(ws->bo_handles_mutex);
1007         if (va.operation == RADEON_VA_RESULT_VA_EXIST) {
1008             struct pb_buffer *b = &bo->base;
1009             struct radeon_bo *old_bo =
1010                 util_hash_table_get(ws->bo_vas, (void*)(uintptr_t)va.offset);
1011
1012             pipe_mutex_unlock(ws->bo_handles_mutex);
1013             pb_reference(&b, &old_bo->base);
1014             return b;
1015         }
1016
1017         util_hash_table_set(ws->bo_vas, (void*)(uintptr_t)bo->va, bo);
1018         pipe_mutex_unlock(ws->bo_handles_mutex);
1019     }
1020
1021     bo->initial_domain = radeon_bo_get_initial_domain((void*)bo);
1022
1023     if (bo->initial_domain & RADEON_DOMAIN_VRAM)
1024         ws->allocated_vram += align(bo->base.size, ws->info.gart_page_size);
1025     else if (bo->initial_domain & RADEON_DOMAIN_GTT)
1026         ws->allocated_gtt += align(bo->base.size, ws->info.gart_page_size);
1027
1028     return (struct pb_buffer*)bo;
1029
1030 fail:
1031     pipe_mutex_unlock(ws->bo_handles_mutex);
1032     return NULL;
1033 }
1034
1035 static bool radeon_winsys_bo_get_handle(struct pb_buffer *buffer,
1036                                         unsigned stride, unsigned offset,
1037                                         unsigned slice_size,
1038                                         struct winsys_handle *whandle)
1039 {
1040     struct drm_gem_flink flink;
1041     struct radeon_bo *bo = radeon_bo(buffer);
1042     struct radeon_drm_winsys *ws = bo->rws;
1043
1044     memset(&flink, 0, sizeof(flink));
1045
1046     bo->use_reusable_pool = false;
1047
1048     if (whandle->type == DRM_API_HANDLE_TYPE_SHARED) {
1049         if (!bo->flink_name) {
1050             flink.handle = bo->handle;
1051
1052             if (ioctl(ws->fd, DRM_IOCTL_GEM_FLINK, &flink)) {
1053                 return false;
1054             }
1055
1056             bo->flink_name = flink.name;
1057
1058             pipe_mutex_lock(ws->bo_handles_mutex);
1059             util_hash_table_set(ws->bo_names, (void*)(uintptr_t)bo->flink_name, bo);
1060             pipe_mutex_unlock(ws->bo_handles_mutex);
1061         }
1062         whandle->handle = bo->flink_name;
1063     } else if (whandle->type == DRM_API_HANDLE_TYPE_KMS) {
1064         whandle->handle = bo->handle;
1065     } else if (whandle->type == DRM_API_HANDLE_TYPE_FD) {
1066         if (drmPrimeHandleToFD(ws->fd, bo->handle, DRM_CLOEXEC, (int*)&whandle->handle))
1067             return false;
1068     }
1069
1070     whandle->stride = stride;
1071     whandle->offset = offset;
1072     whandle->offset += slice_size * whandle->layer;
1073
1074     return true;
1075 }
1076
1077 static bool radeon_winsys_bo_is_user_ptr(struct pb_buffer *buf)
1078 {
1079    return ((struct radeon_bo*)buf)->user_ptr != NULL;
1080 }
1081
1082 static uint64_t radeon_winsys_bo_va(struct pb_buffer *buf)
1083 {
1084     return ((struct radeon_bo*)buf)->va;
1085 }
1086
1087 void radeon_drm_bo_init_functions(struct radeon_drm_winsys *ws)
1088 {
1089     ws->base.buffer_set_metadata = radeon_bo_set_metadata;
1090     ws->base.buffer_get_metadata = radeon_bo_get_metadata;
1091     ws->base.buffer_map = radeon_bo_map;
1092     ws->base.buffer_unmap = radeon_bo_unmap;
1093     ws->base.buffer_wait = radeon_bo_wait;
1094     ws->base.buffer_create = radeon_winsys_bo_create;
1095     ws->base.buffer_from_handle = radeon_winsys_bo_from_handle;
1096     ws->base.buffer_from_ptr = radeon_winsys_bo_from_ptr;
1097     ws->base.buffer_is_user_ptr = radeon_winsys_bo_is_user_ptr;
1098     ws->base.buffer_get_handle = radeon_winsys_bo_get_handle;
1099     ws->base.buffer_get_virtual_address = radeon_winsys_bo_va;
1100     ws->base.buffer_get_initial_domain = radeon_bo_get_initial_domain;
1101 }