winsys/radeon: fix warnings about incompatible pointer types

[mesa.git] / src / gallium / winsys / radeon / drm / radeon_drm_bo.c
diff --git a/src/gallium/winsys/radeon/drm/radeon_drm_bo.c b/src/gallium/winsys/radeon/drm/radeon_drm_bo.c

index adee7b20dbcd4277ea70fe1280106ff26c7ee057..e35d2804390c8f222f7cd6658aba89c2b1988574 100644 (file)
--- a/src/gallium/winsys/radeon/drm/radeon_drm_bo.c
+++ b/src/gallium/winsys/radeon/drm/radeon_drm_bo.c
@@ -24,79 +24,25 @@
   * of the Software.
   */
  
-#define _FILE_OFFSET_BITS 64
  #include "radeon_drm_cs.h"
  
  #include "util/u_hash_table.h"
  #include "util/u_memory.h"
-#include "util/u_simple_list.h"
-#include "util/u_double_list.h"
+#include "util/simple_list.h"
  #include "os/os_thread.h"
  #include "os/os_mman.h"
+#include "os/os_time.h"
  
  #include "state_tracker/drm_driver.h"
  
  #include <sys/ioctl.h>
  #include <xf86drm.h>
  #include <errno.h>
+#include <fcntl.h>
+#include <stdio.h>
  
-/*
- * this are copy from radeon_drm, once an updated libdrm is released
- * we should bump configure.ac requirement for it and remove the following
- * field
- */
-#define RADEON_BO_FLAGS_MACRO_TILE  1
-#define RADEON_BO_FLAGS_MICRO_TILE  2
-#define RADEON_BO_FLAGS_MICRO_TILE_SQUARE 0x20
-
-#ifndef DRM_RADEON_GEM_WAIT
-#define DRM_RADEON_GEM_WAIT     0x2b
-
-#define RADEON_GEM_NO_WAIT      0x1
-#define RADEON_GEM_USAGE_READ   0x2
-#define RADEON_GEM_USAGE_WRITE  0x4
-
-struct drm_radeon_gem_wait {
-    uint32_t    handle;
-    uint32_t    flags;  /* one of RADEON_GEM_* */
-};
-
-#endif
-
-#ifndef RADEON_VA_MAP
-
-#define RADEON_VA_MAP               1
-#define RADEON_VA_UNMAP             2
-
-#define RADEON_VA_RESULT_OK         0
-#define RADEON_VA_RESULT_ERROR      1
-#define RADEON_VA_RESULT_VA_EXIST   2
-
-#define RADEON_VM_PAGE_VALID        (1 << 0)
-#define RADEON_VM_PAGE_READABLE     (1 << 1)
-#define RADEON_VM_PAGE_WRITEABLE    (1 << 2)
-#define RADEON_VM_PAGE_SYSTEM       (1 << 3)
-#define RADEON_VM_PAGE_SNOOPED      (1 << 4)
-
-struct drm_radeon_gem_va {
-    uint32_t    handle;
-    uint32_t    operation;
-    uint32_t    vm_id;
-    uint32_t    flags;
-    uint64_t    offset;
-};
-
-#define DRM_RADEON_GEM_VA   0x2b
-#endif
-
-
-
-extern const struct pb_vtbl radeon_bo_vtbl;
-
-
-static INLINE struct radeon_bo *radeon_bo(struct pb_buffer *bo)
+static inline struct radeon_bo *radeon_bo(struct pb_buffer *bo)
  {
-    assert(bo->vtbl == &radeon_bo_vtbl);
      return (struct radeon_bo *)bo;
  }
  
@@ -106,240 +52,345 @@ struct radeon_bo_va_hole {
      uint64_t         size;
  };
  
-struct radeon_bomgr {
-    /* Base class. */
-    struct pb_manager base;
-
-    /* Winsys. */
-    struct radeon_drm_winsys *rws;
-
-    /* List of buffer handles and its mutex. */
-    struct util_hash_table *bo_handles;
-    pipe_mutex bo_handles_mutex;
-    pipe_mutex bo_va_mutex;
+static bool radeon_bo_is_busy(struct radeon_bo *bo)
+{
+    struct drm_radeon_gem_busy args = {0};
  
-    /* is virtual address supported */
-    bool va;
-    unsigned va_offset;
-    struct list_head va_holes;
-};
+    args.handle = bo->handle;
+    return drmCommandWriteRead(bo->rws->fd, DRM_RADEON_GEM_BUSY,
+                               &args, sizeof(args)) != 0;
+}
  
-static INLINE struct radeon_bomgr *radeon_bomgr(struct pb_manager *mgr)
+static void radeon_bo_wait_idle(struct radeon_bo *bo)
  {
-    return (struct radeon_bomgr *)mgr;
+    struct drm_radeon_gem_wait_idle args = {0};
+
+    args.handle = bo->handle;
+    while (drmCommandWrite(bo->rws->fd, DRM_RADEON_GEM_WAIT_IDLE,
+                           &args, sizeof(args)) == -EBUSY);
  }
  
-static struct radeon_bo *get_radeon_bo(struct pb_buffer *_buf)
+static bool radeon_bo_wait(struct pb_buffer *_buf, uint64_t timeout,
+                           enum radeon_bo_usage usage)
  {
-    struct radeon_bo *bo = NULL;
+    struct radeon_bo *bo = radeon_bo(_buf);
+    int64_t abs_timeout;
  
-    if (_buf->vtbl == &radeon_bo_vtbl) {
-        bo = radeon_bo(_buf);
-    } else {
-        struct pb_buffer *base_buf;
-        pb_size offset;
-        pb_get_base_buffer(_buf, &base_buf, &offset);
+    /* No timeout. Just query. */
+    if (timeout == 0)
+        return !bo->num_active_ioctls && !radeon_bo_is_busy(bo);
+
+    abs_timeout = os_time_get_absolute_timeout(timeout);
  
-        if (base_buf->vtbl == &radeon_bo_vtbl)
-            bo = radeon_bo(base_buf);
+    /* Wait if any ioctl is being submitted with this buffer. */
+    if (!os_wait_until_zero_abs_timeout(&bo->num_active_ioctls, abs_timeout))
+        return false;
+
+    /* Infinite timeout. */
+    if (abs_timeout == PIPE_TIMEOUT_INFINITE) {
+        radeon_bo_wait_idle(bo);
+        return true;
      }
  
-    return bo;
+    /* Other timeouts need to be emulated with a loop. */
+    while (radeon_bo_is_busy(bo)) {
+       if (os_time_get_nano() >= abs_timeout)
+          return false;
+       os_time_sleep(10);
+    }
+
+    return true;
  }
  
-static void radeon_bo_wait(struct pb_buffer *_buf, enum radeon_bo_usage usage)
+static enum radeon_bo_domain get_valid_domain(enum radeon_bo_domain domain)
  {
-    struct radeon_bo *bo = get_radeon_bo(_buf);
+    /* Zero domains the driver doesn't understand. */
+    domain &= RADEON_DOMAIN_VRAM_GTT;
  
-    while (p_atomic_read(&bo->num_active_ioctls)) {
-        sched_yield();
-    }
+    /* If no domain is set, we must set something... */
+    if (!domain)
+        domain = RADEON_DOMAIN_VRAM_GTT;
  
-    /* XXX use this when it's ready */
-    /*if (bo->rws->info.drm_minor >= 12) {
-        struct drm_radeon_gem_wait args = {};
-        args.handle = bo->handle;
-        args.flags = usage;
-        while (drmCommandWriteRead(bo->rws->fd, DRM_RADEON_GEM_WAIT,
-                                   &args, sizeof(args)) == -EBUSY);
-    } else*/ {
-        struct drm_radeon_gem_wait_idle args;
-        memset(&args, 0, sizeof(args));
-        args.handle = bo->handle;
-        while (drmCommandWriteRead(bo->rws->fd, DRM_RADEON_GEM_WAIT_IDLE,
-                                   &args, sizeof(args)) == -EBUSY);
-    }
+    return domain;
  }
  
-static boolean radeon_bo_is_busy(struct pb_buffer *_buf,
-                                 enum radeon_bo_usage usage)
+static enum radeon_bo_domain radeon_bo_get_initial_domain(
+               struct pb_buffer *buf)
  {
-    struct radeon_bo *bo = get_radeon_bo(_buf);
+    struct radeon_bo *bo = (struct radeon_bo*)buf;
+    struct drm_radeon_gem_op args;
  
-    if (p_atomic_read(&bo->num_active_ioctls)) {
-        return TRUE;
-    }
+    if (bo->rws->info.drm_minor < 38)
+        return RADEON_DOMAIN_VRAM_GTT;
  
-    /* XXX use this when it's ready */
-    /*if (bo->rws->info.drm_minor >= 12) {
-        struct drm_radeon_gem_wait args = {};
-        args.handle = bo->handle;
-        args.flags = usage | RADEON_GEM_NO_WAIT;
-        return drmCommandWriteRead(bo->rws->fd, DRM_RADEON_GEM_WAIT,
-                                   &args, sizeof(args)) != 0;
-    } else*/ {
-        struct drm_radeon_gem_busy args;
-        memset(&args, 0, sizeof(args));
-        args.handle = bo->handle;
-        return drmCommandWriteRead(bo->rws->fd, DRM_RADEON_GEM_BUSY,
-                                   &args, sizeof(args)) != 0;
-    }
+    memset(&args, 0, sizeof(args));
+    args.handle = bo->handle;
+    args.op = RADEON_GEM_OP_GET_INITIAL_DOMAIN;
+
+    drmCommandWriteRead(bo->rws->fd, DRM_RADEON_GEM_OP,
+                        &args, sizeof(args));
+
+    /* GEM domains and winsys domains are defined the same. */
+    return get_valid_domain(args.value);
  }
  
-static uint64_t radeon_bomgr_find_va(struct radeon_bomgr *mgr, uint64_t size)
+static uint64_t radeon_bomgr_find_va(struct radeon_drm_winsys *rws,
+                                     uint64_t size, uint64_t alignment)
  {
      struct radeon_bo_va_hole *hole, *n;
-    uint64_t offset = 0;
+    uint64_t offset = 0, waste = 0;
+
+    /* All VM address space holes will implicitly start aligned to the
+     * size alignment, so we don't need to sanitize the alignment here
+     */
+    size = align(size, rws->size_align);
  
-    pipe_mutex_lock(mgr->bo_va_mutex);
+    pipe_mutex_lock(rws->bo_va_mutex);
      /* first look for a hole */
-    LIST_FOR_EACH_ENTRY_SAFE(hole, n, &mgr->va_holes, list) {
-        if (hole->size == size) {
+    LIST_FOR_EACH_ENTRY_SAFE(hole, n, &rws->va_holes, list) {
+        offset = hole->offset;
+        waste = offset % alignment;
+        waste = waste ? alignment - waste : 0;
+        offset += waste;
+        if (offset >= (hole->offset + hole->size)) {
+            continue;
+        }
+        if (!waste && hole->size == size) {
              offset = hole->offset;
              list_del(&hole->list);
              FREE(hole);
-            pipe_mutex_unlock(mgr->bo_va_mutex);
+            pipe_mutex_unlock(rws->bo_va_mutex);
              return offset;
          }
-        if (hole->size > size) {
-            offset = hole->offset;
-            hole->size -= size;
-            hole->offset += size;
-            pipe_mutex_unlock(mgr->bo_va_mutex);
+        if ((hole->size - waste) > size) {
+            if (waste) {
+                n = CALLOC_STRUCT(radeon_bo_va_hole);
+                n->size = waste;
+                n->offset = hole->offset;
+                list_add(&n->list, &hole->list);
+            }
+            hole->size -= (size + waste);
+            hole->offset += size + waste;
+            pipe_mutex_unlock(rws->bo_va_mutex);
+            return offset;
+        }
+        if ((hole->size - waste) == size) {
+            hole->size = waste;
+            pipe_mutex_unlock(rws->bo_va_mutex);
              return offset;
          }
      }
  
-    offset = mgr->va_offset;
-    mgr->va_offset += size;
-    pipe_mutex_unlock(mgr->bo_va_mutex);
+    offset = rws->va_offset;
+    waste = offset % alignment;
+    waste = waste ? alignment - waste : 0;
+    if (waste) {
+        n = CALLOC_STRUCT(radeon_bo_va_hole);
+        n->size = waste;
+        n->offset = offset;
+        list_add(&n->list, &rws->va_holes);
+    }
+    offset += waste;
+    rws->va_offset += size + waste;
+    pipe_mutex_unlock(rws->bo_va_mutex);
      return offset;
  }
  
-static void radeon_bomgr_force_va(struct radeon_bomgr *mgr, uint64_t va, uint64_t size)
+static void radeon_bomgr_free_va(struct radeon_drm_winsys *rws,
+                                 uint64_t va, uint64_t size)
  {
-    pipe_mutex_lock(mgr->bo_va_mutex);
-    if (va >= mgr->va_offset) {
-        if (va > mgr->va_offset) {
-            struct radeon_bo_va_hole *hole;
-            hole = CALLOC_STRUCT(radeon_bo_va_hole);
-            if (hole) {
-                hole->size = va - mgr->va_offset;
-                hole->offset = mgr->va_offset;
-                list_add(&hole->list, &mgr->va_holes);
+    struct radeon_bo_va_hole *hole;
+
+    size = align(size, rws->size_align);
+
+    pipe_mutex_lock(rws->bo_va_mutex);
+    if ((va + size) == rws->va_offset) {
+        rws->va_offset = va;
+        /* Delete uppermost hole if it reaches the new top */
+        if (!LIST_IS_EMPTY(&rws->va_holes)) {
+            hole = container_of(rws->va_holes.next, hole, list);
+            if ((hole->offset + hole->size) == va) {
+                rws->va_offset = hole->offset;
+                list_del(&hole->list);
+                FREE(hole);
              }
          }
-        mgr->va_offset = va + size;
      } else {
-        struct radeon_bo_va_hole *hole, *n;
-        uint64_t stmp, etmp;
+        struct radeon_bo_va_hole *next;
  
-        /* free all holes that fall into the range
-         * NOTE that we might lose virtual address space
-         */
-        LIST_FOR_EACH_ENTRY_SAFE(hole, n, &mgr->va_holes, list) {
-            stmp = hole->offset;
-            etmp = stmp + hole->size;
-            if (va >= stmp && va < etmp) {
-                list_del(&hole->list);
-                FREE(hole);
+        hole = container_of(&rws->va_holes, hole, list);
+        LIST_FOR_EACH_ENTRY(next, &rws->va_holes, list) {
+           if (next->offset < va)
+               break;
+            hole = next;
+        }
+
+        if (&hole->list != &rws->va_holes) {
+            /* Grow upper hole if it's adjacent */
+            if (hole->offset == (va + size)) {
+                hole->offset = va;
+                hole->size += size;
+                /* Merge lower hole if it's adjacent */
+                if (next != hole && &next->list != &rws->va_holes &&
+                    (next->offset + next->size) == va) {
+                    next->size += hole->size;
+                    list_del(&hole->list);
+                    FREE(hole);
+                }
+                goto out;
              }
          }
-    }
-    pipe_mutex_unlock(mgr->bo_va_mutex);
-}
  
-static void radeon_bomgr_free_va(struct radeon_bomgr *mgr, uint64_t va, uint64_t size)
-{
-    pipe_mutex_lock(mgr->bo_va_mutex);
-    if ((va + size) == mgr->va_offset) {
-        mgr->va_offset = va;
-    } else {
-        struct radeon_bo_va_hole *hole;
+        /* Grow lower hole if it's adjacent */
+        if (next != hole && &next->list != &rws->va_holes &&
+            (next->offset + next->size) == va) {
+            next->size += size;
+            goto out;
+        }
  
          /* FIXME on allocation failure we just lose virtual address space
           * maybe print a warning
           */
-        hole = CALLOC_STRUCT(radeon_bo_va_hole);
-        if (hole) {
-            hole->size = size;
-            hole->offset = va;
-            list_add(&hole->list, &mgr->va_holes);
+        next = CALLOC_STRUCT(radeon_bo_va_hole);
+        if (next) {
+            next->size = size;
+            next->offset = va;
+            list_add(&next->list, &hole->list);
          }
      }
-    pipe_mutex_unlock(mgr->bo_va_mutex);
+out:
+    pipe_mutex_unlock(rws->bo_va_mutex);
  }
  
-static void radeon_bo_destroy(struct pb_buffer *_buf)
+void radeon_bo_destroy(struct pb_buffer *_buf)
  {
      struct radeon_bo *bo = radeon_bo(_buf);
-    struct radeon_bomgr *mgr = bo->mgr;
+    struct radeon_drm_winsys *rws = bo->rws;
      struct drm_gem_close args;
  
      memset(&args, 0, sizeof(args));
  
-    if (bo->name) {
-        pipe_mutex_lock(bo->mgr->bo_handles_mutex);
-        util_hash_table_remove(bo->mgr->bo_handles,
-                               (void*)(uintptr_t)bo->name);
-        pipe_mutex_unlock(bo->mgr->bo_handles_mutex);
+    pipe_mutex_lock(rws->bo_handles_mutex);
+    util_hash_table_remove(rws->bo_handles, (void*)(uintptr_t)bo->handle);
+    if (bo->flink_name) {
+        util_hash_table_remove(rws->bo_names,
+                               (void*)(uintptr_t)bo->flink_name);
      }
+    pipe_mutex_unlock(rws->bo_handles_mutex);
  
      if (bo->ptr)
          os_munmap(bo->ptr, bo->base.size);
  
-    if (mgr->va) {
-        radeon_bomgr_free_va(mgr, bo->va, bo->va_size);
+    if (rws->info.r600_virtual_address) {
+        if (rws->va_unmap_working) {
+            struct drm_radeon_gem_va va;
+
+            va.handle = bo->handle;
+            va.vm_id = 0;
+            va.operation = RADEON_VA_UNMAP;
+            va.flags = RADEON_VM_PAGE_READABLE |
+                       RADEON_VM_PAGE_WRITEABLE |
+                       RADEON_VM_PAGE_SNOOPED;
+            va.offset = bo->va;
+
+            if (drmCommandWriteRead(rws->fd, DRM_RADEON_GEM_VA, &va,
+                                   sizeof(va)) != 0 &&
+               va.operation == RADEON_VA_RESULT_ERROR) {
+                fprintf(stderr, "radeon: Failed to deallocate virtual address for buffer:\n");
+                fprintf(stderr, "radeon:    size      : %d bytes\n", bo->base.size);
+                fprintf(stderr, "radeon:    va        : 0x%016llx\n", (unsigned long long)bo->va);
+            }
+       }
+
+       radeon_bomgr_free_va(rws, bo->va, bo->base.size);
      }
  
      /* Close object. */
      args.handle = bo->handle;
-    drmIoctl(bo->rws->fd, DRM_IOCTL_GEM_CLOSE, &args);
+    drmIoctl(rws->fd, DRM_IOCTL_GEM_CLOSE, &args);
+
      pipe_mutex_destroy(bo->map_mutex);
+
+    if (bo->initial_domain & RADEON_DOMAIN_VRAM)
+        rws->allocated_vram -= align(bo->base.size, rws->size_align);
+    else if (bo->initial_domain & RADEON_DOMAIN_GTT)
+        rws->allocated_gtt -= align(bo->base.size, rws->size_align);
      FREE(bo);
  }
  
-static unsigned get_pb_usage_from_transfer_flags(enum pipe_transfer_usage usage)
+static void radeon_bo_destroy_or_cache(struct pb_buffer *_buf)
+{
+   struct radeon_bo *bo = radeon_bo(_buf);
+
+   if (bo->use_reusable_pool)
+      pb_cache_add_buffer(&bo->cache_entry);
+   else
+      radeon_bo_destroy(_buf);
+}
+
+void *radeon_bo_do_map(struct radeon_bo *bo)
  {
-    unsigned res = 0;
+    struct drm_radeon_gem_mmap args = {0};
+    void *ptr;
  
-    if (usage & PIPE_TRANSFER_WRITE)
-        res |= PB_USAGE_CPU_WRITE;
+    /* If the buffer is created from user memory, return the user pointer. */
+    if (bo->user_ptr)
+        return bo->user_ptr;
  
-    if (usage & PIPE_TRANSFER_DONTBLOCK)
-        res |= PB_USAGE_DONTBLOCK;
+    /* Map the buffer. */
+    pipe_mutex_lock(bo->map_mutex);
+    /* Return the pointer if it's already mapped. */
+    if (bo->ptr) {
+        bo->map_count++;
+        pipe_mutex_unlock(bo->map_mutex);
+        return bo->ptr;
+    }
+    args.handle = bo->handle;
+    args.offset = 0;
+    args.size = (uint64_t)bo->base.size;
+    if (drmCommandWriteRead(bo->rws->fd,
+                            DRM_RADEON_GEM_MMAP,
+                            &args,
+                            sizeof(args))) {
+        pipe_mutex_unlock(bo->map_mutex);
+        fprintf(stderr, "radeon: gem_mmap failed: %p 0x%08X\n",
+                bo, bo->handle);
+        return NULL;
+    }
  
-    if (usage & PIPE_TRANSFER_UNSYNCHRONIZED)
-        res |= PB_USAGE_UNSYNCHRONIZED;
+    ptr = os_mmap(0, args.size, PROT_READ|PROT_WRITE, MAP_SHARED,
+               bo->rws->fd, args.addr_ptr);
+    if (ptr == MAP_FAILED) {
+        /* Clear the cache and try again. */
+        pb_cache_release_all_buffers(&bo->rws->bo_cache);
+
+        ptr = os_mmap(0, args.size, PROT_READ|PROT_WRITE, MAP_SHARED,
+                      bo->rws->fd, args.addr_ptr);
+        if (ptr == MAP_FAILED) {
+            pipe_mutex_unlock(bo->map_mutex);
+            fprintf(stderr, "radeon: mmap failed, errno: %i\n", errno);
+            return NULL;
+        }
+    }
+    bo->ptr = ptr;
+    bo->map_count = 1;
+    pipe_mutex_unlock(bo->map_mutex);
  
-    return res;
+    return bo->ptr;
  }
  
-static void *radeon_bo_map_internal(struct pb_buffer *_buf,
-                                    unsigned flags, void *flush_ctx)
+static void *radeon_bo_map(struct pb_buffer *buf,
+                           struct radeon_winsys_cs *rcs,
+                           enum pipe_transfer_usage usage)
  {
-    struct radeon_bo *bo = radeon_bo(_buf);
-    struct radeon_drm_cs *cs = flush_ctx;
-    struct drm_radeon_gem_mmap args;
-    void *ptr;
-
-    memset(&args, 0, sizeof(args));
+    struct radeon_bo *bo = (struct radeon_bo*)buf;
+    struct radeon_drm_cs *cs = (struct radeon_drm_cs*)rcs;
  
      /* If it's not unsynchronized bo_map, flush CS if needed and then wait. */
-    if (!(flags & PB_USAGE_UNSYNCHRONIZED)) {
+    if (!(usage & PIPE_TRANSFER_UNSYNCHRONIZED)) {
          /* DONTBLOCK doesn't make sense with UNSYNCHRONIZED. */
-        if (flags & PB_USAGE_DONTBLOCK) {
-            if (!(flags & PB_USAGE_CPU_WRITE)) {
+        if (usage & PIPE_TRANSFER_DONTBLOCK) {
+            if (!(usage & PIPE_TRANSFER_WRITE)) {
                  /* Mapping for read.
                   *
                   * Since we are mapping for read, we don't need to wait
@@ -347,28 +398,30 @@ static void *radeon_bo_map_internal(struct pb_buffer *_buf,
                   * (neither one is changing it).
                   *
                   * Only check whether the buffer is being used for write. */
-                if (radeon_bo_is_referenced_by_cs_for_write(cs, bo)) {
-                    cs->flush_cs(cs->flush_data, RADEON_FLUSH_ASYNC);
+                if (cs && radeon_bo_is_referenced_by_cs_for_write(cs, bo)) {
+                    cs->flush_cs(cs->flush_data, RADEON_FLUSH_ASYNC, NULL);
                      return NULL;
                  }
  
-                if (radeon_bo_is_busy((struct pb_buffer*)bo,
-                                      RADEON_USAGE_WRITE)) {
+                if (!radeon_bo_wait((struct pb_buffer*)bo, 0,
+                                    RADEON_USAGE_WRITE)) {
                      return NULL;
                  }
              } else {
-                if (radeon_bo_is_referenced_by_cs(cs, bo)) {
-                    cs->flush_cs(cs->flush_data, RADEON_FLUSH_ASYNC);
+                if (cs && radeon_bo_is_referenced_by_cs(cs, bo)) {
+                    cs->flush_cs(cs->flush_data, RADEON_FLUSH_ASYNC, NULL);
                      return NULL;
                  }
  
-                if (radeon_bo_is_busy((struct pb_buffer*)bo,
-                                      RADEON_USAGE_READWRITE)) {
+                if (!radeon_bo_wait((struct pb_buffer*)bo, 0,
+                                    RADEON_USAGE_READWRITE)) {
                      return NULL;
                  }
              }
          } else {
-            if (!(flags & PB_USAGE_CPU_WRITE)) {
+            uint64_t time = os_time_get_nano();
+
+            if (!(usage & PIPE_TRANSFER_WRITE)) {
                  /* Mapping for read.
                   *
                   * Since we are mapping for read, we don't need to wait
@@ -376,125 +429,110 @@ static void *radeon_bo_map_internal(struct pb_buffer *_buf,
                   * (neither one is changing it).
                   *
                   * Only check whether the buffer is being used for write. */
-                if (radeon_bo_is_referenced_by_cs_for_write(cs, bo)) {
-                    cs->flush_cs(cs->flush_data, 0);
+                if (cs && radeon_bo_is_referenced_by_cs_for_write(cs, bo)) {
+                    cs->flush_cs(cs->flush_data, 0, NULL);
                  }
-                radeon_bo_wait((struct pb_buffer*)bo,
+                radeon_bo_wait((struct pb_buffer*)bo, PIPE_TIMEOUT_INFINITE,
                                 RADEON_USAGE_WRITE);
              } else {
                  /* Mapping for write. */
-                if (radeon_bo_is_referenced_by_cs(cs, bo)) {
-                    cs->flush_cs(cs->flush_data, 0);
-                } else {
-                    /* Try to avoid busy-waiting in radeon_bo_wait. */
-                    if (p_atomic_read(&bo->num_active_ioctls))
-                        radeon_drm_cs_sync_flush(cs);
+                if (cs) {
+                    if (radeon_bo_is_referenced_by_cs(cs, bo)) {
+                        cs->flush_cs(cs->flush_data, 0, NULL);
+                    } else {
+                        /* Try to avoid busy-waiting in radeon_bo_wait. */
+                        if (p_atomic_read(&bo->num_active_ioctls))
+                            radeon_drm_cs_sync_flush(rcs);
+                    }
                  }
  
-                radeon_bo_wait((struct pb_buffer*)bo, RADEON_USAGE_READWRITE);
+                radeon_bo_wait((struct pb_buffer*)bo, PIPE_TIMEOUT_INFINITE,
+                               RADEON_USAGE_READWRITE);
              }
+
+            bo->rws->buffer_wait_time += os_time_get_nano() - time;
          }
      }
  
-    /* Return the pointer if it's already mapped. */
-    if (bo->ptr)
-        return bo->ptr;
+    return radeon_bo_do_map(bo);
+}
+
+static void radeon_bo_unmap(struct pb_buffer *_buf)
+{
+    struct radeon_bo *bo = (struct radeon_bo*)_buf;
+
+    if (bo->user_ptr)
+        return;
  
-    /* Map the buffer. */
      pipe_mutex_lock(bo->map_mutex);
-    /* Return the pointer if it's already mapped (in case of a race). */
-    if (bo->ptr) {
+    if (!bo->ptr) {
          pipe_mutex_unlock(bo->map_mutex);
-        return bo->ptr;
-    }
-    args.handle = bo->handle;
-    args.offset = 0;
-    args.size = (uint64_t)bo->base.size;
-    if (drmCommandWriteRead(bo->rws->fd,
-                            DRM_RADEON_GEM_MMAP,
-                            &args,
-                            sizeof(args))) {
-        pipe_mutex_unlock(bo->map_mutex);
-        fprintf(stderr, "radeon: gem_mmap failed: %p 0x%08X\n",
-                bo, bo->handle);
-        return NULL;
+        return; /* it's not been mapped */
      }
  
-    ptr = os_mmap(0, args.size, PROT_READ|PROT_WRITE, MAP_SHARED,
-               bo->rws->fd, args.addr_ptr);
-    if (ptr == MAP_FAILED) {
+    assert(bo->map_count);
+    if (--bo->map_count) {
          pipe_mutex_unlock(bo->map_mutex);
-        fprintf(stderr, "radeon: mmap failed, errno: %i\n", errno);
-        return NULL;
+        return; /* it's been mapped multiple times */
      }
-    bo->ptr = ptr;
-    pipe_mutex_unlock(bo->map_mutex);
  
-    return bo->ptr;
+    os_munmap(bo->ptr, bo->base.size);
+    bo->ptr = NULL;
+    pipe_mutex_unlock(bo->map_mutex);
  }
  
-static void radeon_bo_unmap_internal(struct pb_buffer *_buf)
-{
-    /* NOP */
-}
+static const struct pb_vtbl radeon_bo_vtbl = {
+    radeon_bo_destroy_or_cache
+    /* other functions are never called */
+};
  
-static void radeon_bo_get_base_buffer(struct pb_buffer *buf,
-                                      struct pb_buffer **base_buf,
-                                      unsigned *offset)
-{
-    *base_buf = buf;
-    *offset = 0;
-}
+#ifndef RADEON_GEM_GTT_WC
+#define RADEON_GEM_GTT_WC              (1 << 2)
+#endif
+#ifndef RADEON_GEM_CPU_ACCESS
+/* BO is expected to be accessed by the CPU */
+#define RADEON_GEM_CPU_ACCESS          (1 << 3)
+#endif
+#ifndef RADEON_GEM_NO_CPU_ACCESS
+/* CPU access is not expected to work for this BO */
+#define RADEON_GEM_NO_CPU_ACCESS       (1 << 4)
+#endif
  
-static enum pipe_error radeon_bo_validate(struct pb_buffer *_buf,
-                                          struct pb_validate *vl,
+static struct radeon_bo *radeon_create_bo(struct radeon_drm_winsys *rws,
+                                          unsigned size, unsigned alignment,
+                                          unsigned usage,
+                                          unsigned initial_domains,
                                            unsigned flags)
  {
-    /* Always pinned */
-    return PIPE_OK;
-}
-
-static void radeon_bo_fence(struct pb_buffer *buf,
-                            struct pipe_fence_handle *fence)
-{
-}
-
-const struct pb_vtbl radeon_bo_vtbl = {
-    radeon_bo_destroy,
-    radeon_bo_map_internal,
-    radeon_bo_unmap_internal,
-    radeon_bo_validate,
-    radeon_bo_fence,
-    radeon_bo_get_base_buffer,
-};
-
-static struct pb_buffer *radeon_bomgr_create_bo(struct pb_manager *_mgr,
-                                                pb_size size,
-                                                const struct pb_desc *desc)
-{
-    struct radeon_bomgr *mgr = radeon_bomgr(_mgr);
-    struct radeon_drm_winsys *rws = mgr->rws;
      struct radeon_bo *bo;
      struct drm_radeon_gem_create args;
-    struct radeon_bo_desc *rdesc = (struct radeon_bo_desc*)desc;
      int r;
  
      memset(&args, 0, sizeof(args));
  
-    assert(rdesc->initial_domains);
-    assert((rdesc->initial_domains &
+    assert(initial_domains);
+    assert((initial_domains &
              ~(RADEON_GEM_DOMAIN_GTT | RADEON_GEM_DOMAIN_VRAM)) == 0);
  
      args.size = size;
-    args.alignment = desc->alignment;
-    args.initial_domain = rdesc->initial_domains;
+    args.alignment = alignment;
+    args.initial_domain = initial_domains;
+    args.flags = 0;
+
+    if (flags & RADEON_FLAG_GTT_WC)
+        args.flags |= RADEON_GEM_GTT_WC;
+    if (flags & RADEON_FLAG_CPU_ACCESS)
+        args.flags |= RADEON_GEM_CPU_ACCESS;
+    if (flags & RADEON_FLAG_NO_CPU_ACCESS)
+        args.flags |= RADEON_GEM_NO_CPU_ACCESS;
  
      if (drmCommandWriteRead(rws->fd, DRM_RADEON_GEM_CREATE,
                              &args, sizeof(args))) {
          fprintf(stderr, "radeon: Failed to allocate a buffer:\n");
          fprintf(stderr, "radeon:    size      : %d bytes\n", size);
-        fprintf(stderr, "radeon:    alignment : %d bytes\n", desc->alignment);
+        fprintf(stderr, "radeon:    alignment : %d bytes\n", alignment);
          fprintf(stderr, "radeon:    domains   : %d\n", args.initial_domain);
+        fprintf(stderr, "radeon:    flags     : %d\n", args.flags);
          return NULL;
      }
  
@@ -503,21 +541,21 @@ static struct pb_buffer *radeon_bomgr_create_bo(struct pb_manager *_mgr,
          return NULL;
  
      pipe_reference_init(&bo->base.reference, 1);
-    bo->base.alignment = desc->alignment;
-    bo->base.usage = desc->usage;
+    bo->base.alignment = alignment;
+    bo->base.usage = usage;
      bo->base.size = size;
      bo->base.vtbl = &radeon_bo_vtbl;
-    bo->mgr = mgr;
-    bo->rws = mgr->rws;
+    bo->rws = rws;
      bo->handle = args.handle;
      bo->va = 0;
+    bo->initial_domain = initial_domains;
      pipe_mutex_init(bo->map_mutex);
+    pb_cache_init_entry(&rws->bo_cache, &bo->cache_entry, &bo->base);
  
-    if (mgr->va) {
+    if (rws->info.r600_virtual_address) {
          struct drm_radeon_gem_va va;
  
-        bo->va_size = align(size,  4096);
-        bo->va = radeon_bomgr_find_va(mgr, bo->va_size);
+        bo->va = radeon_bomgr_find_va(rws, size, alignment);
  
          va.handle = bo->handle;
          va.vm_id = 0;
@@ -528,96 +566,45 @@ static struct pb_buffer *radeon_bomgr_create_bo(struct pb_manager *_mgr,
          va.offset = bo->va;
          r = drmCommandWriteRead(rws->fd, DRM_RADEON_GEM_VA, &va, sizeof(va));
          if (r && va.operation == RADEON_VA_RESULT_ERROR) {
-            fprintf(stderr, "radeon: Failed to allocate a buffer:\n");
+            fprintf(stderr, "radeon: Failed to allocate virtual address for buffer:\n");
              fprintf(stderr, "radeon:    size      : %d bytes\n", size);
-            fprintf(stderr, "radeon:    alignment : %d bytes\n", desc->alignment);
+            fprintf(stderr, "radeon:    alignment : %d bytes\n", alignment);
              fprintf(stderr, "radeon:    domains   : %d\n", args.initial_domain);
+            fprintf(stderr, "radeon:    va        : 0x%016llx\n", (unsigned long long)bo->va);
              radeon_bo_destroy(&bo->base);
              return NULL;
          }
+        pipe_mutex_lock(rws->bo_handles_mutex);
          if (va.operation == RADEON_VA_RESULT_VA_EXIST) {
-            radeon_bomgr_free_va(mgr, bo->va, bo->va_size);
-            bo->va = va.offset;
-            radeon_bomgr_force_va(mgr, bo->va, bo->va_size);
+            struct pb_buffer *b = &bo->base;
+            struct radeon_bo *old_bo =
+                util_hash_table_get(rws->bo_vas, (void*)(uintptr_t)va.offset);
+
+            pipe_mutex_unlock(rws->bo_handles_mutex);
+            pb_reference(&b, &old_bo->base);
+            return radeon_bo(b);
          }
+
+        util_hash_table_set(rws->bo_vas, (void*)(uintptr_t)bo->va, bo);
+        pipe_mutex_unlock(rws->bo_handles_mutex);
      }
  
-    return &bo->base;
-}
+    if (initial_domains & RADEON_DOMAIN_VRAM)
+        rws->allocated_vram += align(size, rws->size_align);
+    else if (initial_domains & RADEON_DOMAIN_GTT)
+        rws->allocated_gtt += align(size, rws->size_align);
  
-static void radeon_bomgr_flush(struct pb_manager *mgr)
-{
-    /* NOP */
+    return bo;
  }
  
-/* This is for the cache bufmgr. */
-static boolean radeon_bomgr_is_buffer_busy(struct pb_manager *_mgr,
-                                           struct pb_buffer *_buf)
+bool radeon_bo_can_reclaim(struct pb_buffer *_buf)
  {
     struct radeon_bo *bo = radeon_bo(_buf);
  
-   if (radeon_bo_is_referenced_by_any_cs(bo)) {
-       return TRUE;
-   }
-
-   if (radeon_bo_is_busy((struct pb_buffer*)bo, RADEON_USAGE_READWRITE)) {
-       return TRUE;
-   }
-
-   return FALSE;
-}
-
-static void radeon_bomgr_destroy(struct pb_manager *_mgr)
-{
-    struct radeon_bomgr *mgr = radeon_bomgr(_mgr);
-    util_hash_table_destroy(mgr->bo_handles);
-    pipe_mutex_destroy(mgr->bo_handles_mutex);
-    pipe_mutex_destroy(mgr->bo_va_mutex);
-    FREE(mgr);
-}
-
-#define PTR_TO_UINT(x) ((unsigned)((intptr_t)(x)))
+   if (radeon_bo_is_referenced_by_any_cs(bo))
+      return false;
  
-static unsigned handle_hash(void *key)
-{
-    return PTR_TO_UINT(key);
-}
-
-static int handle_compare(void *key1, void *key2)
-{
-    return PTR_TO_UINT(key1) != PTR_TO_UINT(key2);
-}
-
-struct pb_manager *radeon_bomgr_create(struct radeon_drm_winsys *rws)
-{
-    struct radeon_bomgr *mgr;
-
-    mgr = CALLOC_STRUCT(radeon_bomgr);
-    if (!mgr)
-        return NULL;
-
-    mgr->base.destroy = radeon_bomgr_destroy;
-    mgr->base.create_buffer = radeon_bomgr_create_bo;
-    mgr->base.flush = radeon_bomgr_flush;
-    mgr->base.is_buffer_busy = radeon_bomgr_is_buffer_busy;
-
-    mgr->rws = rws;
-    mgr->bo_handles = util_hash_table_create(handle_hash, handle_compare);
-    pipe_mutex_init(mgr->bo_handles_mutex);
-    pipe_mutex_init(mgr->bo_va_mutex);
-
-    mgr->va = rws->info.r600_virtual_address;
-    mgr->va_offset = rws->info.r600_va_start;
-    list_inithead(&mgr->va_holes);
-
-    return &mgr->base;
-}
-
-static void *radeon_bo_map(struct pb_buffer *buf,
-                           struct radeon_winsys_cs *cs,
-                           enum pipe_transfer_usage usage)
-{
-    return pb_map(buf, get_pb_usage_from_transfer_flags(usage), cs);
+   return radeon_bo_wait(_buf, 0, RADEON_USAGE_READWRITE);
  }
  
  static unsigned eg_tile_split(unsigned tile_split)
@@ -635,15 +622,30 @@ static unsigned eg_tile_split(unsigned tile_split)
      return tile_split;
  }
  
+static unsigned eg_tile_split_rev(unsigned eg_tile_split)
+{
+    switch (eg_tile_split) {
+    case 64:    return 0;
+    case 128:   return 1;
+    case 256:   return 2;
+    case 512:   return 3;
+    default:
+    case 1024:  return 4;
+    case 2048:  return 5;
+    case 4096:  return 6;
+    }
+}
+
  static void radeon_bo_get_tiling(struct pb_buffer *_buf,
                                   enum radeon_bo_layout *microtiled,
                                   enum radeon_bo_layout *macrotiled,
                                   unsigned *bankw, unsigned *bankh,
                                   unsigned *tile_split,
                                   unsigned *stencil_tile_split,
-                                 unsigned *mtilea)
+                                 unsigned *mtilea,
+                                 bool *scanout)
  {
-    struct radeon_bo *bo = get_radeon_bo(_buf);
+    struct radeon_bo *bo = radeon_bo(_buf);
      struct drm_radeon_gem_set_tiling args;
  
      memset(&args, 0, sizeof(args));
@@ -657,10 +659,12 @@ static void radeon_bo_get_tiling(struct pb_buffer *_buf,
  
      *microtiled = RADEON_LAYOUT_LINEAR;
      *macrotiled = RADEON_LAYOUT_LINEAR;
-    if (args.tiling_flags & RADEON_BO_FLAGS_MICRO_TILE)
+    if (args.tiling_flags & RADEON_TILING_MICRO)
          *microtiled = RADEON_LAYOUT_TILED;
+    else if (args.tiling_flags & RADEON_TILING_MICRO_SQUARE)
+        *microtiled = RADEON_LAYOUT_SQUARETILED;
  
-    if (args.tiling_flags & RADEON_BO_FLAGS_MACRO_TILE)
+    if (args.tiling_flags & RADEON_TILING_MACRO)
          *macrotiled = RADEON_LAYOUT_TILED;
      if (bankw && tile_split && stencil_tile_split && mtilea && tile_split) {
          *bankw = (args.tiling_flags >> RADEON_TILING_EG_BANKW_SHIFT) & RADEON_TILING_EG_BANKW_MASK;
@@ -670,15 +674,23 @@ static void radeon_bo_get_tiling(struct pb_buffer *_buf,
          *mtilea = (args.tiling_flags >> RADEON_TILING_EG_MACRO_TILE_ASPECT_SHIFT) & RADEON_TILING_EG_MACRO_TILE_ASPECT_MASK;
          *tile_split = eg_tile_split(*tile_split);
      }
+    if (scanout)
+        *scanout = bo->rws->gen >= DRV_SI && !(args.tiling_flags & RADEON_TILING_R600_NO_SCANOUT);
  }
  
  static void radeon_bo_set_tiling(struct pb_buffer *_buf,
                                   struct radeon_winsys_cs *rcs,
                                   enum radeon_bo_layout microtiled,
                                   enum radeon_bo_layout macrotiled,
-                                 uint32_t pitch)
+                                 unsigned pipe_config,
+                                 unsigned bankw, unsigned bankh,
+                                 unsigned tile_split,
+                                 unsigned stencil_tile_split,
+                                 unsigned mtilea, unsigned num_banks,
+                                 uint32_t pitch,
+                                 bool scanout)
  {
-    struct radeon_bo *bo = get_radeon_bo(_buf);
+    struct radeon_bo *bo = radeon_bo(_buf);
      struct radeon_drm_cs *cs = radeon_drm_cs(rcs);
      struct drm_radeon_gem_set_tiling args;
  
@@ -687,20 +699,36 @@ static void radeon_bo_set_tiling(struct pb_buffer *_buf,
      /* Tiling determines how DRM treats the buffer data.
       * We must flush CS when changing it if the buffer is referenced. */
      if (cs && radeon_bo_is_referenced_by_cs(cs, bo)) {
-        cs->flush_cs(cs->flush_data, 0);
+        cs->flush_cs(cs->flush_data, 0, NULL);
      }
  
-    while (p_atomic_read(&bo->num_active_ioctls)) {
-        sched_yield();
-    }
+    os_wait_until_zero(&bo->num_active_ioctls, PIPE_TIMEOUT_INFINITE);
  
      if (microtiled == RADEON_LAYOUT_TILED)
-        args.tiling_flags |= RADEON_BO_FLAGS_MICRO_TILE;
+        args.tiling_flags |= RADEON_TILING_MICRO;
      else if (microtiled == RADEON_LAYOUT_SQUARETILED)
-        args.tiling_flags |= RADEON_BO_FLAGS_MICRO_TILE_SQUARE;
+        args.tiling_flags |= RADEON_TILING_MICRO_SQUARE;
  
      if (macrotiled == RADEON_LAYOUT_TILED)
-        args.tiling_flags |= RADEON_BO_FLAGS_MACRO_TILE;
+        args.tiling_flags |= RADEON_TILING_MACRO;
+
+    args.tiling_flags |= (bankw & RADEON_TILING_EG_BANKW_MASK) <<
+        RADEON_TILING_EG_BANKW_SHIFT;
+    args.tiling_flags |= (bankh & RADEON_TILING_EG_BANKH_MASK) <<
+        RADEON_TILING_EG_BANKH_SHIFT;
+    if (tile_split) {
+       args.tiling_flags |= (eg_tile_split_rev(tile_split) &
+                             RADEON_TILING_EG_TILE_SPLIT_MASK) <<
+           RADEON_TILING_EG_TILE_SPLIT_SHIFT;
+    }
+    args.tiling_flags |= (stencil_tile_split &
+                         RADEON_TILING_EG_STENCIL_TILE_SPLIT_MASK) <<
+        RADEON_TILING_EG_STENCIL_TILE_SPLIT_SHIFT;
+    args.tiling_flags |= (mtilea & RADEON_TILING_EG_MACRO_TILE_ASPECT_MASK) <<
+        RADEON_TILING_EG_MACRO_TILE_ASPECT_SHIFT;
+
+    if (bo->rws->gen >= DRV_SI && !scanout)
+        args.tiling_flags |= RADEON_TILING_R600_NO_SCANOUT;
  
      args.handle = bo->handle;
      args.pitch = pitch;
@@ -711,44 +739,138 @@ static void radeon_bo_set_tiling(struct pb_buffer *_buf,
                          sizeof(args));
  }
  
-static struct radeon_winsys_cs_handle *radeon_drm_get_cs_handle(
-        struct pb_buffer *_buf)
-{
-    /* return radeon_bo. */
-    return (struct radeon_winsys_cs_handle*)get_radeon_bo(_buf);
-}
-
  static struct pb_buffer *
  radeon_winsys_bo_create(struct radeon_winsys *rws,
                          unsigned size,
                          unsigned alignment,
-                        unsigned bind,
-                        enum radeon_bo_domain domain)
+                        boolean use_reusable_pool,
+                        enum radeon_bo_domain domain,
+                        enum radeon_bo_flag flags)
  {
      struct radeon_drm_winsys *ws = radeon_drm_winsys(rws);
-    struct radeon_bo_desc desc;
-    struct pb_manager *provider;
-    struct pb_buffer *buffer;
+    struct radeon_bo *bo;
+    unsigned usage = 0;
+
+    /* Align size to page size. This is the minimum alignment for normal
+     * BOs. Aligning this here helps the cached bufmgr. Especially small BOs,
+     * like constant/uniform buffers, can benefit from better and more reuse.
+     */
+    size = align(size, ws->size_align);
+
+    /* Only set one usage bit each for domains and flags, or the cache manager
+     * might consider different sets of domains / flags compatible
+     */
+    if (domain == RADEON_DOMAIN_VRAM_GTT)
+        usage = 1 << 2;
+    else
+        usage = domain >> 1;
+    assert(flags < sizeof(usage) * 8 - 3);
+    usage |= 1 << (flags + 3);
+
+    if (use_reusable_pool) {
+        bo = radeon_bo(pb_cache_reclaim_buffer(&ws->bo_cache, size, alignment, usage));
+        if (bo)
+            return &bo->base;
+    }
  
-    memset(&desc, 0, sizeof(desc));
-    desc.base.alignment = alignment;
+    bo = radeon_create_bo(ws, size, alignment, usage, domain, flags);
+    if (!bo) {
+        /* Clear the cache and try again. */
+        pb_cache_release_all_buffers(&ws->bo_cache);
+        bo = radeon_create_bo(ws, size, alignment, usage, domain, flags);
+        if (!bo)
+            return NULL;
+    }
  
-    /* Additional criteria for the cache manager. */
-    desc.base.usage = domain;
-    desc.initial_domains = domain;
+    bo->use_reusable_pool = use_reusable_pool;
  
-    /* Assign a buffer manager. */
-    if (bind & (PIPE_BIND_VERTEX_BUFFER | PIPE_BIND_INDEX_BUFFER |
-                PIPE_BIND_CONSTANT_BUFFER | PIPE_BIND_CUSTOM))
-        provider = ws->cman;
-    else
-        provider = ws->kman;
+    pipe_mutex_lock(ws->bo_handles_mutex);
+    util_hash_table_set(ws->bo_handles, (void*)(uintptr_t)bo->handle, bo);
+    pipe_mutex_unlock(ws->bo_handles_mutex);
+
+    return &bo->base;
+}
  
-    buffer = provider->create_buffer(provider, size, &desc.base);
-    if (!buffer)
+static struct pb_buffer *radeon_winsys_bo_from_ptr(struct radeon_winsys *rws,
+                                                   void *pointer, unsigned size)
+{
+    struct radeon_drm_winsys *ws = radeon_drm_winsys(rws);
+    struct drm_radeon_gem_userptr args;
+    struct radeon_bo *bo;
+    int r;
+
+    bo = CALLOC_STRUCT(radeon_bo);
+    if (!bo)
+        return NULL;
+
+    memset(&args, 0, sizeof(args));
+    args.addr = (uintptr_t)pointer;
+    args.size = align(size, sysconf(_SC_PAGE_SIZE));
+    args.flags = RADEON_GEM_USERPTR_ANONONLY |
+        RADEON_GEM_USERPTR_VALIDATE |
+        RADEON_GEM_USERPTR_REGISTER;
+    if (drmCommandWriteRead(ws->fd, DRM_RADEON_GEM_USERPTR,
+                            &args, sizeof(args))) {
+        FREE(bo);
          return NULL;
+    }
+
+    pipe_mutex_lock(ws->bo_handles_mutex);
+
+    /* Initialize it. */
+    pipe_reference_init(&bo->base.reference, 1);
+    bo->handle = args.handle;
+    bo->base.alignment = 0;
+    bo->base.usage = PB_USAGE_GPU_WRITE | PB_USAGE_GPU_READ;
+    bo->base.size = size;
+    bo->base.vtbl = &radeon_bo_vtbl;
+    bo->rws = ws;
+    bo->user_ptr = pointer;
+    bo->va = 0;
+    bo->initial_domain = RADEON_DOMAIN_GTT;
+    pipe_mutex_init(bo->map_mutex);
+
+    util_hash_table_set(ws->bo_handles, (void*)(uintptr_t)bo->handle, bo);
+
+    pipe_mutex_unlock(ws->bo_handles_mutex);
+
+    if (ws->info.r600_virtual_address) {
+        struct drm_radeon_gem_va va;
+
+        bo->va = radeon_bomgr_find_va(ws, bo->base.size, 1 << 20);
+
+        va.handle = bo->handle;
+        va.operation = RADEON_VA_MAP;
+        va.vm_id = 0;
+        va.offset = bo->va;
+        va.flags = RADEON_VM_PAGE_READABLE |
+                   RADEON_VM_PAGE_WRITEABLE |
+                   RADEON_VM_PAGE_SNOOPED;
+        va.offset = bo->va;
+        r = drmCommandWriteRead(ws->fd, DRM_RADEON_GEM_VA, &va, sizeof(va));
+        if (r && va.operation == RADEON_VA_RESULT_ERROR) {
+            fprintf(stderr, "radeon: Failed to assign virtual address space\n");
+            radeon_bo_destroy(&bo->base);
+            return NULL;
+        }
+        pipe_mutex_lock(ws->bo_handles_mutex);
+        if (va.operation == RADEON_VA_RESULT_VA_EXIST) {
+            struct pb_buffer *b = &bo->base;
+            struct radeon_bo *old_bo =
+                util_hash_table_get(ws->bo_vas, (void*)(uintptr_t)va.offset);
+
+            pipe_mutex_unlock(ws->bo_handles_mutex);
+            pb_reference(&b, &old_bo->base);
+            return b;
+        }
+
+        util_hash_table_set(ws->bo_vas, (void*)(uintptr_t)bo->va, bo);
+        pipe_mutex_unlock(ws->bo_handles_mutex);
+    }
  
-    return (struct pb_buffer*)buffer;
+    ws->allocated_gtt += align(bo->base.size, ws->size_align);
+
+    return (struct pb_buffer*)bo;
  }
  
  static struct pb_buffer *radeon_winsys_bo_from_handle(struct radeon_winsys *rws,
@@ -757,11 +879,9 @@ static struct pb_buffer *radeon_winsys_bo_from_handle(struct radeon_winsys *rws,
  {
      struct radeon_drm_winsys *ws = radeon_drm_winsys(rws);
      struct radeon_bo *bo;
-    struct radeon_bomgr *mgr = radeon_bomgr(ws->kman);
-    struct drm_gem_open open_arg = {};
      int r;
-
-    memset(&open_arg, 0, sizeof(open_arg));
+    unsigned handle;
+    uint64_t size = 0;
  
      /* We must maintain a list of pairs <handle, bo>, so that we always return
       * the same BO for one particular handle. If we didn't do that and created
@@ -769,10 +889,22 @@ static struct pb_buffer *radeon_winsys_bo_from_handle(struct radeon_winsys *rws,
       * we would hit a deadlock in the kernel.
       *
       * The list of pairs is guarded by a mutex, of course. */
-    pipe_mutex_lock(mgr->bo_handles_mutex);
+    pipe_mutex_lock(ws->bo_handles_mutex);
+
+    if (whandle->type == DRM_API_HANDLE_TYPE_SHARED) {
+        /* First check if there already is an existing bo for the handle. */
+        bo = util_hash_table_get(ws->bo_names, (void*)(uintptr_t)whandle->handle);
+    } else if (whandle->type == DRM_API_HANDLE_TYPE_FD) {
+        /* We must first get the GEM handle, as fds are unreliable keys */
+        r = drmPrimeFDToHandle(ws->fd, whandle->handle, &handle);
+        if (r)
+            goto fail;
+        bo = util_hash_table_get(ws->bo_handles, (void*)(uintptr_t)handle);
+    } else {
+        /* Unknown handle type */
+        goto fail;
+    }
  
-    /* First check if there already is an existing bo for the handle. */
-    bo = util_hash_table_get(mgr->bo_handles, (void*)(uintptr_t)whandle->handle);
      if (bo) {
          /* Increase the refcount. */
          struct pb_buffer *b = NULL;
@@ -786,39 +918,58 @@ static struct pb_buffer *radeon_winsys_bo_from_handle(struct radeon_winsys *rws,
          goto fail;
      }
  
-    /* Open the BO. */
-    open_arg.name = whandle->handle;
-    if (drmIoctl(ws->fd, DRM_IOCTL_GEM_OPEN, &open_arg)) {
-        FREE(bo);
-        goto fail;
+    if (whandle->type == DRM_API_HANDLE_TYPE_SHARED) {
+        struct drm_gem_open open_arg = {};
+        memset(&open_arg, 0, sizeof(open_arg));
+        /* Open the BO. */
+        open_arg.name = whandle->handle;
+        if (drmIoctl(ws->fd, DRM_IOCTL_GEM_OPEN, &open_arg)) {
+            FREE(bo);
+            goto fail;
+        }
+        handle = open_arg.handle;
+        size = open_arg.size;
+        bo->flink_name = whandle->handle;
+    } else if (whandle->type == DRM_API_HANDLE_TYPE_FD) {
+        size = lseek(whandle->handle, 0, SEEK_END);
+        /* 
+         * Could check errno to determine whether the kernel is new enough, but
+         * it doesn't really matter why this failed, just that it failed.
+         */
+        if (size == (off_t)-1) {
+            FREE(bo);
+            goto fail;
+        }
+        lseek(whandle->handle, 0, SEEK_SET);
      }
-    bo->handle = open_arg.handle;
-    bo->name = whandle->handle;
+
+    bo->handle = handle;
  
      /* Initialize it. */
      pipe_reference_init(&bo->base.reference, 1);
      bo->base.alignment = 0;
      bo->base.usage = PB_USAGE_GPU_WRITE | PB_USAGE_GPU_READ;
-    bo->base.size = open_arg.size;
+    bo->base.size = (unsigned) size;
      bo->base.vtbl = &radeon_bo_vtbl;
-    bo->mgr = mgr;
-    bo->rws = mgr->rws;
+    bo->rws = ws;
      bo->va = 0;
      pipe_mutex_init(bo->map_mutex);
  
-    util_hash_table_set(mgr->bo_handles, (void*)(uintptr_t)whandle->handle, bo);
+    if (bo->flink_name)
+        util_hash_table_set(ws->bo_names, (void*)(uintptr_t)bo->flink_name, bo);
+
+    util_hash_table_set(ws->bo_handles, (void*)(uintptr_t)bo->handle, bo);
  
  done:
-    pipe_mutex_unlock(mgr->bo_handles_mutex);
+    pipe_mutex_unlock(ws->bo_handles_mutex);
  
      if (stride)
          *stride = whandle->stride;
  
-    if (mgr->va) {
+    if (ws->info.r600_virtual_address && !bo->va) {
          struct drm_radeon_gem_va va;
  
-        bo->va_size = ((bo->base.size + 4095) & ~4095);
-        bo->va = radeon_bomgr_find_va(mgr, bo->va_size);
+        bo->va = radeon_bomgr_find_va(ws, bo->base.size, 1 << 20);
  
          va.handle = bo->handle;
          va.operation = RADEON_VA_MAP;
@@ -834,17 +985,32 @@ done:
              radeon_bo_destroy(&bo->base);
              return NULL;
          }
+        pipe_mutex_lock(ws->bo_handles_mutex);
          if (va.operation == RADEON_VA_RESULT_VA_EXIST) {
-            radeon_bomgr_free_va(mgr, bo->va, bo->va_size);
-            bo->va = va.offset;
-            radeon_bomgr_force_va(mgr, bo->va, bo->va_size);
+            struct pb_buffer *b = &bo->base;
+            struct radeon_bo *old_bo =
+                util_hash_table_get(ws->bo_vas, (void*)(uintptr_t)va.offset);
+
+            pipe_mutex_unlock(ws->bo_handles_mutex);
+            pb_reference(&b, &old_bo->base);
+            return b;
          }
+
+        util_hash_table_set(ws->bo_vas, (void*)(uintptr_t)bo->va, bo);
+        pipe_mutex_unlock(ws->bo_handles_mutex);
      }
  
+    bo->initial_domain = radeon_bo_get_initial_domain((void*)bo);
+
+    if (bo->initial_domain & RADEON_DOMAIN_VRAM)
+        ws->allocated_vram += align(bo->base.size, ws->size_align);
+    else if (bo->initial_domain & RADEON_DOMAIN_GTT)
+        ws->allocated_gtt += align(bo->base.size, ws->size_align);
+
      return (struct pb_buffer*)bo;
  
  fail:
-    pipe_mutex_unlock(mgr->bo_handles_mutex);
+    pipe_mutex_unlock(ws->bo_handles_mutex);
      return NULL;
  }
  
@@ -853,48 +1019,55 @@ static boolean radeon_winsys_bo_get_handle(struct pb_buffer *buffer,
                                             struct winsys_handle *whandle)
  {
      struct drm_gem_flink flink;
-    struct radeon_bo *bo = get_radeon_bo(buffer);
+    struct radeon_bo *bo = radeon_bo(buffer);
+    struct radeon_drm_winsys *ws = bo->rws;
  
      memset(&flink, 0, sizeof(flink));
  
+    bo->use_reusable_pool = false;
+
      if (whandle->type == DRM_API_HANDLE_TYPE_SHARED) {
-        if (!bo->flinked) {
+        if (!bo->flink_name) {
              flink.handle = bo->handle;
  
-            if (ioctl(bo->rws->fd, DRM_IOCTL_GEM_FLINK, &flink)) {
+            if (ioctl(ws->fd, DRM_IOCTL_GEM_FLINK, &flink)) {
                  return FALSE;
              }
  
-            bo->flinked = TRUE;
-            bo->flink = flink.name;
+            bo->flink_name = flink.name;
+
+            pipe_mutex_lock(ws->bo_handles_mutex);
+            util_hash_table_set(ws->bo_names, (void*)(uintptr_t)bo->flink_name, bo);
+            pipe_mutex_unlock(ws->bo_handles_mutex);
          }
-        whandle->handle = bo->flink;
+        whandle->handle = bo->flink_name;
      } else if (whandle->type == DRM_API_HANDLE_TYPE_KMS) {
          whandle->handle = bo->handle;
+    } else if (whandle->type == DRM_API_HANDLE_TYPE_FD) {
+        if (drmPrimeHandleToFD(ws->fd, bo->handle, DRM_CLOEXEC, (int*)&whandle->handle))
+            return FALSE;
      }
  
      whandle->stride = stride;
      return TRUE;
  }
  
-static uint64_t radeon_winsys_bo_va(struct pb_buffer *buffer)
+static uint64_t radeon_winsys_bo_va(struct pb_buffer *buf)
  {
-    struct radeon_bo *bo = get_radeon_bo(buffer);
-
-    return bo->va;
+    return ((struct radeon_bo*)buf)->va;
  }
  
-void radeon_bomgr_init_functions(struct radeon_drm_winsys *ws)
+void radeon_drm_bo_init_functions(struct radeon_drm_winsys *ws)
  {
-    ws->base.buffer_get_cs_handle = radeon_drm_get_cs_handle;
      ws->base.buffer_set_tiling = radeon_bo_set_tiling;
      ws->base.buffer_get_tiling = radeon_bo_get_tiling;
      ws->base.buffer_map = radeon_bo_map;
-    ws->base.buffer_unmap = pb_unmap;
+    ws->base.buffer_unmap = radeon_bo_unmap;
      ws->base.buffer_wait = radeon_bo_wait;
-    ws->base.buffer_is_busy = radeon_bo_is_busy;
      ws->base.buffer_create = radeon_winsys_bo_create;
      ws->base.buffer_from_handle = radeon_winsys_bo_from_handle;
+    ws->base.buffer_from_ptr = radeon_winsys_bo_from_ptr;
      ws->base.buffer_get_handle = radeon_winsys_bo_get_handle;
      ws->base.buffer_get_virtual_address = radeon_winsys_bo_va;
+    ws->base.buffer_get_initial_domain = radeon_bo_get_initial_domain;
  }