vc4: Don't conditionalize the src1 mov of qir_SEL().
authorEric Anholt <eric@anholt.net>
Tue, 22 Nov 2016 07:52:37 +0000 (23:52 -0800)
committerEric Anholt <eric@anholt.net>
Wed, 23 Nov 2016 00:46:03 +0000 (16:46 -0800)
My thought in having both arguments conditionally moved was that it should
theoretically save some power by not doing work in those channels.
However, it ends up costing us instructions because we can't
register-coalesce the first of the MOVs, and it also introduces extra
scheduling dependencies.  The instruction cost would swamp whatever power
benefit I was hoping for.

shader-db results:
total instructions in shared programs: 100548 -> 99741 (-0.80%)
instructions in affected programs:     42450 -> 41643 (-1.90%)

With obvious outliers removed (I had an X11 emacs running over the network
in the "after" case), 3DMMES Taiji showed 1.07231% +/- 0.488241% fps
improvement (n=18, 30).

src/gallium/drivers/vc4/vc4_qir.h

index eebfdf047dfda63b10d185642f2455d8d30a9c40..ba3fbd7b283e205bb2a05228bef45cee55e8e80f 100644 (file)
@@ -757,10 +757,8 @@ static inline struct qreg
 qir_SEL(struct vc4_compile *c, uint8_t cond, struct qreg src0, struct qreg src1)
 {
         struct qreg t = qir_get_temp(c);
-        struct qinst *a = qir_MOV_dest(c, t, src0);
-        struct qinst *b = qir_MOV_dest(c, t, src1);
-        a->cond = cond;
-        b->cond = qpu_cond_complement(cond);
+        qir_MOV_dest(c, t, src1);
+        qir_MOV_dest(c, t, src0)->cond = cond;
         return t;
 }