vc4: Improve interleaving of texture coordinates vs results.
authorEric Anholt <eric@anholt.net>
Wed, 30 Nov 2016 19:52:06 +0000 (11:52 -0800)
committerEric Anholt <eric@anholt.net>
Thu, 1 Dec 2016 03:58:09 +0000 (19:58 -0800)
commitd182740ac8bf2fc3aefe331235bfe72bbdd9987d
treedea5aa69162b710cb1fc1d2ab7577e0e5fd4acc1
parent1f9daf7cd1cf3d31571776a0142e9e339168a8df
vc4: Improve interleaving of texture coordinates vs results.

The latency_between was trying to handle the delay between the coordinate
write ("before") and the corresponding sample read ("after"), but we were
handing in the two instructions swapped.

This meant that we tried to fit things between a tex_s and its *preceding*
tex_result.  This made us only interleave normal texture coordinates by
accident, and pessimized UBO reads by pushing the tex_result collection
earlier until there was nothing but it (and then its preceding coordinate
setup) left.

In addition to latency reduction, things end up packing better (probably
due to reduced live ranges of the texture results):

total instructions in shared programs: 98121 -> 94775 (-3.41%)
instructions in affected programs:     91196 -> 87850 (-3.67%)

3DMMES performance +1.15569% +/- 0.124714% (n=8,10)
src/gallium/drivers/vc4/vc4_qir_schedule.c