Cell: some basic blending code
[mesa.git] / src / mesa / x86 / 3dnow_normal.S
index f7cc069b1658571f3d014d0efd93f5b5a6f4b7d5..f3bbcb27b7f487b3410745e1e055e06554539c34 100644 (file)
@@ -1,10 +1,10 @@
-/* $Id: 3dnow_normal.S,v 1.1 2001/03/29 06:46:16 gareth Exp $ */
+/* $Id: 3dnow_normal.S,v 1.10 2006/04/17 18:58:24 krh Exp $ */
 
 /*
  * Mesa 3-D graphics library
- * Version:  3.5
+ * Version:  5.1
  *
- * Copyright (C) 1999-2001  Brian Paul   All Rights Reserved.
+ * Copyright (C) 1999-2003  Brian Paul   All Rights Reserved.
  *
  * Permission is hereby granted, free of charge, to any person obtaining a
  * copy of this software and associated documentation files (the "Software"),
@@ -28,6 +28,8 @@
  * 3Dnow assembly code by Holger Waechtler
  */
 
+#ifdef USE_3DNOW_ASM
+
 #include "matypes.h"
 #include "norm_args.h"
 
 
 ALIGNTEXT16
 GLOBL GLNAME(_mesa_3dnow_transform_normalize_normals)
+HIDDEN(_mesa_3dnow_transform_normalize_normals)
 GLNAME(_mesa_3dnow_transform_normalize_normals):
 
- #define FRAME_OFFSET 12
+#define FRAME_OFFSET 12
 
     PUSH_L     ( EDI )
     PUSH_L     ( ESI )
@@ -50,25 +53,25 @@ GLNAME(_mesa_3dnow_transform_normalize_normals):
     MOV_L      ( ARG_LENGTHS, EDI )
     MOV_L      ( ARG_IN, ESI )
     MOV_L      ( ARG_DEST, EAX )
-    MOV_L      ( REGOFF(V3F_COUNT, ESI), EBP ) /*  dest->count = in->count   */
-    MOV_L      ( EBP, REGOFF(V3F_COUNT, EAX) )
-    MOV_L      ( REGOFF(V3F_START, ESI), EDX ) /*  in->start    */
-    MOV_L      ( REGOFF(V3F_START, EAX), EAX ) /*  dest->start  */
+    MOV_L      ( REGOFF(V4F_COUNT, ESI), EBP ) /*  dest->count = in->count   */
+    MOV_L      ( EBP, REGOFF(V4F_COUNT, EAX) )
+    MOV_L      ( REGOFF(V4F_START, ESI), EDX ) /*  in->start    */
+    MOV_L      ( REGOFF(V4F_START, EAX), EAX ) /*  dest->start  */
     MOV_L      ( ARG_MAT, ECX )
     MOV_L      ( REGOFF(MATRIX_INV, ECX), ECX ) /*  mat->inv     */
 
     CMP_L      ( CONST(0), EBP )        /*   count > 0 ??  */
     JE         ( LLBL (G3TN_end) )
 
-    MOV_L      ( REGOFF (V3F_COUNT, ESI), EBP )
+    MOV_L      ( REGOFF (V4F_COUNT, ESI), EBP )
     FEMMS
 
     PUSH_L     ( EBP )
     PUSH_L     ( EAX )
     PUSH_L     ( EDX )                  /*  save counter & pointer for   */
                                         /*  the normalize pass           */
- #undef  FRAME_OFFSET
- #define FRAME_OFFSET 24
+#undef  FRAME_OFFSET
+#define FRAME_OFFSET 24
 
     MOVQ       ( M(0), MM3 )            /*  m1              | m0         */
     MOVQ       ( M(4), MM4 )            /*  m5              | m4         */
@@ -91,17 +94,17 @@ GLNAME(_mesa_3dnow_transform_normalize_normals):
     PFMUL      ( MM0, MM6 )             /* scale * m9    | scale * m8      */
     PFMUL      ( MM0, MM7 )             /*               | scale * m10     */
 
+ALIGNTEXT32
 LLBL (G3TN_scale_end):
+LLBL (G3TN_transform):
     MOVQ       ( REGIND (EDX), MM0 )    /*  x1              | x0         */
     MOVD       ( REGOFF (8, EDX), MM2 ) /*                  | x2         */
 
-ALIGNTEXT32
-LLBL (G3TN_transform):
     MOVQ       ( MM0, MM1 )             /*  x1              | x0           */
     PUNPCKLDQ  ( MM2, MM2 )             /*  x2              | x2           */
 
     PFMUL      ( MM3, MM0 )             /*  x1*m1           | x0*m0        */
-    ADD_L      ( CONST(12), EAX )       /*  next r                         */
+    ADD_L      ( CONST(16), EAX )       /*  next r                         */
 
     PREFETCHW  ( REGIND(EAX) )
 
@@ -112,7 +115,7 @@ LLBL (G3TN_transform):
     PFADD      ( MM2, MM0 )             /* x0*m4+x1*m5+x2*m6| x0*m0+...+x2**/
 
     MOVQ       ( REGIND (EDX), MM1 )    /*  x1           | x0              */
-    MOVQ       ( MM0, REGOFF(-12, EAX) ) /* write r0, r1                   */
+    MOVQ       ( MM0, REGOFF(-16, EAX) ) /* write r0, r1                   */
 
     PFMUL      ( MM6, MM1 )             /* x1*m9         | x0*m8           */
     MOVD       ( REGOFF (8, EDX), MM2 ) /*               | x2              */
@@ -125,21 +128,15 @@ LLBL (G3TN_transform):
 
     PREFETCH   ( REGIND(EDX) )
 
-    MOVD       ( MM1, REGOFF(-4, EAX) ) /*  write r2                       */
-    MOVQ       ( REGIND (EDX), MM0 )    /*  x1           | x0              */
-
-    MOVD       ( REGOFF (8, EDX), MM2 ) /*               | x2              */
-    DEC_L      ( EBP )                  /*  decrement normal counter       */
-    JA         ( LLBL (G3TN_transform) )
+    MOVD       ( MM1, REGOFF(-8, EAX) ) /*  write r2                       */
+    SUB_L      ( CONST(1), EBP )                  /*  decrement normal counter       */
+    JNZ        ( LLBL (G3TN_transform) )
 
 
     POP_L      ( EDX )                  /*  end of transform ---           */
     POP_L      ( EAX )                  /*    now normalizing ...          */
     POP_L      ( EBP )
 
-    MOVQ       ( REGIND(EAX), MM0 )     /*  x1              | x0           */
-    MOVD       ( REGOFF(8, EAX), MM1 )  /*                  | x2           */
-
     CMP_L      ( CONST(0), EDI )        /*  lengths == 0 ?                 */
     JE         ( LLBL (G3TN_norm ) )    /*  calculate lengths              */
 
@@ -149,6 +146,9 @@ LLBL (G3TN_norm_w_lengths):
 
     PREFETCHW  ( REGOFF(12,EAX) )
 
+    MOVQ       ( REGIND(EAX), MM0 )     /*  x1              | x0           */
+    MOVD       ( REGOFF(8, EAX), MM1 )  /*                  | x2           */
+
     MOVD       ( REGIND (EDI), MM3 )    /*                  | length (x)   */
     PFMUL      ( MM3, MM1 )             /*                  | x2 (normalize*/
 
@@ -163,12 +163,10 @@ LLBL (G3TN_norm_w_lengths):
     MOVQ       ( MM0, REGIND(EAX) )     /*  write new x0, x1               */
     MOVD       ( MM1, REGOFF(8, EAX) )  /*  write new x2                   */
 
-    ADD_L      ( CONST(12), EAX )       /*  next r                         */
-    DEC_L      ( EBP )                  /*  decrement normal counter       */
+    ADD_L      ( CONST(16), EAX )       /*  next r                         */
+    SUB_L      ( CONST(1), EBP )        /*  decrement normal counter       */
 
-    MOVQ       ( REGIND(EAX), MM0 )     /*  x1              | x0           */
-    MOVD       ( REGOFF(8, EAX), MM1 )  /*                  | x2           */
-    JA         ( LLBL (G3TN_norm_w_lengths) )
+    JNZ        ( LLBL (G3TN_norm_w_lengths) )
     JMP        ( LLBL (G3TN_exit_3dnow) )
 
 ALIGNTEXT32
@@ -176,11 +174,14 @@ LLBL (G3TN_norm):
 
     PREFETCHW  ( REGIND(EAX) )
 
+    MOVQ       ( REGIND (EAX), MM0 )    /*  x1             | x0           */
+    MOVD       ( REGOFF(8, EAX), MM1 )  /*                 | x2           */
+
     MOVQ       ( MM0, MM3 )             /*  x1              | x0           */
     MOVQ       ( MM1, MM4 )             /*                  | x2           */
 
     PFMUL      ( MM0, MM3 )             /*  x1*x1           | x0*x0        */
-    ADD_L      ( CONST(12), EAX )       /*  next r                         */
+    ADD_L      ( CONST(16), EAX )       /*  next r                         */
 
     PFMUL      ( MM1, MM4 )             /*                  | x2*x2        */
     PFADD      ( MM4, MM3 )             /*                  | x0*x0+x2*x2  */
@@ -191,7 +192,7 @@ LLBL (G3TN_norm):
     MOVQ       ( MM5, MM4 )
     PUNPCKLDQ  ( MM3, MM3 )
 
-    DEC_L      ( EBP )                  /*  decrement normal counter       */
+    SUB_L      ( CONST(1), EBP )                  /*  decrement normal counter       */
     PFMUL      ( MM5, MM5 )
 
     PFRSQIT1   ( MM3, MM5 )
@@ -199,14 +200,11 @@ LLBL (G3TN_norm):
 
     PFMUL      ( MM5, MM0 )             /*  x1 (normalized) | x0 (normalize*/
 
-    MOVQ       ( MM0, REGOFF(-12, EAX) ) /*  write new x0, x1              */
+    MOVQ       ( MM0, REGOFF(-16, EAX) ) /*  write new x0, x1              */
     PFMUL      ( MM5, MM1 )             /*                 | x2 (normalize*/
 
-    MOVD       ( MM1, REGOFF(-4, EAX) ) /*  write new x2                  */
-    MOVQ       ( REGIND (EAX), MM0 )    /*  x1             | x0           */
-
-    MOVD       ( REGOFF(8, EAX), MM1 )  /*                 | x2           */
-    JA         ( LLBL (G3TN_norm) )
+    MOVD       ( MM1, REGOFF(-8, EAX) ) /*  write new x2                  */
+    JNZ        ( LLBL (G3TN_norm) )
 
 LLBL (G3TN_exit_3dnow):
     FEMMS
@@ -221,10 +219,11 @@ LLBL (G3TN_end):
 
 ALIGNTEXT16
 GLOBL GLNAME(_mesa_3dnow_transform_normalize_normals_no_rot)
+HIDDEN(_mesa_3dnow_transform_normalize_normals_no_rot)
 GLNAME(_mesa_3dnow_transform_normalize_normals_no_rot):
 
- #undef FRAME_OFFSET
- #define FRAME_OFFSET 12
+#undef FRAME_OFFSET
+#define FRAME_OFFSET 12
 
     PUSH_L     ( EDI )
     PUSH_L     ( ESI )
@@ -233,12 +232,12 @@ GLNAME(_mesa_3dnow_transform_normalize_normals_no_rot):
     MOV_L      ( ARG_LENGTHS, EDI )
     MOV_L      ( ARG_IN, ESI )
     MOV_L      ( ARG_DEST, EAX )
-    MOV_L      ( REGOFF(V3F_COUNT, ESI), EBP ) /*  dest->count = in->count   */
-    MOV_L      ( EBP, REGOFF(V3F_COUNT, EAX) )
+    MOV_L      ( REGOFF(V4F_COUNT, ESI), EBP ) /*  dest->count = in->count   */
+    MOV_L      ( EBP, REGOFF(V4F_COUNT, EAX) )
     MOV_L      ( ARG_MAT, ECX )
-    MOV_L      ( REGOFF(V3F_START, EAX), EAX ) /*  dest->start  */
+    MOV_L      ( REGOFF(V4F_START, EAX), EAX ) /*  dest->start  */
     MOV_L      ( REGOFF(MATRIX_INV, ECX), ECX ) /*  mat->inv     */
-    MOV_L      ( REGOFF(V3F_START, ESI), EDX ) /*  in->start    */
+    MOV_L      ( REGOFF(V4F_START, ESI), EDX ) /*  in->start    */
 
     CMP_L      ( CONST(0), EBP ) /*   count > 0 ??  */
     JE         ( LLBL (G3TNNR_end) )
@@ -262,9 +261,6 @@ GLNAME(_mesa_3dnow_transform_normalize_normals_no_rot):
 
 ALIGNTEXT32
 LLBL (G3TNNR_scale_end):
-    MOVQ       ( REGIND(EDX), MM6 )     /* x1            | x0                 */
-    MOVD       ( REGOFF(8, EDX), MM7 )  /*               | x2                 */
-
     CMP_L      ( CONST(0), EDI )        /* lengths == 0 ?                     */
     JE         ( LLBL (G3TNNR_norm) )   /* need to calculate lengths          */
 
@@ -276,13 +272,16 @@ LLBL (G3TNNR_norm_w_lengths):           /* use precalculated lengths          */
 
     PREFETCHW  ( REGIND(EAX) )
 
+    MOVQ       ( REGIND(EDX), MM6 )     /* x1            | x0                 */
+    MOVD       ( REGOFF(8, EDX), MM7 )  /*               | x2                 */
+
     PFMUL      ( MM0, MM6 )             /* x1*m5         | x0*m0              */
     ADD_L      ( STRIDE, EDX )          /* next normal                        */
 
     PREFETCH   ( REGIND(EDX) )
 
     PFMUL      ( MM2, MM7 )             /*               | x2*m10             */
-    ADD_L      ( CONST(12), EAX )       /* next r                             */
+    ADD_L      ( CONST(16), EAX )       /* next r                             */
 
     PFMUL      ( MM3, MM7 )             /*               | x2 (normalized)  */
     PUNPCKLDQ  ( MM3, MM3 )             /* length (x)    | length (x)       */
@@ -290,16 +289,13 @@ LLBL (G3TNNR_norm_w_lengths):           /* use precalculated lengths          */
     ADD_L      ( CONST(4), EDI )        /* next length                        */
     PFMUL      ( MM3, MM6 )             /* x1 (normalized) | x0 (normalized)  */
 
-    DEC_L      ( EBP )                  /* decrement normal counter           */
-    MOVQ       ( MM6, REGOFF(-12, EAX) ) /* write r0, r1                      */
+    SUB_L      ( CONST(1), EBP )        /* decrement normal counter           */
+    MOVQ       ( MM6, REGOFF(-16, EAX) ) /* write r0, r1                      */
 
-    MOVD       ( MM7, REGOFF(-4, EAX) ) /* write r2                           */
+    MOVD       ( MM7, REGOFF(-8, EAX) ) /* write r2                           */
     MOVD       ( REGIND(EDI), MM3 )     /*                 | length (x)       */
 
-    MOVQ       ( REGIND(EDX), MM6 )     /* x1              | x0               */
-    MOVD       ( REGOFF(8, EDX), MM7 )  /*                 | x2               */
-
-    JA         ( LLBL (G3TNNR_norm_w_lengths) )
+    JNZ        ( LLBL (G3TNNR_norm_w_lengths) )
     JMP        ( LLBL (G3TNNR_exit_3dnow) )
 
 ALIGNTEXT32
@@ -307,8 +303,11 @@ LLBL (G3TNNR_norm):                     /* need to calculate lengths          */
 
     PREFETCHW  ( REGIND(EAX) )
 
+    MOVQ       ( REGIND(EDX), MM6 )     /* x1              | x0               */
+    MOVD       ( REGOFF(8, EDX), MM7 )  /*                 | x2               */
+
     PFMUL      ( MM0, MM6 )             /* x1*m5           | x0*m0            */
-    ADD_L      ( CONST(12), EAX )       /* next r                             */
+    ADD_L      ( CONST(16), EAX )       /* next r                             */
 
     PFMUL      ( MM2, MM7 )             /*                 | x2*m10           */
     MOVQ       ( MM6, MM3 )             /* x1 (transformed)| x0 (transformed) */
@@ -332,19 +331,16 @@ LLBL (G3TNNR_norm):                     /* need to calculate lengths          */
     PFMUL      ( MM5, MM5 )
 
     PFRSQIT1   ( MM3, MM5 )
-    DEC_L      ( EBP )                  /* decrement normal counter           */
+    SUB_L      ( CONST(1), EBP )        /* decrement normal counter           */
 
     PFRCPIT2   ( MM4, MM5 )
     PFMUL      ( MM5, MM6 )             /* x1 (normalized) | x0 (normalized)  */
 
-    MOVQ       ( MM6, REGOFF(-12, EAX) ) /* write r0, r1                      */
+    MOVQ       ( MM6, REGOFF(-16, EAX) ) /* write r0, r1                      */
     PFMUL      ( MM5, MM7 )             /*                 | x2 (normalized)  */
 
-    MOVD       ( MM7, REGOFF(-4, EAX) ) /* write r2                           */
-    MOVQ       ( REGIND(EDX), MM6 )     /* x1              | x0               */
-
-    MOVD       ( REGOFF(8, EDX), MM7 )  /*                 | x2               */
-    JA         ( LLBL (G3TNNR_norm) )
+    MOVD       ( MM7, REGOFF(-8, EAX) ) /* write r2                           */
+    JNZ        ( LLBL (G3TNNR_norm) )
 
 
 LLBL (G3TNNR_exit_3dnow):
@@ -363,10 +359,11 @@ LLBL (G3TNNR_end):
 
 ALIGNTEXT16
 GLOBL GLNAME(_mesa_3dnow_transform_rescale_normals_no_rot)
+HIDDEN(_mesa_3dnow_transform_rescale_normals_no_rot)
 GLNAME(_mesa_3dnow_transform_rescale_normals_no_rot):
 
- #undef FRAME_OFFSET
- #define FRAME_OFFSET 12
+#undef FRAME_OFFSET
+#define FRAME_OFFSET 12
 
     PUSH_L     ( EDI )
     PUSH_L     ( ESI )
@@ -374,13 +371,13 @@ GLNAME(_mesa_3dnow_transform_rescale_normals_no_rot):
 
     MOV_L      ( ARG_IN, EAX )
     MOV_L      ( ARG_DEST, EDX )
-    MOV_L      ( REGOFF(V3F_COUNT, EAX), EBP ) /*  dest->count = in->count   */
-    MOV_L      ( EBP, REGOFF(V3F_COUNT, EDX) )
+    MOV_L      ( REGOFF(V4F_COUNT, EAX), EBP ) /*  dest->count = in->count   */
+    MOV_L      ( EBP, REGOFF(V4F_COUNT, EDX) )
     MOV_L      ( ARG_IN, ESI )
     MOV_L      ( ARG_MAT, ECX )
     MOV_L      ( REGOFF(MATRIX_INV, ECX), ECX ) /*  mat->inv     */
-    MOV_L      ( REGOFF(V3F_START, EDX), EAX ) /*  dest->start  */
-    MOV_L      ( REGOFF(V3F_START, ESI), EDX ) /*  in->start    */
+    MOV_L      ( REGOFF(V4F_START, EDX), EAX ) /*  dest->start  */
+    MOV_L      ( REGOFF(V4F_START, ESI), EDX ) /*  in->start    */
 
     CMP_L      ( CONST(0), EBP )
     JE         ( LLBL (G3TRNR_end) )
@@ -396,32 +393,29 @@ GLNAME(_mesa_3dnow_transform_rescale_normals_no_rot):
     PFMUL      ( MM6, MM0 )             /* scale*m5      | scale*m0           */
     MOVD       ( REGOFF(40, ECX), MM2 ) /*               | m10                */
 
-    MOVQ       ( REGIND(EDX), MM4 )     /* x1            | x0                 */
     PFMUL      ( MM6, MM2 )             /*               | scale*m10          */
 
-    MOVD       ( REGOFF(8, EDX), MM5 )  /*               | x2                 */
-
 ALIGNTEXT32
 LLBL (G3TRNR_rescale):
 
     PREFETCHW  ( REGIND(EAX) )
-
+       
+    MOVQ       ( REGIND(EDX), MM4 )     /* x1            | x0                 */
+    MOVD       ( REGOFF(8, EDX), MM5 )  /*               | x2                 */
+       
     PFMUL      ( MM0, MM4 )             /* x1*m5         | x0*m0              */
     ADD_L      ( STRIDE, EDX )          /* next normal                        */
 
     PREFETCH   ( REGIND(EDX) )
 
     PFMUL      ( MM2, MM5 )             /*               | x2*m10             */
-    ADD_L      ( CONST(12), EAX )       /* next r                             */
-
-    DEC_L      ( EBP )                  /* decrement normal counter           */
-    MOVQ       ( MM4, REGOFF(-12, EAX) ) /* write r0, r1                      */
+    ADD_L      ( CONST(16), EAX )       /* next r                             */
 
-    MOVD       ( MM5, REGOFF(-4, EAX) ) /* write r2                           */
-    MOVQ       ( REGIND(EDX), MM4 )     /* x1            | x0                 */
+    SUB_L      ( CONST(1), EBP )        /* decrement normal counter           */
+    MOVQ       ( MM4, REGOFF(-16, EAX) ) /* write r0, r1                      */
 
-    MOVD       ( REGOFF(8, EDX), MM5 )  /*               | x2                 */
-    J        ( LLBL (G3TRNR_rescale) ) /* cnt > 0 ? -> process next normal  */
+    MOVD       ( MM5, REGOFF(-8, EAX) ) /* write r2                           */
+    JNZ        ( LLBL (G3TRNR_rescale) ) /* cnt > 0 ? -> process next normal  */
 
     FEMMS
 
@@ -437,10 +431,11 @@ LLBL (G3TRNR_end):
 
 ALIGNTEXT16
 GLOBL GLNAME(_mesa_3dnow_transform_rescale_normals)
+HIDDEN(_mesa_3dnow_transform_rescale_normals)
 GLNAME(_mesa_3dnow_transform_rescale_normals):
 
- #undef  FRAME_OFFSET
- #define FRAME_OFFSET 8
+#undef  FRAME_OFFSET
+#define FRAME_OFFSET 8
 
     PUSH_L     ( EDI )
     PUSH_L     ( ESI )
@@ -448,10 +443,10 @@ GLNAME(_mesa_3dnow_transform_rescale_normals):
     MOV_L      ( ARG_IN, ESI )
     MOV_L      ( ARG_DEST, EAX )
     MOV_L      ( ARG_MAT, ECX )
-    MOV_L      ( REGOFF(V3F_COUNT, ESI), EDI ) /*  dest->count = in->count   */
-    MOV_L      ( EDI, REGOFF(V3F_COUNT, EAX) )
-    MOV_L      ( REGOFF(V3F_START, EAX), EAX ) /*  dest->start  */
-    MOV_L      ( REGOFF(V3F_START, ESI), EDX ) /*  in->start    */
+    MOV_L      ( REGOFF(V4F_COUNT, ESI), EDI ) /*  dest->count = in->count   */
+    MOV_L      ( EDI, REGOFF(V4F_COUNT, EAX) )
+    MOV_L      ( REGOFF(V4F_START, EAX), EAX ) /*  dest->start  */
+    MOV_L      ( REGOFF(V4F_START, ESI), EDX ) /*  in->start    */
     MOV_L      ( REGOFF(MATRIX_INV, ECX), ECX ) /*  mat->inv     */
 
     CMP_L      ( CONST(0), EDI )
@@ -477,21 +472,22 @@ GLNAME(_mesa_3dnow_transform_rescale_normals):
     PFMUL      ( MM0, MM5 )             /* scale*m6      | scale*m2           */
 
     PFMUL      ( MM0, MM6 )             /* scale*m9      | scale*m8           */
-    MOVD       ( REGOFF(8, EDX), MM2 )  /*               | x2                 */
 
     PFMUL      ( MM0, MM7 )             /*               | scale*m10          */
-    MOVQ       ( REGIND(EDX), MM0 )     /* x1            | x0                 */
 
 ALIGNTEXT32
 LLBL (G3TR_rescale):
 
     PREFETCHW  ( REGIND(EAX) )
 
+    MOVQ       ( REGIND(EDX), MM0 )     /* x1            | x0                 */
+    MOVD       ( REGOFF(8, EDX), MM2 )  /*               | x2                 */
+
     MOVQ       ( MM0, MM1 )             /* x1            | x0                 */
     PUNPCKLDQ  ( MM2, MM2 )             /* x2            | x2                 */
 
     PFMUL      ( MM3, MM0 )             /* x1*m1         | x0*m0              */
-    ADD_L      ( CONST(12), EAX )       /* next r                             */
+    ADD_L      ( CONST(16), EAX )       /* next r                             */
 
     PFMUL      ( MM4, MM1 )             /* x1*m5         | x0*m4              */
     PFACC      ( MM1, MM0 )             /* x0*m4+x1*m5   | x0*m0+x1*m1        */
@@ -506,20 +502,17 @@ LLBL (G3TR_rescale):
 
     PREFETCH   ( REGIND(EDX) )
 
-    MOVQ       ( MM0, REGOFF(-12, EAX) ) /* write r0, r1                      */
+    MOVQ       ( MM0, REGOFF(-16, EAX) ) /* write r0, r1                      */
     PFMUL      ( MM6, MM1 )             /* x1*m9         | x0*m8              */
 
     PFMUL      ( MM7, MM2 )             /*               | x2*m10             */
     PFACC      ( MM1, MM1 )             /* *not used*    | x0*m8+x1*m9        */
 
     PFADD      ( MM2, MM1 )             /* *not used*    | x0*m8+x1*m9+x2*m10 */
-    MOVD       ( MM1, REGOFF(-4, EAX) ) /* write r2                           */
-
-    MOVQ       ( REGIND(EDX), MM0 )     /* x1            | x0                 */
-    MOVD       ( REGOFF(8, EDX), MM2 )  /*               | x2                 */
+    MOVD       ( MM1, REGOFF(-8, EAX) ) /* write r2                           */
 
-    DEC_L      ( EDI )                  /* decrement normal counter           */
-    J        ( LLBL (G3TR_rescale) )
+    SUB_L      ( CONST(1), EDI )        /* decrement normal counter           */
+    JNZ        ( LLBL (G3TR_rescale) )
 
     FEMMS
 
@@ -536,10 +529,11 @@ LLBL (G3TR_end):
 
 ALIGNTEXT16
 GLOBL GLNAME(_mesa_3dnow_transform_normals_no_rot)
+HIDDEN(_mesa_3dnow_transform_normals_no_rot)
 GLNAME(_mesa_3dnow_transform_normals_no_rot):
 
- #undef  FRAME_OFFSET
- #define FRAME_OFFSET 8
+#undef  FRAME_OFFSET
+#define FRAME_OFFSET 8
 
     PUSH_L     ( EDI )
     PUSH_L     ( ESI )
@@ -547,10 +541,10 @@ GLNAME(_mesa_3dnow_transform_normals_no_rot):
     MOV_L      ( ARG_IN, ESI )
     MOV_L      ( ARG_DEST, EAX )
     MOV_L      ( ARG_MAT, ECX )
-    MOV_L      ( REGOFF(V3F_COUNT, ESI), EDI ) /*  dest->count = in->count   */
-    MOV_L      ( EDI, REGOFF(V3F_COUNT, EAX) )
-    MOV_L      ( REGOFF(V3F_START, EAX), EAX ) /*  dest->start  */
-    MOV_L      ( REGOFF(V3F_START, ESI), EDX ) /*  in->start    */
+    MOV_L      ( REGOFF(V4F_COUNT, ESI), EDI ) /*  dest->count = in->count   */
+    MOV_L      ( EDI, REGOFF(V4F_COUNT, EAX) )
+    MOV_L      ( REGOFF(V4F_START, EAX), EAX ) /*  dest->start  */
+    MOV_L      ( REGOFF(V4F_START, ESI), EDX ) /*  in->start    */
     MOV_L      ( REGOFF(MATRIX_INV, ECX), ECX ) /*  mat->inv     */
 
     CMP_L      ( CONST(0), EDI )
@@ -564,30 +558,27 @@ GLNAME(_mesa_3dnow_transform_normals_no_rot):
     MOVD       ( REGOFF(40, ECX), MM2 ) /*               | m10                */
     PUNPCKLDQ  ( MM2, MM2 )             /* m10           | m10                */
 
-    MOVQ       ( REGIND(EDX), MM4 )     /* x1            | x0                 */
-    MOVD       ( REGOFF(8, EDX), MM5 )  /*               | x2                 */
-
 ALIGNTEXT32
 LLBL (G3TNR_transform):
 
     PREFETCHW  ( REGIND(EAX) )
 
+    MOVQ       ( REGIND(EDX), MM4 )     /* x1            | x0                 */
+    MOVD       ( REGOFF(8, EDX), MM5 )  /*               | x2                 */
+
     PFMUL      ( MM0, MM4 )             /* x1*m5         | x0*m0              */
     ADD_L      ( STRIDE, EDX)           /* next normal      */
 
     PREFETCH   ( REGIND(EDX) )
 
     PFMUL      ( MM2, MM5 )             /*               | x2*m10             */
-    ADD_L      ( CONST(12), EAX )       /* next r                             */
-
-    DEC_L      ( EDI )                  /* decrement normal counter           */
-    MOVQ       ( MM4, REGOFF(-12, EAX) ) /* write r0, r1                      */
+    ADD_L      ( CONST(16), EAX )       /* next r                             */
 
-    MOVD       ( MM5, REGOFF(-4, EAX) ) /* write r2                           */
-    MOVQ       ( REGIND(EDX), MM4 )     /* x1            | x0                 */
+    SUB_L      ( CONST(1), EDI )        /* decrement normal counter           */
+    MOVQ       ( MM4, REGOFF(-16, EAX) ) /* write r0, r1                      */
 
-    MOVD       ( REGOFF(8, EDX), MM5 )  /*               | x2                 */
-    J        ( LLBL (G3TNR_transform) )
+    MOVD       ( MM5, REGOFF(-8, EAX) ) /* write r2                           */
+    JNZ        ( LLBL (G3TNR_transform) )
 
     FEMMS
 
@@ -605,10 +596,11 @@ LLBL (G3TNR_end):
 
 ALIGNTEXT16
 GLOBL GLNAME(_mesa_3dnow_transform_normals)
+HIDDEN(_mesa_3dnow_transform_normals)
 GLNAME(_mesa_3dnow_transform_normals):
 
- #undef  FRAME_OFFSET
- #define FRAME_OFFSET 8
+#undef  FRAME_OFFSET
+#define FRAME_OFFSET 8
 
     PUSH_L     ( EDI )
     PUSH_L     ( ESI )
@@ -616,10 +608,10 @@ GLNAME(_mesa_3dnow_transform_normals):
     MOV_L      ( ARG_IN, ESI )
     MOV_L      ( ARG_DEST, EAX )
     MOV_L      ( ARG_MAT, ECX )
-    MOV_L      ( REGOFF(V3F_COUNT, ESI), EDI ) /*  dest->count = in->count   */
-    MOV_L      ( EDI, REGOFF(V3F_COUNT, EAX) )
-    MOV_L      ( REGOFF(V3F_START, EAX), EAX ) /*  dest->start  */
-    MOV_L      ( REGOFF(V3F_START, ESI), EDX ) /*  in->start    */
+    MOV_L      ( REGOFF(V4F_COUNT, ESI), EDI ) /*  dest->count = in->count   */
+    MOV_L      ( EDI, REGOFF(V4F_COUNT, EAX) )
+    MOV_L      ( REGOFF(V4F_START, EAX), EAX ) /*  dest->start  */
+    MOV_L      ( REGOFF(V4F_START, ESI), EDX ) /*  in->start    */
     MOV_L      ( REGOFF(MATRIX_INV, ECX), ECX ) /*  mat->inv     */
 
     CMP_L      ( CONST(0), EDI )        /* count > 0 ??                       */
@@ -636,19 +628,19 @@ GLNAME(_mesa_3dnow_transform_normals):
     MOVQ       ( REGOFF(32, ECX), MM6 ) /* m9            | m8                 */
     MOVD       ( REGOFF(40, ECX), MM7 ) /*               | m10                */
 
-    MOVQ       ( REGIND(EDX), MM0 )     /* x1            | x0                 */
-    MOVD       ( REGOFF(8, EDX), MM2 )  /*               | x2                 */
-
 ALIGNTEXT32
 LLBL (G3T_transform):
 
     PREFETCHW  ( REGIND(EAX) )
 
+    MOVQ       ( REGIND(EDX), MM0 )     /* x1            | x0                 */
+    MOVD       ( REGOFF(8, EDX), MM2 )  /*               | x2                 */
+
     MOVQ       ( MM0, MM1 )             /* x1            | x0                 */
     PUNPCKLDQ  ( MM2, MM2 )             /* x2            | x2                 */
 
     PFMUL      ( MM3, MM0 )             /* x1*m1         | x0*m0              */
-    ADD_L      ( CONST(12), EAX )       /* next r                             */
+    ADD_L      ( CONST(16), EAX )       /* next r                             */
 
     PFMUL      ( MM4, MM1 )             /* x1*m5         | x0*m4              */
     PFACC      ( MM1, MM0 )             /* x0*m4+x1*m5   | x0*m0+x1*m1        */
@@ -657,7 +649,7 @@ LLBL (G3T_transform):
     PFADD      ( MM2, MM0 )             /* x0*m4...+x2*m6| x0*m0+x1*m1+x2*m2  */
 
     MOVQ       ( REGIND(EDX), MM1 )     /* x1            | x0                 */
-    MOVQ       ( MM0, REGOFF(-12, EAX) ) /* write r0, r1                      */
+    MOVQ       ( MM0, REGOFF(-16, EAX) ) /* write r0, r1                      */
 
     PFMUL      ( MM6, MM1 )             /* x1*m9         | x0*m8              */
     MOVD       ( REGOFF(8, EDX), MM2 )  /*               | x2                 */
@@ -670,12 +662,10 @@ LLBL (G3T_transform):
     PFACC      ( MM1, MM1 )             /* *not used*    | x0*m8+x1*m9        */
     PFADD      ( MM2, MM1 )             /* *not used*    | x0*m8+x1*m9+x2*m10 */
 
-    MOVD       ( MM1, REGOFF(-4, EAX) ) /* write r2                           */
-    MOVQ       ( REGIND(EDX), MM0 )     /* x1            | x0                 */
+    MOVD       ( MM1, REGOFF(-8, EAX) ) /* write r2                           */
+    SUB_L      ( CONST(1), EDI )        /* decrement normal counter           */
 
-    MOVD       ( REGOFF(8, EDX), MM2 )  /*               | x2                 */
-    DEC_L      ( EDI )                  /* decrement normal counter           */
-    JA         ( LLBL (G3T_transform) )
+    JNZ        ( LLBL (G3T_transform) )
 
     FEMMS
 
@@ -691,10 +681,11 @@ LLBL (G3T_end):
 
 ALIGNTEXT16
 GLOBL GLNAME(_mesa_3dnow_normalize_normals)
+HIDDEN(_mesa_3dnow_normalize_normals)
 GLNAME(_mesa_3dnow_normalize_normals):
 
- #undef  FRAME_OFFSET
- #define FRAME_OFFSET 12
+#undef  FRAME_OFFSET
+#define FRAME_OFFSET 12
 
     PUSH_L     ( EDI )
     PUSH_L     ( ESI )
@@ -702,10 +693,10 @@ GLNAME(_mesa_3dnow_normalize_normals):
 
     MOV_L      ( ARG_IN, ESI )
     MOV_L      ( ARG_DEST, EAX )
-    MOV_L      ( REGOFF(V3F_COUNT, ESI), EBP ) /*  dest->count = in->count   */
-    MOV_L      ( EBP, REGOFF(V3F_COUNT, EAX) )
-    MOV_L      ( REGOFF(V3F_START, EAX), EAX ) /*  dest->start  */
-    MOV_L      ( REGOFF(V3F_START, ESI), ECX ) /*  in->start    */
+    MOV_L      ( REGOFF(V4F_COUNT, ESI), EBP ) /*  dest->count = in->count   */
+    MOV_L      ( EBP, REGOFF(V4F_COUNT, EAX) )
+    MOV_L      ( REGOFF(V4F_START, EAX), EAX ) /*  dest->start  */
+    MOV_L      ( REGOFF(V4F_START, ESI), ECX ) /*  in->start    */
     MOV_L      ( ARG_LENGTHS, EDX )
 
     CMP_L      ( CONST(0), EBP ) /* count > 0 ?? */
@@ -713,9 +704,6 @@ GLNAME(_mesa_3dnow_normalize_normals):
 
     FEMMS
 
-    MOVQ       ( REGIND(ECX), MM0 )     /* x1              | x0               */
-    MOVD       ( REGOFF(8, ECX), MM1 )  /*                 | x2               */
-
     CMP_L      ( CONST(0), EDX )        /* lengths == 0 ?                     */
     JE         ( LLBL (G3N_norm2) )     /* calculate lengths                  */
 
@@ -724,6 +712,9 @@ LLBL (G3N_norm1):                       /* use precalculated lengths          */
 
     PREFETCH   ( REGIND(EAX) )
 
+    MOVQ       ( REGIND(ECX), MM0 )     /* x1              | x0               */
+    MOVD       ( REGOFF(8, ECX), MM1 )  /*                 | x2               */
+
     MOVD       ( REGIND(EDX), MM3 )     /*                 | length (x)       */
     PFMUL      ( MM3, MM1 )             /*                 | x2 (normalized)  */
 
@@ -736,14 +727,12 @@ LLBL (G3N_norm1):                       /* use precalculated lengths          */
     MOVQ       ( MM0, REGIND(EAX) )     /* write new x0, x1                   */
 
     MOVD       ( MM1, REGOFF(8, EAX) )  /* write new x2                       */
-    ADD_L      ( CONST(12), EAX )       /* next r                             */
+    ADD_L      ( CONST(16), EAX )       /* next r                             */
 
     ADD_L      ( CONST(4), EDX )        /* next length                        */
-    DEC_L      ( EBP )                  /* decrement normal counter           */
+    SUB_L      ( CONST(1), EBP )        /* decrement normal counter           */
 
-    MOVQ       ( REGIND(ECX), MM0 )     /* x1              | x0               */
-    MOVD       ( REGOFF(8, ECX), MM1 )  /*                 | x2               */
-    JA         ( LLBL (G3N_norm1) )
+    JNZ        ( LLBL (G3N_norm1) )
 
     JMP        ( LLBL (G3N_end1) )
 
@@ -752,15 +741,18 @@ LLBL (G3N_norm2):                       /* need to calculate lengths          */
 
     PREFETCHW  ( REGIND(EAX) )
 
+    PREFETCH   ( REGIND(ECX) )
+
+    MOVQ       ( REGIND(ECX), MM0 )     /* x1              | x0               */
+    MOVD       ( REGOFF(8, ECX), MM1 )  /*                 | x2               */
+
     MOVQ       ( MM0, MM3 )             /* x1              | x0               */
     ADD_L      ( STRIDE, ECX )          /* next normal    */
 
-    PREFETCH   ( REGIND(ECX) )
-
     PFMUL      ( MM0, MM3 )             /* x1*x1           | x0*x0            */
     MOVQ       ( MM1, MM4 )             /*                 | x2               */
 
-    ADD_L      ( CONST(12), EAX )       /* next r                             */
+    ADD_L      ( CONST(16), EAX )       /* next r                             */
     PFMUL      ( MM1, MM4 )             /*                 | x2*x2            */
 
     PFADD      ( MM4, MM3 )             /*                 | x0*x0+x2*x2      */
@@ -773,19 +765,17 @@ LLBL (G3N_norm2):                       /* need to calculate lengths          */
     PFMUL      ( MM5, MM5 )
 
     PFRSQIT1   ( MM3, MM5 )
-    DEC_L      ( EBP )                  /* decrement normal counter           */
+    SUB_L      ( CONST(1), EBP )        /* decrement normal counter           */
 
     PFRCPIT2   ( MM4, MM5 )
 
     PFMUL      ( MM5, MM0 )             /* x1 (normalized) | x0 (normalized)  */
-    MOVQ       ( MM0, REGOFF(-12, EAX) ) /* write new x0, x1                  */
+    MOVQ       ( MM0, REGOFF(-16, EAX) ) /* write new x0, x1                  */
 
     PFMUL      ( MM5, MM1 )             /*                 | x2 (normalized)  */
-    MOVD       ( MM1, REGOFF(-4, EAX) ) /* write new x2                       */
+    MOVD       ( MM1, REGOFF(-8, EAX) ) /* write new x2                       */
 
-    MOVQ       ( REGIND(ECX), MM0 )     /* x1              | x0               */
-    MOVD       ( REGOFF(8, ECX), MM1 )  /*                 | x2               */
-    JA         ( LLBL (G3N_norm2) )
+    JNZ        ( LLBL (G3N_norm2) )
 
 LLBL (G3N_end1):
     FEMMS
@@ -803,19 +793,20 @@ LLBL (G3N_end):
 
 ALIGNTEXT16
 GLOBL GLNAME(_mesa_3dnow_rescale_normals)
+HIDDEN(_mesa_3dnow_rescale_normals)
 GLNAME(_mesa_3dnow_rescale_normals):
 
- #undef  FRAME_OFFSET
- #define FRAME_OFFSET 8
+#undef  FRAME_OFFSET
+#define FRAME_OFFSET 8
     PUSH_L     ( EDI )
     PUSH_L     ( ESI )
 
     MOV_L      ( ARG_IN, ESI )
     MOV_L      ( ARG_DEST, EAX )
-    MOV_L      ( REGOFF(V3F_COUNT, ESI), EDX ) /*  dest->count = in->count   */
-    MOV_L      ( EDX, REGOFF(V3F_COUNT, EAX) )
-    MOV_L      ( REGOFF(V3F_START, EAX), EAX ) /*  dest->start  */
-    MOV_L      ( REGOFF(V3F_START, ESI), ECX ) /*  in->start    */
+    MOV_L      ( REGOFF(V4F_COUNT, ESI), EDX ) /*  dest->count = in->count   */
+    MOV_L      ( EDX, REGOFF(V4F_COUNT, EAX) )
+    MOV_L      ( REGOFF(V4F_START, EAX), EAX ) /*  dest->start  */
+    MOV_L      ( REGOFF(V4F_START, ESI), ECX ) /*  in->start    */
 
     CMP_L      ( CONST(0), EDX )
     JE         ( LLBL (G3R_end) )
@@ -825,30 +816,27 @@ GLNAME(_mesa_3dnow_rescale_normals):
     MOVD       ( ARG_SCALE, MM0 )       /* scale                              */
     PUNPCKLDQ  ( MM0, MM0 )
 
-    MOVQ       ( REGIND(ECX), MM1 )     /* x1            | x0                 */
-    MOVD       ( REGOFF(8, ECX), MM2 )  /*               | x2                 */
-
 ALIGNTEXT32
 LLBL (G3R_rescale):
 
     PREFETCHW  ( REGIND(EAX) )
 
+    MOVQ       ( REGIND(ECX), MM1 )     /* x1            | x0                 */
+    MOVD       ( REGOFF(8, ECX), MM2 )  /*               | x2                 */
+
     PFMUL      ( MM0, MM1 )             /* x1*scale      | x0*scale           */
     ADD_L      ( STRIDE, ECX )          /* next normal                  */
 
     PREFETCH   ( REGIND(ECX) )
 
     PFMUL      ( MM0, MM2 )             /*               | x2*scale           */
-    ADD_L      ( CONST(12), EAX )       /* next r                             */
-
-    MOVQ       ( MM1, REGOFF(-12, EAX) ) /* write r0, r1                      */
-    MOVD       ( MM2, REGOFF(-4, EAX) ) /* write r2                           */
+    ADD_L      ( CONST(16), EAX )       /* next r                             */
 
-    DEC_L      ( EDX )                  /* decrement normal counter           */
-    MOVQ       ( REGIND(ECX), MM1 )     /* x1            | x0                 */
+    MOVQ       ( MM1, REGOFF(-16, EAX) ) /* write r0, r1                      */
+    MOVD       ( MM2, REGOFF(-8, EAX) ) /* write r2                           */
 
-    MOVD       ( REGOFF(8, ECX), MM2 )  /*               | x2                 */
-    J        ( LLBL (G3R_rescale) )
+    SUB_L      ( CONST(1), EDX )        /* decrement normal counter           */
+    JNZ        ( LLBL (G3R_rescale) )
 
     FEMMS
 
@@ -856,3 +844,9 @@ LLBL (G3R_end):
     POP_L      ( ESI )
     POP_L      ( EDI )
     RET
+
+#endif
+       
+#if defined (__ELF__) && defined (__linux__)
+       .section .note.GNU-stack,"",%progbits
+#endif