Ziele Untersuchung
mit Columbo Integrität von
Datenbanken Interaktion und
Portierbarkeit Ergonomie der
Schnittstellen
Angebot Produkte Projekt Beratung
Mittel Analytik Modellierung Sprachen Algebra Logik Hardware Denken Kreativität
Zusammenhänge Gesellschaft Wirtschaft Branche Firma

products/Sources/formale Sprachen/C/Firefox/third_party/dav1d/src/x86/ (Browser von der Mozilla Stiftung Version 136.0.1^©) Datei vom 10.2.2025 mit Größe 202 kB
Quelle itx_avx2.asm Sprache: Masm

; Copyright © 2018-2021, VideoLAN and dav1d authors

; Copyright © 2018, Two Orioles, LLC

; All rights reserved.

;

; Redistribution and use in source and binary forms, with or without

; modification, are permitted provided that the following conditions are met:

;

; 1. Redistributions of source code must retain the above copyright notice, this

;    list of conditions and the following disclaimer.

;

; 2. Redistributions in binary form must reproduce the above copyright notice,

;    this list of conditions and the following disclaimer in the documentation

;    and/or other materials provided with the distribution.

;

; THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND

; ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED

; WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE

; DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR

; ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES

; (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;

; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND

; ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT

; (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS

; SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.

%include "config.asm"

%include "ext/x86/x86inc.asm"

%if ARCH_X86_64

SECTION_RODATA 16

; Note: The order of (at least some of) those constants matter!

const deint_shuf, db  0,  1,  4,  5,  8,  9, 12, 13,  2,  3,  6,  7, 10, 11, 14, 15

%macro COEF_PAIR 2

pw_%1_%2:  dw  %1, %2

pw_m%2_%1: dw -%2, %1

%endmacro

; ADST-only

pw_3803_1321:   dw  3803,  1321

pw_m1321_2482:  dw -1321,  2482

pw_2482_3344:   dw  2482,  3344

pw_m3344_3344:  dw -3344,  3344

pw_m3803_3344:  dw -3803,  3344

pw_m3803_m6688: dw -3803, -6688

pw_2896_m2896:  dw  2896, -2896

const pw_5,       times 2 dw 5

const pw_2048,    times 2 dw 2048

const pw_4096,    times 2 dw 4096

const pw_8192,    times 2 dw 8192

const pw_16384,   times 2 dw 16384

const pw_1697x16, times 2 dw 1697*16

const pw_1697x8,  times 2 dw 1697*8

const pw_2896x8,  times 2 dw 2896*8

const pd_2048,    dd 2048

const pw_2896_2896,  dw  2896, 2896

const pw_m2896_2896, dw -2896, 2896

const pw_1567_3784,  dw  1567, 3784

const pw_m3784_1567, dw -3784, 1567

COEF_PAIR 3784, 1567

COEF_PAIR  201, 4091

COEF_PAIR  995, 3973

COEF_PAIR 1751, 3703

COEF_PAIR 2440, 3290

COEF_PAIR 3035, 2751

COEF_PAIR 3513, 2106

COEF_PAIR 3857, 1380

COEF_PAIR 4052,  601

COEF_PAIR  401, 4076

COEF_PAIR 1931, 3612

COEF_PAIR 3166, 2598

COEF_PAIR 3920, 1189

COEF_PAIR  799, 4017

COEF_PAIR 3406, 2276

pw_m799_m4017:  dw  -799, -4017

const pw_m1567_m3784, dw -1567, -3784

pw_m3406_m2276: dw -3406, -2276

pw_m401_m4076:  dw  -401, -4076

pw_m3166_m2598: dw -3166, -2598

pw_m1931_m3612: dw -1931, -3612

pw_m3920_m1189: dw -3920, -1189

COEF_PAIR 2276, 3406

COEF_PAIR 4017,  799

%macro COEF_X8 1-*

%rep %0

    dw %1*8, %1*8

    %rotate 1

%endrep

%endmacro

pw_3703x8:  COEF_X8  3703

pw_1751x8:  COEF_X8  1751

pw_m1380x8: COEF_X8 -1380

pw_3857x8:  COEF_X8  3857

pw_3973x8:  COEF_X8  3973

pw_995x8:   COEF_X8   995

pw_m2106x8: COEF_X8 -2106

pw_3513x8:  COEF_X8  3513

pw_3290x8:  COEF_X8  3290

pw_2440x8:  COEF_X8  2440

pw_m601x8:  COEF_X8  -601

pw_4052x8:  COEF_X8  4052

const idct64_mul

COEF_X8  4095,   101,  4065,   501,  2967, -2824,  3229, -2520

COEF_X8  3745,  1660,  3564,  2019,  3822, -1474,  3948, -1092

COEF_X8  3996,   897,  3889,  1285,  3461, -2191,  3659, -1842

COEF_X8  3349,  2359,  3102,  2675,  4036,  -700,  4085,  -301

pw_201_4091x8:   dw   201*8, 4091*8

pw_m601_4052x8:  dw  -601*8, 4052*8

pw_995_3973x8:   dw   995*8, 3973*8

pw_m1380_3857x8: dw -1380*8, 3857*8

pw_1751_3703x8:  dw  1751*8, 3703*8

pw_m2106_3513x8: dw -2106*8, 3513*8

pw_2440_3290x8:  dw  2440*8, 3290*8

pw_m2751_3035x8: dw -2751*8, 3035*8

%define o_idct64_offset idct64_mul - (o_base) - 8

SECTION .text

; Code size reduction trickery: Instead of using rip-relative loads with

; mandatory 4-byte offsets everywhere, we can set up a base pointer with a

; single rip-relative lea and then address things relative from that with

; 1-byte offsets as long as data is within +-128 bytes of the base pointer.

%define o_base deint_shuf + 128

%define o(x) (r6 - (o_base) + (x))

%define m(x) mangle(private_prefix %+ _ %+ x %+ SUFFIX)

; flags: 1 = swap, 2 = interleave, 4: coef_regs

%macro ITX_MUL2X_PACK 6-7 0 ; dst/src, tmp[1-2], rnd, coef[1-2], flags

%if %7 & 4

    pmaddwd             m%2, m%5, m%1

    pmaddwd             m%1, m%6

%else

%if %7 & 1

    vpbroadcastd        m%2, [o(pw_%5_%6)]

    vpbroadcastd        m%3, [o(pw_m%6_%5)]

%else

    vpbroadcastd        m%2, [o(pw_m%6_%5)]

    vpbroadcastd        m%3, [o(pw_%5_%6)]

%endif

    pmaddwd             m%2, m%1

    pmaddwd             m%1, m%3

%endif

    paddd               m%2, m%4

    paddd               m%1, m%4

%if %7 & 2

    pslld               m%2, 4

    psrld               m%1, 12

    pblendw             m%1, m%2, 0xaa

%else

    psrad               m%2, 12

    psrad               m%1, 12

    packssdw            m%1, m%2

%endif

%endmacro

; flags: 1 = swap, 2 = interleave, 4 = coef_regs

%macro ITX_MUL4X_PACK 9-10 0 ; dst/src, tmp[1-3], rnd, coef[1-4], flags

%if %10 & 1

    vpbroadcastd        m%3, [o(pw_%8_%9)]

    vpbroadcastd        m%4, [o(pw_m%9_%8)]

    vpbroadcastd       xm%2, [o(pw_%6_%7)]

    vpblendd            m%2, m%3, 0xf0

    vpbroadcastd       xm%3, [o(pw_m%7_%6)]

%else

    vpbroadcastd        m%3, [o(pw_m%9_%8)]

    vpbroadcastd        m%4, [o(pw_%8_%9)]

    vpbroadcastd       xm%2, [o(pw_m%7_%6)]

    vpblendd            m%2, m%3, 0xf0

    vpbroadcastd       xm%3, [o(pw_%6_%7)]

%endif

    vpblendd            m%3, m%4, 0xf0

    ITX_MUL2X_PACK       %1, %4, _, %5, %2, %3, (4|%10)

%endmacro

; dst1 = (src1 * coef1 - src2 * coef2 + rnd) >> 12

; dst2 = (src1 * coef2 + src2 * coef1 + rnd) >> 12

%macro ITX_MULSUB_2W 7-8 ; dst/src[1-2], tmp[1-2], rnd, coef[1-2], dst2

    punpckhwd           m%3, m%2, m%1

    punpcklwd           m%2, m%1

%if %7 < 32

    pmaddwd             m%1, m%7, m%2

    pmaddwd             m%4, m%7, m%3

%else

    vpbroadcastd        m%1, [o(pw_m%7_%6)]

    pmaddwd             m%4, m%3, m%1

    pmaddwd             m%1, m%2

%endif

    paddd               m%4, m%5

    paddd               m%1, m%5

    psrad               m%4, 12

    psrad               m%1, 12

    packssdw            m%1, m%4

%if %7 < 32

    pmaddwd             m%3, m%6

    pmaddwd             m%2, m%6

%else

    vpbroadcastd        m%4, [o(pw_%6_%7)]

    pmaddwd             m%3, m%4

    pmaddwd             m%2, m%4

%endif

    paddd               m%3, m%5

    paddd               m%2, m%5

    psrad               m%3, 12

    psrad               m%2, 12

%if %0 == 8

    packssdw            m%8, m%2, m%3

%else

    packssdw            m%2, m%3

%endif

%endmacro

%macro IDCT4_1D 7 ; src[1-4], tmp[1-2], pd_2048

    ITX_MULSUB_2W        %2, %4, %5, %6, %7, 1567, 3784, %5 ; t2, t3

    ITX_MULSUB_2W        %1, %3, %4, %6, %7, 2896, 2896, %4 ; t1, t0

    psubsw              m%3, m%1, m%2

    paddsw              m%2, m%1

    paddsw              m%1, m%4, m%5

    psubsw              m%4, m%5

%endmacro

%macro IDCT8_1D 11 ; src[1-8], tmp[1-2], pd_2048

    ITX_MULSUB_2W        %6, %4, %9, %10, %11, 3406, 2276 ; t5a, t6a

    ITX_MULSUB_2W        %2, %8, %9, %10, %11,  799, 4017 ; t4a, t7a

    ITX_MULSUB_2W        %3, %7, %9, %10, %11, 1567, 3784 ; t2, t3

    paddsw              m%9, m%2, m%6  ; t4

    psubsw              m%2, m%6       ; t5a

    paddsw             m%10, m%8, m%4  ; t7

    psubsw              m%8, m%4       ; t6a

    ITX_MULSUB_2W        %1, %5, %4, %6, %11, 2896, 2896 ; t1, t0

    ITX_MULSUB_2W        %8, %2, %4, %6, %11, 2896, 2896 ; t5, t6

    psubsw              m%6, m%1, m%3  ; dct4 out2

    paddsw              m%3, m%1       ; dct4 out1

    paddsw              m%1, m%5, m%7  ; dct4 out0

    psubsw              m%5, m%7       ; dct4 out3

    psubsw              m%7, m%3, m%2  ; out6

    paddsw              m%2, m%3       ; out1

    paddsw              m%3, m%6, m%8  ; out2

    psubsw              m%6, m%8       ; out5

    psubsw              m%8, m%1, m%10 ; out7

    paddsw              m%1, m%10      ; out0

    paddsw              m%4, m%5, m%9  ; out3

    psubsw              m%5, m%9       ; out4

%endmacro

; in1 = %1, in3  = %2, in5  = %3, in7  = %4

; in9 = %5, in11 = %6, in13 = %7, in15 = %8

%macro IDCT16_1D_ODDHALF 11 ; src[1-8], tmp[1-2], pd_2048

    ITX_MULSUB_2W        %1, %8, %9, %10, %11,  401, 4076 ; t8a,  t15a

    ITX_MULSUB_2W        %5, %4, %9, %10, %11, 3166, 2598 ; t9a,  t14a

    ITX_MULSUB_2W        %3, %6, %9, %10, %11, 1931, 3612 ; t10a, t13a

    ITX_MULSUB_2W        %7, %2, %9, %10, %11, 3920, 1189 ; t11a, t12a

    psubsw              m%9, m%2, m%6 ; t13

    paddsw              m%6, m%2      ; t12

    psubsw              m%2, m%8, m%4 ; t14

    paddsw              m%8, m%4      ; t15

    psubsw              m%4, m%7, m%3 ; t10

    paddsw              m%3, m%7      ; t11

    psubsw              m%7, m%1, m%5 ; t9

    paddsw              m%1, m%5      ; t8

    ITX_MULSUB_2W        %2, %7, %5, %10, %11,  1567, 3784 ; t9a,  t14a

    ITX_MULSUB_2W        %9, %4, %5, %10, %11, m3784, 1567 ; t10a, t13a

    psubsw              m%5, m%1, m%3 ; t11a

    paddsw              m%1, m%3      ; t8a

    psubsw              m%3, m%7, m%4 ; t13

    paddsw              m%7, m%4      ; t14

    psubsw              m%4, m%8, m%6 ; t12a

    paddsw              m%8, m%6      ; t15a

    psubsw              m%6, m%2, m%9 ; t10

    paddsw              m%2, m%9      ; t9

    ITX_MULSUB_2W        %3, %6, %9, %10, %11, 2896, 2896 ; t10a, t13a

    ITX_MULSUB_2W        %4, %5, %9, %10, %11, 2896, 2896 ; t11,  t12

%endmacro

%macro WRAP_XMM 1+

    INIT_XMM cpuname

    %1

    INIT_YMM cpuname

%endmacro

%macro ITX4_END 4-5 2048 ; row[1-4], rnd

%if %5

    vpbroadcastd         m2, [o(pw_%5)]

    pmulhrsw             m0, m2

    pmulhrsw             m1, m2

%endif

    lea                  r2, [dstq+strideq*2]

%assign %%i 1

%rep 4

    %if %1 & 2

        CAT_XDEFINE %%row_adr, %%i, r2   + strideq*(%1&1)

    %else

        CAT_XDEFINE %%row_adr, %%i, dstq + strideq*(%1&1)

    %endif

    %assign %%i %%i + 1

    %rotate 1

%endrep

    movd                 m2, [%%row_adr1]

    pinsrd               m2, [%%row_adr2], 1

    movd                 m3, [%%row_adr3]

    pinsrd               m3, [%%row_adr4], 1

    pmovzxbw             m2, m2

    pmovzxbw             m3, m3

    paddw                m0, m2

    paddw                m1, m3

    packuswb             m0, m1

    movd       [%%row_adr1], m0

    pextrd     [%%row_adr2], m0, 1

    pextrd     [%%row_adr3], m0, 2

    pextrd     [%%row_adr4], m0, 3

    ret

%endmacro

%macro IWHT4_1D_PACKED 0

    punpckhqdq           m3, m0, m1 ; in1 in3

    punpcklqdq           m0, m1     ; in0 in2

    psubw                m2, m0, m3

    paddw                m0, m3

    punpckhqdq           m2, m2     ; t2 t2

    punpcklqdq           m0, m0     ; t0 t0

    psubw                m1, m0, m2

    psraw                m1, 1

    psubw                m1, m3     ; t1 t3

    psubw                m0, m1     ; ____ out0

    paddw                m2, m1     ; out3 ____

%endmacro

INIT_XMM avx2

cglobal inv_txfm_add_wht_wht_4x4_8bpc, 3, 3, 4, dst, stride, c

    mova                 m0, [cq+16*0]

    mova                 m1, [cq+16*1]

    pxor                 m2, m2

    mova          [cq+16*0], m2

    mova          [cq+16*1], m2

    psraw                m0, 2

    psraw                m1, 2

    IWHT4_1D_PACKED

    punpckhwd            m0, m1

    punpcklwd            m3, m1, m2

    punpckhdq            m1, m0, m3

    punpckldq            m0, m3

    IWHT4_1D_PACKED

    vpblendd             m0, m2, 0x03

    ITX4_END              3, 0, 2, 1, 0

%macro INV_TXFM_FN 3 ; type1, type2, size

cglobal inv_txfm_add_%1_%2_%3_8bpc, 4, 5, 0, dst, stride, c, eob, tx2

    %define %%p1 m(i%1_%3_internal_8bpc)

    lea                  r6, [o_base]

    ; Jump to the 1st txfm function if we're not taking the fast path, which

    ; in turn performs an indirect jump to the 2nd txfm function.

    lea                tx2q, [m(i%2_%3_internal_8bpc).pass2]

%ifidn %1_%2, dct_dct

    test               eobd, eobd

    jnz %%p1

%else

    ; jump to the 1st txfm function unless it's located directly after this

    times ((%%end - %%p1) >> 31) & 1 jmp %%p1

ALIGN function_align

%%end:

%endif

%endmacro

%macro INV_TXFM_4X4_FN 2 ; type1, type2

    INV_TXFM_FN          %1, %2, 4x4

%ifidn %1_%2, dct_dct

    vpbroadcastw         m0, [cq]

    vpbroadcastd         m1, [o(pw_2896x8)]

    pmulhrsw             m0, m1

    mov                [cq], eobd ; 0

    pmulhrsw             m0, m1

    mova                 m1, m0

    jmp m(iadst_4x4_internal_8bpc).end2

%endif

%endmacro

%macro IDCT4_1D_PACKED 0

    vpbroadcastd         m4, [o(pd_2048)]

    punpckhwd            m2, m1, m0

    punpcklwd            m1, m0

    ITX_MUL2X_PACK        2, 0, 3, 4, 1567, 3784

    ITX_MUL2X_PACK        1, 0, 3, 4, 2896, 2896

    paddsw               m0, m1, m2 ; out0 out1

    psubsw               m1, m2     ; out3 out2

%endmacro

%macro IADST4_1D_PACKED 0

    punpcklwd            m2, m1, m0

    punpckhwd            m3, m1, m0

    vpbroadcastd         m5, [o(pw_m3344_3344)]

    vpbroadcastd         m0, [o(pw_3803_1321)]

    vpbroadcastd         m4, [o(pw_m1321_2482)]

    pmaddwd              m1, m5, m2 ; 3344*in3 - 3344*in2

    psrld                m5, 16

    pmaddwd              m0, m2

    pmaddwd              m2, m4

    pmaddwd              m5, m3 ; 3344*in0

    paddd                m1, m5 ; 3344*in0 - 3344*in2 + 3344*in3

    vpbroadcastd         m4, [o(pw_2482_3344)]

    vpbroadcastd         m5, [o(pw_m3803_3344)]

    pmaddwd              m4, m3

    pmaddwd              m5, m3

    paddd                m4, m0 ; 1321*in0 + 3344*in1 + 3803*in2 + 2482*in3

    vpbroadcastd         m0, [o(pw_m3803_m6688)]

    pmaddwd              m3, m0

    vpbroadcastd         m0, [o(pd_2048)]

    paddd                m2, m0

    paddd                m1, m0

    paddd                m0, m4

    paddd                m5, m2 ; 2482*in0 + 3344*in1 - 1321*in2 - 3803*in3

    paddd                m2, m4

    paddd                m2, m3

    REPX      {psrad x, 12}, m1, m2, m0, m5

    packssdw             m0, m5 ; out0 out1

    packssdw             m1, m2 ; out2 out3

%endmacro

INV_TXFM_4X4_FN dct, dct

INV_TXFM_4X4_FN dct, adst

INV_TXFM_4X4_FN dct, flipadst

INV_TXFM_4X4_FN dct, identity

cglobal idct_4x4_internal_8bpc, 0, 5, 6, dst, stride, c, eob, tx2

    mova                 m0, [cq+16*0]

    mova                 m1, [cq+16*1]

    IDCT4_1D_PACKED

    mova                 m2, [o(deint_shuf)]

    shufps               m3, m0, m1, q1331

    shufps               m0, m1, q0220

    pshufb               m0, m2

    pshufb               m1, m3, m2

    jmp                tx2q

.pass2:

    IDCT4_1D_PACKED

    pxor                 m2, m2

    mova          [cq+16*0], m2

    mova          [cq+16*1], m2

    ITX4_END              0, 1, 3, 2

INV_TXFM_4X4_FN adst, dct

INV_TXFM_4X4_FN adst, adst

INV_TXFM_4X4_FN adst, flipadst

INV_TXFM_4X4_FN adst, identity

cglobal iadst_4x4_internal_8bpc, 0, 5, 6, dst, stride, c, eob, tx2

    mova                 m0, [cq+16*0]

    mova                 m1, [cq+16*1]

    call .main

    punpckhwd            m3, m0, m1

    punpcklwd            m0, m1

    punpckhwd            m1, m0, m3

    punpcklwd            m0, m3

    jmp                tx2q

.pass2:

    call .main

.end:

    pxor                 m2, m2

    mova          [cq+16*0], m2

    mova          [cq+16*1], m2

.end2:

    ITX4_END              0, 1, 2, 3

ALIGN function_align

cglobal_label .main

    IADST4_1D_PACKED

    ret

INV_TXFM_4X4_FN flipadst, dct

INV_TXFM_4X4_FN flipadst, adst

INV_TXFM_4X4_FN flipadst, flipadst

INV_TXFM_4X4_FN flipadst, identity

cglobal iflipadst_4x4_internal_8bpc, 0, 5, 6, dst, stride, c, eob, tx2

    mova                 m0, [cq+16*0]

    mova                 m1, [cq+16*1]

    call m(iadst_4x4_internal_8bpc).main

    punpcklwd            m2, m1, m0

    punpckhwd            m1, m0

    punpcklwd            m0, m1, m2

    punpckhwd            m1, m2

    jmp                tx2q

.pass2:

    call m(iadst_4x4_internal_8bpc).main

.end:

    pxor                 m2, m2

    mova          [cq+16*0], m2

    mova          [cq+16*1], m2

.end2:

    ITX4_END              3, 2, 1, 0

INV_TXFM_4X4_FN identity, dct

INV_TXFM_4X4_FN identity, adst

INV_TXFM_4X4_FN identity, flipadst

INV_TXFM_4X4_FN identity, identity

cglobal iidentity_4x4_internal_8bpc, 0, 5, 6, dst, stride, c, eob, tx2

    mova                 m0, [cq+16*0]

    mova                 m1, [cq+16*1]

    vpbroadcastd         m3, [o(pw_1697x8)]

    pmulhrsw             m2, m3, m0

    pmulhrsw             m3, m1

    paddsw               m0, m2

    paddsw               m1, m3

    punpckhwd            m2, m0, m1

    punpcklwd            m0, m1

    punpckhwd            m1, m0, m2

    punpcklwd            m0, m2

    jmp                tx2q

.pass2:

    vpbroadcastd         m3, [o(pw_1697x8)]

    pmulhrsw             m2, m3, m0

    pmulhrsw             m3, m1

    paddsw               m0, m2

    paddsw               m1, m3

    jmp m(iadst_4x4_internal_8bpc).end

%macro WRITE_4X8 2 ; coefs[1-2]

    movd                xm4, [dstq+strideq*0]

    pinsrd              xm4, [dstq+strideq*1], 1

    movd                xm5, [dstq+strideq*2]

    pinsrd              xm5, [dstq+r3       ], 1

    pinsrd              xm4, [r2  +strideq*0], 2

    pinsrd              xm4, [r2  +strideq*1], 3

    pinsrd              xm5, [r2  +strideq*2], 2

    pinsrd              xm5, [r2  +r3       ], 3

    pmovzxbw             m4, xm4

    pmovzxbw             m5, xm5

    paddw                m4, m%1

    paddw                m5, m%2

    packuswb             m4, m5

    vextracti128        xm5, m4, 1

    movd   [dstq+strideq*0], xm4

    pextrd [dstq+strideq*1], xm4, 1

    pextrd [dstq+strideq*2], xm4, 2

    pextrd [dstq+r3       ], xm4, 3

    movd   [r2  +strideq*0], xm5

    pextrd [r2  +strideq*1], xm5, 1

    pextrd [r2  +strideq*2], xm5, 2

    pextrd [r2  +r3       ], xm5, 3

%endmacro

%macro INV_TXFM_4X8_FN 2 ; type1, type2

    INV_TXFM_FN          %1, %2, 4x8

%ifidn %1_%2, dct_dct

    movd                xm1, [o(pw_2896x8)]

    pmulhrsw            xm0, xm1, [cq]

    movd                xm2, [o(pw_2048)]

    mov                [cq], eobd

    pmulhrsw            xm0, xm1

    pmulhrsw            xm0, xm1

    pmulhrsw            xm0, xm2

    vpbroadcastw         m0, xm0

    mova                 m1, m0

    jmp m(iadst_4x8_internal_8bpc).end3

%endif

%endmacro

%macro IDCT8_1D_PACKED 0

    vpbroadcastd         m6, [o(pd_2048)]

    punpckhwd            m5, m3, m0 ; in7 in1

    punpckhwd            m4, m1, m2 ; in3 in5

    punpcklwd            m3, m1     ; in6 in2

    punpcklwd            m2, m0     ; in4 in0

    ITX_MUL2X_PACK        5, 0, 1, 6,  799, 4017, 3 ; t4a t7a

    ITX_MUL2X_PACK        4, 0, 1, 6, 3406, 2276, 3 ; t5a t6a

    ITX_MUL2X_PACK        3, 0, 1, 6, 1567, 3784    ; t3 t2

    psubsw               m0, m5, m4 ; t5a t6a (interleaved)

    paddsw               m4, m5     ; t4  t7  (interleaved)

    ITX_MUL2X_PACK        2, 1, 5, 6, 2896, 2896    ; t0 t1

    vpbroadcastd         m1, [o(pw_m2896_2896)]

    ITX_MUL2X_PACK        0, 1, _, 6, 1, 5, 4 ; t6 t5

%if mmsize > 16

    vbroadcasti128       m1, [o(deint_shuf)]

    pshufb               m4, m1

%else

    pshufb               m4, [o(deint_shuf)]

%endif

    psubsw               m1, m2, m3 ; tmp3 tmp2

    paddsw               m3, m2     ; tmp0 tmp1

    shufps               m2, m4, m0, q1032 ; t7 t6

    vpblendd             m4, m0, 0xcc      ; t4 t5

    paddsw               m0, m3, m2 ; out0 out1

    psubsw               m3, m2     ; out7 out6

    psubsw               m2, m1, m4 ; out4 out5

    paddsw               m1, m4     ; out3 out2

%endmacro

%macro IADST8_1D_PACKED 1 ; pass

    vpbroadcastd         m6, [o(pd_2048)]

    punpckhwd            m0, m4, m3 ; 0 7

    punpckhwd            m1, m5, m2 ; 2 5

    punpcklwd            m2, m5     ; 4 3

    punpcklwd            m3, m4     ; 6 1

%if %1 == 1

    ITX_MUL2X_PACK        0, 4, 5, 6,  401, 4076, 3 ; t1a t0a

    ITX_MUL2X_PACK        1, 4, 5, 6, 1931, 3612, 2 ; t2a t3a

    ITX_MUL2X_PACK        2, 4, 5, 6, 3166, 2598, 3 ; t5a t4a

    ITX_MUL2X_PACK        3, 4, 5, 6, 3920, 1189, 2 ; t6a t7a

    psubsw               m4, m0, m2 ; t5 t4

    paddsw               m0, m2     ; t1 t0

    psubsw               m5, m1, m3 ; t6 t7

    paddsw               m1, m3     ; t2 t3

    ITX_MUL2X_PACK        4, 2, 3, 6, 1567, 3784, 3 ; t5a t4a

    ITX_MUL2X_PACK        5, 2, 3, 6, 3784, 1567, 2 ; t7a t6a

%if mmsize > 16

    vbroadcasti128       m2, [o(deint_shuf)]

%else

    mova                 m2, [o(deint_shuf)]

%endif

    pshuflw              m1, m1, q2301

    pshufhw              m1, m1, q2301

    psubsw               m3, m0, m1        ; t3 t2

    paddsw               m0, m1            ; -out7  out0

    psubsw               m1, m4, m5        ; t7 t6

    paddsw               m4, m5            ;  out6 -out1

    pshufb               m0, m2

    pshufb               m4, m2

    vpbroadcastd         m5, [o(pw_m2896_2896)]

    pmaddwd              m2, m5, m3

    pmaddwd              m5, m1

    paddd                m2, m6

    paddd                m5, m6

    psrad                m2, 12

    psrad                m5, 12

    packssdw             m2, m5            ; out4 -out5

    vpbroadcastd         m5, [o(pw_2896_2896)]

    pmaddwd              m3, m5

    pmaddwd              m1, m5

    paddd                m3, m6

    paddd                m1, m6

    psrad                m3, 12

    psrad                m1, 12

    packssdw             m1, m3            ; out2 -out3

    punpcklqdq           m3, m4, m0        ; out6 -out7

    punpckhqdq           m0, m4            ; out0 -out1

%else

    ITX_MUL2X_PACK        0, 4, 5, 6,  401, 4076 ; t0a t1a

    ITX_MUL2X_PACK        1, 4, 5, 6, 1931, 3612 ; t2a t3a

    ITX_MUL2X_PACK        2, 4, 5, 6, 3166, 2598 ; t4a t5a

    ITX_MUL2X_PACK        3, 4, 5, 6, 3920, 1189 ; t6a t7a

    psubsw               m4, m0, m2 ; t4 t5

    paddsw               m0, m2     ; t0 t1

    psubsw               m5, m1, m3 ; t6 t7

    paddsw               m1, m3     ; t2 t3

    shufps               m2, m5, m4, q1032

    punpckhwd            m4, m2

    punpcklwd            m5, m2

    ITX_MUL2X_PACK        4, 2, 3, 6, 1567, 3784, 1 ; t5a t4a

    ITX_MUL2X_PACK        5, 2, 3, 6, 3784, 1567    ; t7a t6a

    psubsw               m2, m0, m1        ; t2 t3

    paddsw               m0, m1            ; out0 -out7

    psubsw               m1, m4, m5        ; t7 t6

    paddsw               m4, m5            ; out6 -out1

    vpbroadcastd         m5, [o(pw_2896x8)]

    vpblendd             m3, m0, m4, 0x33  ; out6 -out7

    vpblendd             m0, m4, 0xcc      ; out0 -out1

    shufps               m4, m2, m1, q1032 ; t3 t7

    vpblendd             m1, m2, 0x33      ; t2 t6

    psubsw               m2, m1, m4        ; t2-t3 t6-t7

    paddsw               m1, m4            ; t2+t3 t6+t7

    pmulhrsw             m2, m5            ; out4 -out5

    pshufd               m1, m1, q1032

    pmulhrsw             m1, m5            ; out2 -out3

%endif

%endmacro

INIT_YMM avx2

INV_TXFM_4X8_FN dct, dct

INV_TXFM_4X8_FN dct, adst

INV_TXFM_4X8_FN dct, flipadst

INV_TXFM_4X8_FN dct, identity

cglobal idct_4x8_internal_8bpc, 0, 5, 7, dst, stride, c, eob, tx2

    vpermq               m0, [cq+32*0], q3120

    vpermq               m1, [cq+32*1], q3120

    vpbroadcastd         m2, [o(pw_2896x8)]

    pmulhrsw             m0, m2

    pmulhrsw             m1, m2

    IDCT4_1D_PACKED

    vbroadcasti128       m2, [o(deint_shuf)]

    shufps               m3, m0, m1, q1331

    shufps               m0, m1, q0220

    pshufb               m0, m2

    pshufb               m1, m3, m2

    jmp                tx2q

.pass2:

    vextracti128        xm2, m0, 1

    vextracti128        xm3, m1, 1

    call .main

    vpbroadcastd         m4, [o(pw_2048)]

    vinserti128          m0, xm2, 1

    vinserti128          m1, xm3, 1

    pshufd               m1, m1, q1032

    jmp m(iadst_4x8_internal_8bpc).end2

ALIGN function_align

cglobal_label .main

    WRAP_XMM IDCT8_1D_PACKED

    ret

INV_TXFM_4X8_FN adst, dct

INV_TXFM_4X8_FN adst, adst

INV_TXFM_4X8_FN adst, flipadst

INV_TXFM_4X8_FN adst, identity

cglobal iadst_4x8_internal_8bpc, 0, 5, 7, dst, stride, c, eob, tx2

    vpermq               m0, [cq+32*0], q3120

    vpermq               m1, [cq+32*1], q3120

    vpbroadcastd         m2, [o(pw_2896x8)]

    pmulhrsw             m0, m2

    pmulhrsw             m1, m2

    call m(iadst_8x4_internal_8bpc).main

    punpckhwd            m3, m0, m1

    punpcklwd            m0, m1

    punpckhwd            m1, m0, m3

    punpcklwd            m0, m3

    jmp                tx2q

.pass2:

    vextracti128        xm2, m0, 1

    vextracti128        xm3, m1, 1

    pshufd              xm4, xm0, q1032

    pshufd              xm5, xm1, q1032

    call .main_pass2

    vpbroadcastd         m4, [o(pw_2048)]

    vinserti128          m0, xm2, 1

    vinserti128          m1, xm3, 1

    pxor                 m5, m5

    psubw                m5, m4

.end:

    vpblendd             m4, m5, 0xcc

.end2:

    pmulhrsw             m0, m4

    pmulhrsw             m1, m4

    WIN64_RESTORE_XMM

    pxor                 m2, m2

    mova          [cq+32*0], m2

    mova          [cq+32*1], m2

.end3:

    lea                  r2, [dstq+strideq*4]

    lea                  r3, [strideq*3]

    WRITE_4X8             0, 1

    RET

ALIGN function_align

.main_pass1:

    WRAP_XMM IADST8_1D_PACKED 1

    ret

ALIGN function_align

cglobal_label .main_pass2

    WRAP_XMM IADST8_1D_PACKED 2

    ret

INV_TXFM_4X8_FN flipadst, dct

INV_TXFM_4X8_FN flipadst, adst

INV_TXFM_4X8_FN flipadst, flipadst

INV_TXFM_4X8_FN flipadst, identity

cglobal iflipadst_4x8_internal_8bpc, 0, 5, 7, dst, stride, c, eob, tx2

    vpermq               m0, [cq+32*0], q3120

    vpermq               m1, [cq+32*1], q3120

    vpbroadcastd         m2, [o(pw_2896x8)]

    pmulhrsw             m0, m2

    pmulhrsw             m1, m2

    call m(iadst_8x4_internal_8bpc).main

    punpcklwd            m3, m1, m0

    punpckhwd            m1, m0

    punpcklwd            m0, m1, m3

    punpckhwd            m1, m3

    jmp                tx2q

.pass2:

    vextracti128        xm2, m0, 1

    vextracti128        xm3, m1, 1

    pshufd              xm4, xm0, q1032

    pshufd              xm5, xm1, q1032

    call m(iadst_4x8_internal_8bpc).main_pass2

    vpbroadcastd         m5, [o(pw_2048)]

    vinserti128          m3, xm1, 1

    vinserti128          m2, xm0, 1

    pxor                 m4, m4

    psubw                m4, m5

    pshufd               m0, m3, q1032

    pshufd               m1, m2, q1032

    jmp m(iadst_4x8_internal_8bpc).end

INV_TXFM_4X8_FN identity, dct

INV_TXFM_4X8_FN identity, adst

INV_TXFM_4X8_FN identity, flipadst

INV_TXFM_4X8_FN identity, identity

cglobal iidentity_4x8_internal_8bpc, 0, 5, 7, dst, stride, c, eob, tx2

    vpermq               m2, [cq+32*0], q3120

    vpermq               m0, [cq+32*1], q3120

    vpbroadcastd         m3, [o(pw_2896x8)]

    vpbroadcastd         m4, [o(pw_1697x8)]

    punpcklwd            m1, m2, m0

    punpckhwd            m2, m0

    pmulhrsw             m1, m3

    pmulhrsw             m2, m3

    punpcklwd            m0, m1, m2

    punpckhwd            m1, m2

    pmulhrsw             m2, m4, m0

    pmulhrsw             m4, m1

    paddsw               m0, m2

    paddsw               m1, m4

    jmp                tx2q

.pass2:

    vpbroadcastd         m4, [o(pw_4096)]

    jmp m(iadst_4x8_internal_8bpc).end2

%macro INV_TXFM_4X16_FN 2 ; type1, type2

    INV_TXFM_FN          %1, %2, 4x16

%ifidn %1_%2, dct_dct

    movd                xm1, [o(pw_2896x8)]

    pmulhrsw            xm0, xm1, [cq]

    movd                xm2, [o(pw_16384)]

    movd                xm3, [o(pw_2048)]

    mov                [cq], eobd

    pmulhrsw            xm0, xm2

    pmulhrsw            xm0, xm1

    pmulhrsw            xm0, xm3

    vpbroadcastw         m0, xm0

    mova                 m1, m0

    mova                 m2, m0

    mova                 m3, m0

    jmp m(iadst_4x16_internal_8bpc).end3

%endif

%endmacro

%macro IDCT16_1D_PACKED 0

    vpbroadcastd        m10, [o(pd_2048)]

.main2:

    punpckhwd            m8, m7, m0 ; dct16 in15 in1

    punpcklwd            m9, m4, m0 ; dct4  in2  in0

    punpckhwd            m0, m3, m4 ; dct16 in7  in9

    punpcklwd            m7, m1     ; dct8  in7  in1

    punpckhwd            m1, m6     ; dct16 in3  in13

    punpcklwd            m3, m5     ; dct8  in3  in5

    punpckhwd            m5, m2     ; dct16 in11 in5

    punpcklwd            m6, m2     ; dct4  in3  in1

    ITX_MUL2X_PACK        8, 2, 4, 10,  401, 4076, 3 ; t8a  t15a

    ITX_MUL2X_PACK        0, 2, 4, 10, 3166, 2598, 3 ; t9a  t14a

    ITX_MUL2X_PACK        1, 2, 4, 10, 3920, 1189, 3 ; t11a t12a

    ITX_MUL2X_PACK        5, 2, 4, 10, 1931, 3612, 3 ; t10a t13a

    ITX_MUL2X_PACK        7, 2, 4, 10,  799, 4017, 3 ; t4a  t7a

    ITX_MUL2X_PACK        3, 2, 4, 10, 3406, 2276, 3 ; t5a  t6a

    ITX_MUL2X_PACK        6, 2, 4, 10, 1567, 3784    ; t3   t2

    psubsw               m2, m8, m0 ; t9  t14

    paddsw               m8, m0     ; t8  t15

    psubsw               m0, m1, m5 ; t10 t13

    paddsw               m1, m5     ; t11 t12

    vpbroadcastd         m5, [o(pw_m3784_1567)]  ; reuse pw_1567_3784

    ITX_MUL2X_PACK        2, 4, _, 10, 4, 5, 6   ; t9a  t14a

    vpbroadcastd         m4, [o(pw_m1567_m3784)] ; reuse pw_m3784_1567

    ITX_MUL2X_PACK        0, 5, _, 10, 5, 4, 6   ; t10a t13a

    psubsw               m4, m8, m1 ; t11a t12a

    paddsw               m8, m1     ; t8a  t15a

    psubsw               m1, m7, m3 ; t5a  t6a

    paddsw               m7, m3     ; t4   t7

    paddsw               m3, m2, m0 ; t9   t14

    psubsw               m2, m0     ; t10  t13

%if mmsize > 16

    vbroadcasti128       m0, [o(deint_shuf)]

%else

    mova                 m0, [o(deint_shuf)]

%endif

    pshufb               m8, m0

    pshufb               m7, m0

    pshufb               m3, m0

    ITX_MUL2X_PACK        9, 0, 5, 10, 2896, 2896 ; t0   t1

    vpbroadcastd         m0, [o(pw_m2896_2896)]

    ITX_MUL2X_PACK        4, 5, _, 10, 5, 0, 4    ; t11  t12

    vpbroadcastd         m5, [o(pw_2896_2896)]

    ITX_MUL2X_PACK        1, 0, _, 10, 0, 5, 4    ; t6   t5

    vpbroadcastd         m0, [o(pw_m2896_2896)]

    ITX_MUL2X_PACK        2, 0, _, 10, 0, 5, 4    ; t13a t10a

    punpckhqdq           m0, m8, m3        ; t15a t14

    punpcklqdq           m8, m3            ; t8a  t9

    shufps               m5, m4, m2, q1032 ; t12  t13a

    vpblendd             m4, m2, 0xcc      ; t11  t10a

    shufps               m2, m7, m1, q1032 ; t7 t6

    vpblendd             m7, m1, 0xcc      ; t4 t5

    psubsw               m1, m9, m6 ; dct4 out3 out2

    paddsw               m9, m6     ; dct4 out0 out1

    psubsw               m3, m9, m2 ; dct8 out7 out6

    paddsw               m9, m2     ; dct8 out0 out1

    psubsw               m2, m1, m7 ; dct8 out4 out5

    paddsw               m1, m7     ; dct8 out3 out2

    psubsw               m7, m9, m0 ; out15 out14

    paddsw               m0, m9     ; out0  out1

    psubsw               m6, m1, m5 ; out12 out13

    paddsw               m1, m5     ; out3  out2

    psubsw               m5, m2, m4 ; out11 out10

    paddsw               m2, m4     ; out4  out5

    psubsw               m4, m3, m8 ; out8  out9

    paddsw               m3, m8     ; out7  out6

%endmacro

INV_TXFM_4X16_FN dct, dct

INV_TXFM_4X16_FN dct, adst

INV_TXFM_4X16_FN dct, flipadst

INV_TXFM_4X16_FN dct, identity

cglobal idct_4x16_internal_8bpc, 0, 5, 11, dst, stride, c, eob, tx2

    mova                 m0, [cq+32*0]

    mova                 m1, [cq+32*1]

    mova                 m2, [cq+32*2]

    mova                 m3, [cq+32*3]

    call m(idct_16x4_internal_8bpc).main

    vpbroadcastd         m5, [o(pw_16384)]

    punpckhwd            m4, m2, m3

    punpcklwd            m2, m3

    punpckhwd            m3, m0, m1

    punpcklwd            m0, m1

    REPX   {pmulhrsw x, m5}, m0, m4, m2, m3

    punpckhdq            m1, m0, m2

    punpckldq            m0, m2

    punpckldq            m2, m3, m4

    punpckhdq            m3, m4

    jmp                tx2q

.pass2:

    vextracti128        xm4, m0, 1

    vextracti128        xm5, m1, 1

    vextracti128        xm6, m2, 1

    vextracti128        xm7, m3, 1

    call .main

    vinserti128          m0, xm4, 1

    vinserti128          m1, xm5, 1

    vpbroadcastd         m5, [o(pw_2048)]

    vinserti128          m2, xm6, 1

    vinserti128          m3, xm7, 1

    pshufd               m1, m1, q1032

    pshufd               m3, m3, q1032

    jmp m(iadst_4x16_internal_8bpc).end2

ALIGN function_align

cglobal_label .main

    WRAP_XMM IDCT16_1D_PACKED

    ret

INV_TXFM_4X16_FN adst, dct

INV_TXFM_4X16_FN adst, adst

INV_TXFM_4X16_FN adst, flipadst

INV_TXFM_4X16_FN adst, identity

cglobal iadst_4x16_internal_8bpc, 0, 5, 11, dst, stride, c, eob, tx2

    mova                 m0, [cq+32*0]

    mova                 m1, [cq+32*1]

    mova                 m2, [cq+32*2]

    mova                 m3, [cq+32*3]

    call m(iadst_16x4_internal_8bpc).main

    vpbroadcastd         m5, [o(pw_16384)]

    punpckhwd            m4, m2, m3

    punpcklwd            m2, m3

    punpckhwd            m3, m0, m1

    punpcklwd            m0, m1

    REPX   {pmulhrsw x, m5}, m4, m2, m3, m0

    punpckhdq            m1, m0, m2

    punpckldq            m0, m2

    punpckldq            m2, m3, m4

    punpckhdq            m3, m4

    jmp                tx2q

.pass2:

    call .main

    vpbroadcastd         m5, [o(pw_2896x8)]

    paddsw               m1, m2, m4

    psubsw               m2, m4

    pmulhrsw             m1, m5     ; -out7   out4   out6  -out5

    pmulhrsw             m2, m5     ;  out8  -out11 -out9   out10

    vpbroadcastd         m5, [o(pw_2048)]

    pshufd               m1, m1, q1032

    vpblendd             m4, m1, m0, 0x33

    vpblendd             m0, m2, 0x33

    vpblendd             m2, m3, 0x33

    vpblendd             m3, m1, 0x33

    vpermq               m0, m0, q2031

    vpermq               m1, m2, q1302

    vpermq               m2, m3, q3120

    vpermq               m3, m4, q0213

    psubw                m6, m7, m5

.end:

    vpblendd             m5, m6, 0xcc

.end2:

    REPX   {pmulhrsw x, m5}, m0, m1, m2, m3

    WIN64_RESTORE_XMM

    pxor                 m4, m4

    mova          [cq+32*0], m4

    mova          [cq+32*1], m4

    mova          [cq+32*2], m4

    mova          [cq+32*3], m4

.end3:

    lea                  r2, [dstq+strideq*8]

    lea                  r3, [strideq*3]

    WRITE_4X8             0, 1

    lea                dstq, [dstq+strideq*4]

    lea                  r2, [r2  +strideq*4]

    WRITE_4X8             2, 3

    RET

ALIGN function_align

.main:

    vpblendd             m4, m1, m0, 0xcc

    vpblendd             m1, m0, 0x33

    vpblendd             m5, m2, m3, 0xcc

    vpblendd             m2, m3, 0x33

    vperm2i128           m3, m5, m2, 0x31

    vinserti128          m0, m1, xm4, 1 ; in0  in3  in2  in1

    vperm2i128           m4, m1, m4, 0x31

    vinserti128          m1, m5, xm2, 1 ; in4  in7  in6  in5

    pshufd               m3, m3, q1032  ; in15 in12 in13 in14

    pshufd               m2, m4, q1032  ; in11 in8  in9  in10

cglobal_label .main2

    vpbroadcastd         m8, [o(pd_2048)]

    pxor                 m7, m7

    punpckhwd            m4, m3, m0 ; in12 in3  in14 in1

    punpcklwd            m0, m3     ; in0  in15 in2  in13

    punpckhwd            m3, m2, m1 ; in8  in7  in10 in5

    punpcklwd            m1, m2     ; in4  in11 in6  in9

    ITX_MUL4X_PACK        0, 2, 5, 6, 8,  201, 4091,  995, 3973, 3

    ITX_MUL4X_PACK        1, 2, 5, 6, 8, 1751, 3703, 2440, 3290, 3

    ITX_MUL4X_PACK        3, 2, 5, 6, 8, 3035, 2751, 3513, 2106, 3

    ITX_MUL4X_PACK        4, 2, 5, 6, 8, 3857, 1380, 4052,  601, 3

    psubsw               m2, m0, m3 ; t9a  t8a  t11a t10a

    paddsw               m0, m3     ; t1a  t0a  t3a  t2a

    psubsw               m3, m1, m4 ; t13a t12a t15a t14a

    paddsw               m1, m4     ; t5a  t4a  t7a  t6a

    ITX_MUL4X_PACK        2, 4, 5, 6, 8,  799, 4017, 3406, 2276, 3

    psubw                m6, m7, m5

    ITX_MUL2X_PACK        3, 5, _, 8, 6, 4, 6

    vpbroadcastd         m6, [o(pw_m3784_1567)]

    vpbroadcastd         m5, [o(pw_1567_3784)]

    psubsw               m4, m0, m1 ; t5   t4   t7   t6

    paddsw               m0, m1     ; t1   t0   t3   t2

    psubsw               m1, m2, m3 ; t13a t12a t15a t14a

    paddsw               m2, m3     ; t9a  t8a  t11a t10a

    psubw                m3, m7, m6 ; pw_3784_m1567

    vpblendd             m6, m3, 0xf0

    ITX_MUL2X_PACK        4, 3, _, 8, 6, 5, 4 ; t4a t5a t7a t6a

    ITX_MUL2X_PACK        1, 3, _, 8, 6, 5, 4 ; t12 t13 t15 t14

    vbroadcasti128       m5, [o(deint_shuf)]

    pshufb               m0, m5

    pshufb               m2, m5

    vperm2i128           m3, m0, m2, 0x31  ; t3   t2   t11a t10a

    vinserti128          m0, xm2, 1        ; t1   t0   t9a  t8a

    vperm2i128           m2, m4, m1, 0x31  ; t7a  t6a  t15  t14

    vinserti128          m4, xm1, 1        ; t4a  t5a  t12  t13

    pshufd               m2, m2, q1032     ; t6a  t7a  t14  t15

    psubsw               m1, m0, m3        ; t3a t2a t11 t10

    paddsw               m0, m3     ; -out15  out0   out14 -out1

    paddsw               m3, m4, m2 ; -out3   out12  out2  -out13

    psubsw               m4, m2            ; t6 t7 t14a t15a

    shufps               m2, m1, m4, q1032 ; t2a t6  t10 t14a

    vpblendd             m4, m1, 0x33      ; t3a t7  t11 t15a

    ret

ALIGN function_align

.main_pass1_end:

    vpbroadcastd         m5, [o(pw_m2896_2896)]

    vpbroadcastd         m6, [o(pw_2896_2896)]

    punpcklwd            m1, m4, m2

    punpckhwd            m4, m2

    pmaddwd              m2, m5, m4

    pmaddwd              m4, m6

    pmaddwd              m5, m1

    pmaddwd              m1, m6

    REPX      {paddd x, m8}, m5, m1, m2, m4

    REPX      {psrad x, 12}, m5, m2, m1, m4

    packssdw             m2, m5     ; -out11  out8   out10 -out9

    packssdw             m1, m4     ; -out7   out4   out6  -out5

    ret

INV_TXFM_4X16_FN flipadst, dct

INV_TXFM_4X16_FN flipadst, adst

INV_TXFM_4X16_FN flipadst, flipadst

INV_TXFM_4X16_FN flipadst, identity

cglobal iflipadst_4x16_internal_8bpc, 0, 5, 11, dst, stride, c, eob, tx2

    mova                 m0, [cq+32*0]

    mova                 m1, [cq+32*1]

    mova                 m2, [cq+32*2]

    mova                 m3, [cq+32*3]

    call m(iadst_16x4_internal_8bpc).main

    vpbroadcastd         m5, [o(pw_16384)]

    punpcklwd            m4, m1, m0

    punpckhwd            m1, m0

    punpcklwd            m0, m3, m2

    punpckhwd            m3, m2

    REPX   {pmulhrsw x, m5}, m4, m1, m0, m3

    punpckldq            m2, m3, m1

    punpckhdq            m3, m1

    punpckhdq            m1, m0, m4

    punpckldq            m0, m4

    jmp                tx2q

.pass2:

    call m(iadst_4x16_internal_8bpc).main

    vpbroadcastd         m5, [o(pw_2896x8)]

    paddsw               m1, m2, m4

    psubsw               m2, m4

    pmulhrsw             m1, m5     ; -out7   out4   out6  -out5

    pmulhrsw             m2, m5     ;  out8  -out11 -out9   out10

    vpbroadcastd         m6, [o(pw_2048)]

    pshufd               m1, m1, q1032

    vpblendd             m4, m0, m2, 0x33

    vpblendd             m0, m1, 0xcc

    vpblendd             m1, m3, 0xcc

    vpblendd             m2, m3, 0x33

    vpermq               m0, m0, q3120

    vpermq               m1, m1, q0213

    vpermq               m2, m2, q2031

    vpermq               m3, m4, q1302

    psubw                m5, m7, m6

    jmp m(iadst_4x16_internal_8bpc).end

INV_TXFM_4X16_FN identity, dct

INV_TXFM_4X16_FN identity, adst

INV_TXFM_4X16_FN identity, flipadst

INV_TXFM_4X16_FN identity, identity

cglobal iidentity_4x16_internal_8bpc, 0, 5, 11, dst, stride, c, eob, tx2

    mova                 m3, [cq+32*0]

    mova                 m2, [cq+32*1]

    mova                 m4, [cq+32*2]

    mova                 m5, [cq+32*3]

    vpbroadcastd         m8, [o(pw_1697x8)]

    pcmpeqw              m0, m0 ; -1

    punpcklwd            m1, m3, m2

    punpckhwd            m3, m2

    punpcklwd            m2, m4, m5

    punpckhwd            m4, m5

    pmulhrsw             m5, m8, m1

    pmulhrsw             m6, m8, m2

    pmulhrsw             m7, m8, m3

    pmulhrsw             m8, m4

    pcmpeqw              m9, m0, m1 ; we want to do a signed avg, but pavgw is

    pxor                 m1, m9     ; unsigned. as long as both signs are equal

    pcmpeqw              m9, m0, m2 ; it still works, but if the input is -1 the

    pxor                 m2, m9     ; pmulhrsw result will become 0 which causes

    pcmpeqw              m9, m0, m3 ; pavgw to output -32768 instead of 0 unless

    pxor                 m3, m9     ; we explicitly deal with that case here.

    pcmpeqw              m0, m4

    pxor                 m4, m0

    pavgw                m1, m5

    pavgw                m2, m6

    pavgw                m3, m7

    pavgw                m4, m8

    punpckldq            m0, m1, m2

    punpckhdq            m1, m2

    punpckldq            m2, m3, m4

    punpckhdq            m3, m4

    jmp                tx2q

.pass2:

    vpbroadcastd         m8, [o(pw_1697x16)]

    vpbroadcastd         m5, [o(pw_2048)]

    pmulhrsw             m4, m8, m0

    pmulhrsw             m6, m8, m1

    pmulhrsw             m7, m8, m2

    pmulhrsw             m8, m3

    REPX      {paddsw x, x}, m0, m1, m2, m3

    paddsw               m0, m4

    paddsw               m1, m6

    paddsw               m2, m7

    paddsw               m3, m8

    jmp m(iadst_4x16_internal_8bpc).end2

%macro WRITE_8X4 4-7 strideq*1, strideq*2, r3 ; coefs[1-2], tmp[1-2], off[1-3]

    movq               xm%3, [dstq   ]

    movhps             xm%3, [dstq+%5]

    movq               xm%4, [dstq+%6]

    movhps             xm%4, [dstq+%7]

    pmovzxbw            m%3, xm%3

    pmovzxbw            m%4, xm%4

%ifnum %1

    paddw               m%3, m%1

%else

    paddw               m%3, %1

%endif

%ifnum %2

    paddw               m%4, m%2

%else

    paddw               m%4, %2

%endif

    packuswb            m%3, m%4

    vextracti128       xm%4, m%3, 1

    movq          [dstq   ], xm%3

    movhps        [dstq+%6], xm%3

    movq          [dstq+%5], xm%4

    movhps        [dstq+%7], xm%4

%endmacro

%macro INV_TXFM_8X4_FN 2 ; type1, type2

    INV_TXFM_FN          %1, %2, 8x4

%ifidn %1_%2, dct_dct

    movd                xm1, [o(pw_2896x8)]

    pmulhrsw            xm0, xm1, [cq]

    mov                [cq], eobd

    pmulhrsw            xm0, xm1

    jmp m(inv_txfm_add_dct_dct_8x8_8bpc).dconly2

%endif

%endmacro

INV_TXFM_8X4_FN dct, dct

INV_TXFM_8X4_FN dct, adst

INV_TXFM_8X4_FN dct, flipadst

INV_TXFM_8X4_FN dct, identity

cglobal idct_8x4_internal_8bpc, 0, 5, 7, dst, stride, c, eob, tx2

    vpbroadcastd        xm3, [o(pw_2896x8)]

    pmulhrsw            xm0, xm3, [cq+16*0]

    pmulhrsw            xm1, xm3, [cq+16*1]

    pmulhrsw            xm2, xm3, [cq+16*2]

    pmulhrsw            xm3,      [cq+16*3]

    call m(idct_4x8_internal_8bpc).main

    vbroadcasti128       m4, [o(deint_shuf)]

    vinserti128          m3, m1, xm3, 1

    vinserti128          m1, m0, xm2, 1

    shufps               m0, m1, m3, q0220

    shufps               m1, m3, q1331

    pshufb               m0, m4

    pshufb               m1, m4

    jmp                tx2q

.pass2:

    IDCT4_1D_PACKED

    vpermq               m0, m0, q3120

    vpermq               m1, m1, q2031

    jmp m(iadst_8x4_internal_8bpc).end2

INV_TXFM_8X4_FN adst, dct

INV_TXFM_8X4_FN adst, adst

INV_TXFM_8X4_FN adst, flipadst

INV_TXFM_8X4_FN adst, identity

cglobal iadst_8x4_internal_8bpc, 0, 5, 7, dst, stride, c, eob, tx2

    vpbroadcastd        xm0, [o(pw_2896x8)]

    pshufd              xm4,      [cq+16*0], q1032

    pmulhrsw            xm3, xm0, [cq+16*3]

    pshufd              xm5,      [cq+16*1], q1032

    pmulhrsw            xm2, xm0, [cq+16*2]

    pmulhrsw            xm4, xm0

    pmulhrsw            xm5, xm0

    call m(iadst_4x8_internal_8bpc).main_pass1

    vinserti128        m0, xm2, 1

    vinserti128        m1, xm3, 1

    punpckhwd          m2, m0, m1

    punpcklwd          m0, m1

    pxor               m3, m3

    psubsw             m3, m2

    punpckhwd          m1, m0, m3

    punpcklwd          m0, m3

    jmp              tx2q

.pass2:

    call .main

.end:

    vpermq               m0, m0, q3120

    vpermq               m1, m1, q3120

.end2:

    vpbroadcastd         m2, [o(pw_2048)]

    pmulhrsw             m0, m2

    pmulhrsw             m1, m2

    WIN64_RESTORE_XMM

.end3:

    pxor                 m2, m2

    mova          [cq+32*0], m2

    mova          [cq+32*1], m2

    lea                  r3, [strideq*3]

    WRITE_8X4             0, 1, 4, 5

    RET

ALIGN function_align

cglobal_label .main

    IADST4_1D_PACKED

    ret

INV_TXFM_8X4_FN flipadst, dct

INV_TXFM_8X4_FN flipadst, adst

INV_TXFM_8X4_FN flipadst, flipadst

INV_TXFM_8X4_FN flipadst, identity

cglobal iflipadst_8x4_internal_8bpc, 0, 5, 7, dst, stride, c, eob, tx2

    vpbroadcastd        xm0, [o(pw_2896x8)]

    pshufd              xm4,      [cq+16*0], q1032

    pmulhrsw            xm3, xm0, [cq+16*3]

    pshufd              xm5,      [cq+16*1], q1032

    pmulhrsw            xm2, xm0, [cq+16*2]

    pmulhrsw            xm4, xm0

    pmulhrsw            xm5, xm0

    call m(iadst_4x8_internal_8bpc).main_pass1

    vinserti128          m3, xm1, 1

    vinserti128          m2, xm0, 1

    punpckhwd            m1, m3, m2

    punpcklwd            m3, m2

    pxor                 m0, m0

    psubsw               m0, m1

    punpckhwd            m1, m0, m3

    punpcklwd            m0, m3

    jmp                tx2q

.pass2:

    call m(iadst_8x4_internal_8bpc).main

    mova                 m2, m1

    vpermq               m1, m0, q2031

    vpermq               m0, m2, q2031

    jmp m(iadst_8x4_internal_8bpc).end2

INV_TXFM_8X4_FN identity, dct

INV_TXFM_8X4_FN identity, adst

INV_TXFM_8X4_FN identity, flipadst

INV_TXFM_8X4_FN identity, identity

cglobal iidentity_8x4_internal_8bpc, 0, 5, 7, dst, stride, c, eob, tx2

    mova                xm2, [cq+16*0]

    mova                xm0, [cq+16*1]

    vinserti128          m2, [cq+16*2], 1

    vinserti128          m0, [cq+16*3], 1

    vpbroadcastd         m3, [o(pw_2896x8)]

    punpcklwd            m1, m2, m0

    punpckhwd            m2, m0

    pmulhrsw             m1, m3

    pmulhrsw             m2, m3

    punpcklwd            m0, m1, m2

    punpckhwd            m1, m2

    paddsw               m0, m0

    paddsw               m1, m1

    jmp                tx2q

.pass2:

    vpbroadcastd         m3, [o(pw_1697x8)]

    pmulhrsw             m2, m3, m0

    pmulhrsw             m3, m1

    paddsw               m0, m2

    paddsw               m1, m3

    jmp m(iadst_8x4_internal_8bpc).end

%macro INV_TXFM_8X8_FN 2 ; type1, type2

    INV_TXFM_FN          %1, %2, 8x8

%ifidn %1_%2, dct_dct

    movd                xm1, [o(pw_2896x8)]

    pmulhrsw            xm0, xm1, [cq]

    movd                xm2, [o(pw_16384)]

    mov                [cq], eobd

    or                  r3d, 8

.dconly:

    pmulhrsw            xm0, xm2

.dconly2:

    movd                xm2, [pw_2048]

    pmulhrsw            xm0, xm1

    lea                  r2, [strideq*3]

    pmulhrsw            xm0, xm2

    vpbroadcastw         m0, xm0

.dconly_loop:

    WRITE_8X4             0, 0, 1, 2, strideq*1, strideq*2, r2

    lea                dstq, [dstq+strideq*4]

    sub                 r3d, 4

    jg .dconly_loop

    RET

%endif

%endmacro

INV_TXFM_8X8_FN dct, dct

INV_TXFM_8X8_FN dct, adst

INV_TXFM_8X8_FN dct, flipadst

INV_TXFM_8X8_FN dct, identity

cglobal idct_8x8_internal_8bpc, 0, 5, 7, dst, stride, c, eob, tx2

    vpermq               m0, [cq+32*0], q3120 ; 0 1

    vpermq               m3, [cq+32*3], q3120 ; 6 7

    vpermq               m2, [cq+32*2], q3120 ; 4 5

    vpermq               m1, [cq+32*1], q3120 ; 2 3

    call .main

    shufps               m4, m0, m1, q0220

    shufps               m5, m0, m1, q1331

    shufps               m1, m2, m3, q0220

    shufps               m3, m2, m3, q1331

    vbroadcasti128       m0, [o(deint_shuf)]

    vpbroadcastd         m2, [o(pw_16384)]

    REPX   {pshufb   x, m0}, m4, m5, m1, m3

    REPX   {pmulhrsw x, m2}, m4, m5, m1, m3

    vinserti128          m0, m4, xm1, 1

    vperm2i128           m2, m4, m1, 0x31

    vinserti128          m1, m5, xm3, 1

    vperm2i128           m3, m5, m3, 0x31

    jmp                tx2q

.pass2:

    call .main

    vpbroadcastd         m4, [o(pw_2048)]

    vpermq               m0, m0, q3120

    vpermq               m1, m1, q2031

    vpermq               m2, m2, q3120

    vpermq               m3, m3, q2031

    jmp m(iadst_8x8_internal_8bpc).end2

ALIGN function_align

cglobal_label .main

    IDCT8_1D_PACKED

    ret

INV_TXFM_8X8_FN adst, dct

INV_TXFM_8X8_FN adst, adst

INV_TXFM_8X8_FN adst, flipadst

INV_TXFM_8X8_FN adst, identity

cglobal iadst_8x8_internal_8bpc, 0, 5, 7, dst, stride, c, eob, tx2

    vpermq               m4, [cq+32*0], q1302 ; 1 0

    vpermq               m3, [cq+32*3], q3120 ; 6 7

    vpermq               m5, [cq+32*1], q1302 ; 3 2

    vpermq               m2, [cq+32*2], q3120 ; 4 5

    call .main_pass1

    vpbroadcastd         m5, [o(pw_16384)]

    punpcklwd            m4, m0, m1

    punpckhwd            m0, m1

    punpcklwd            m1, m2, m3

    punpckhwd            m2, m3

    pxor                 m3, m3

    psubw                m3, m5 ; negate odd elements during rounding

    pmulhrsw             m4, m5

    pmulhrsw             m0, m3

    pmulhrsw             m1, m5

    pmulhrsw             m2, m3

    punpcklwd            m3, m4, m0

    punpckhwd            m4, m0

    punpcklwd            m0, m1, m2

    punpckhwd            m1, m2

    vperm2i128           m2, m3, m0, 0x31

    vinserti128          m0, m3, xm0, 1

    vperm2i128           m3, m4, m1, 0x31

    vinserti128          m1, m4, xm1, 1

    jmp                tx2q

.pass2:

    pshufd               m4, m0, q1032

    pshufd               m5, m1, q1032

    call .main_pass2

    vpbroadcastd         m5, [o(pw_2048)]

    vpbroadcastd        xm4, [o(pw_4096)]

    psubw                m4, m5 ; lower half = 2048, upper half = -2048

.end:

    REPX {vpermq x, x, q3120}, m0, m1, m2, m3

.end2:

    pmulhrsw             m0, m4

    pmulhrsw             m1, m4

.end3:

    pmulhrsw             m2, m4

    pmulhrsw             m3, m4

    WIN64_RESTORE_XMM

.end4:

    pxor                 m4, m4

    mova          [cq+32*0], m4

    mova          [cq+32*1], m4

    mova          [cq+32*2], m4

    mova          [cq+32*3], m4

    lea                  r3, [strideq*3]

    WRITE_8X4             0, 1, 4, 5

    lea                dstq, [dstq+strideq*4]

    WRITE_8X4             2, 3, 4, 5

    RET

ALIGN function_align

.main_pass1:

    IADST8_1D_PACKED 1

    ret

ALIGN function_align

cglobal_label .main_pass2

    IADST8_1D_PACKED 2

    ret

INV_TXFM_8X8_FN flipadst, dct

INV_TXFM_8X8_FN flipadst, adst

INV_TXFM_8X8_FN flipadst, flipadst

INV_TXFM_8X8_FN flipadst, identity

cglobal iflipadst_8x8_internal_8bpc, 0, 5, 7, dst, stride, c, eob, tx2

    vpermq               m4, [cq+32*0], q1302 ; 1 0

    vpermq               m3, [cq+32*3], q3120 ; 6 7

    vpermq               m5, [cq+32*1], q1302 ; 3 2

    vpermq               m2, [cq+32*2], q3120 ; 4 5

    call m(iadst_8x8_internal_8bpc).main_pass1

    vpbroadcastd         m5, [o(pw_16384)]

    punpckhwd            m4, m3, m2

    punpcklwd            m3, m2

    punpckhwd            m2, m1, m0

    punpcklwd            m1, m0

    pxor                 m0, m0

    psubw                m0, m5

    pmulhrsw             m4, m0

    pmulhrsw             m3, m5

    pmulhrsw             m2, m0

    pmulhrsw             m1, m5

    punpckhwd            m0, m4, m3

    punpcklwd            m4, m3

    punpckhwd            m3, m2, m1

    punpcklwd            m2, m1

    vinserti128          m1, m0, xm3, 1

    vperm2i128           m3, m0, m3, 0x31

    vinserti128          m0, m4, xm2, 1

    vperm2i128           m2, m4, m2, 0x31

    jmp                tx2q

.pass2:

    pshufd               m4, m0, q1032

    pshufd               m5, m1, q1032

    call m(iadst_8x8_internal_8bpc).main_pass2

    vpbroadcastd         m4, [o(pw_2048)]

    vpbroadcastd        xm5, [o(pw_4096)]

    psubw                m4, m5 ; lower half = -2048, upper half = 2048

    vpermq               m5, m3, q2031

    vpermq               m3, m0, q2031

    vpermq               m0, m2, q2031

    vpermq               m2, m1, q2031

    pmulhrsw             m1, m0, m4

    pmulhrsw             m0, m5, m4

    jmp m(iadst_8x8_internal_8bpc).end3

INV_TXFM_8X8_FN identity, dct

INV_TXFM_8X8_FN identity, adst

INV_TXFM_8X8_FN identity, flipadst

INV_TXFM_8X8_FN identity, identity

cglobal iidentity_8x8_internal_8bpc, 0, 5, 7, dst, stride, c, eob, tx2

    mova                xm3, [cq+16*0]

    mova                xm2, [cq+16*1]

    vinserti128          m3, [cq+16*4], 1

    vinserti128          m2, [cq+16*5], 1

    mova                xm4, [cq+16*2]

    mova                xm0, [cq+16*3]

    vinserti128          m4, [cq+16*6], 1

    vinserti128          m0, [cq+16*7], 1

    punpcklwd            m1, m3, m2

    punpckhwd            m3, m2

    punpcklwd            m2, m4, m0

    punpckhwd            m4, m0

    punpckldq            m0, m1, m2

    punpckhdq            m1, m2

    punpckldq            m2, m3, m4

    punpckhdq            m3, m4

    jmp                tx2q

.pass2:

    vpbroadcastd         m4, [o(pw_4096)]

    jmp m(iadst_8x8_internal_8bpc).end

%macro INV_TXFM_8X16_FN 2 ; type1, type2

    INV_TXFM_FN          %1, %2, 8x16

%ifidn %1_%2, dct_dct

    movd                xm1, [o(pw_2896x8)]

    pmulhrsw            xm0, xm1, [cq]

    movd                xm2, [o(pw_16384)]

    mov                [cq], eobd

    pmulhrsw            xm0, xm1

    or                  r3d, 16

    jmp m(inv_txfm_add_dct_dct_8x8_8bpc).dconly

%endif

%endmacro

%macro ITX_8X16_LOAD_COEFS 0

    vpbroadcastd         m4, [o(pw_2896x8)]

    pmulhrsw             m0, m4, [cq+32*0]

    add                  cq, 32*4

    pmulhrsw             m7, m4, [cq+32*3]

    pmulhrsw             m1, m4, [cq-32*3]

    pmulhrsw             m6, m4, [cq+32*2]

    pmulhrsw             m2, m4, [cq-32*2]

    pmulhrsw             m5, m4, [cq+32*1]

    pmulhrsw             m3, m4, [cq-32*1]

    pmulhrsw             m4,     [cq+32*0]

%endmacro

INV_TXFM_8X16_FN dct, dct

INV_TXFM_8X16_FN dct, adst

INV_TXFM_8X16_FN dct, flipadst

INV_TXFM_8X16_FN dct, identity

cglobal idct_8x16_internal_8bpc, 0, 5, 13, dst, stride, c, eob, tx2

    ITX_8X16_LOAD_COEFS

    call m(idct_16x8_internal_8bpc).main

    vpbroadcastd        m10, [o(pw_16384)]

.pass1_end:

    vperm2i128           m9, m3, m7, 0x31

    vinserti128          m3, xm7, 1

    vperm2i128           m8, m2, m6, 0x31

    vinserti128          m2, xm6, 1

    vperm2i128           m6, m1, m5, 0x31

    vinserti128          m1, xm5, 1

    vperm2i128           m5, m0, m4, 0x31

    vinserti128          m0, xm4, 1

    punpckhwd            m4, m2, m3

    punpcklwd            m2, m3

    punpckhwd            m3, m0, m1

    punpcklwd            m0, m1

.pass1_end2:

    punpckhwd            m7, m5, m6

    punpcklwd            m5, m6

    punpcklwd            m6, m8, m9

    punpckhwd            m8, m9

    REPX  {pmulhrsw x, m10}, m2, m0, m4, m3, m5, m6, m7, m8

    punpckhdq            m1, m0, m2

    punpckldq            m0, m2

    punpckldq            m2, m3, m4

    punpckhdq            m3, m4

    punpckldq            m4, m5, m6

    punpckhdq            m5, m6

    punpckldq            m6, m7, m8

    punpckhdq            m7, m8

    jmp                tx2q

.pass2:

    call .main

    REPX {vpermq x, x, q3120}, m0, m2, m4, m6

    REPX {vpermq x, x, q2031}, m1, m3, m5, m7

.end:

    vpbroadcastd         m8, [o(pw_2048)]

.end2:

    REPX   {pmulhrsw x, m8}, m0, m1, m2, m3, m4, m5, m6, m7

.end3:

    pxor                 m8, m8

    REPX {mova [cq+32*x], m8}, -4, -3, -2, -1, 0, 1, 2, 3

    lea                  r3, [strideq*3]

    WRITE_8X4             0, 1, 8, 9

    lea                dstq, [dstq+strideq*4]

    WRITE_8X4             2, 3, 0, 1

    lea                dstq, [dstq+strideq*4]

    WRITE_8X4             4, 5, 0, 1

    lea                dstq, [dstq+strideq*4]

    WRITE_8X4             6, 7, 0, 1

    RET

ALIGN function_align

cglobal_label .main

    IDCT16_1D_PACKED

    ret

INV_TXFM_8X16_FN adst, dct

INV_TXFM_8X16_FN adst, adst

INV_TXFM_8X16_FN adst, flipadst

INV_TXFM_8X16_FN adst, identity

cglobal iadst_8x16_internal_8bpc, 0, 5, 13, dst, stride, c, eob, tx2

    ITX_8X16_LOAD_COEFS

    call m(iadst_16x8_internal_8bpc).main

    call m(iadst_16x8_internal_8bpc).main_pass1_end

    vpbroadcastd        m10, [o(pw_16384)]

    pslld                m9, m10, 17

    psubw               m10, m9 ; 16384, -16384

    jmp m(idct_8x16_internal_8bpc).pass1_end

ALIGN function_align

.pass2:

    call .main

    call .main_pass2_end

    vpbroadcastd         m9, [o(pw_2048)]

    vpbroadcastd        xm8, [o(pw_4096)]

    psubw                m8, m9

    REPX {vpermq x, x, q2031}, m0, m1, m2, m3

    REPX {vpermq x, x, q3120}, m4, m5, m6, m7

    jmp m(idct_8x16_internal_8bpc).end2

ALIGN function_align

cglobal_label .main

    REPX {pshufd x, x, q1032}, m7, m1, m5, m3

.main2:

    vpbroadcastd        m10, [o(pd_2048)]

    punpckhwd            m8, m7, m0 ; in14 in1

    punpcklwd            m0, m7     ; in0  in15

    punpcklwd            m7, m6, m1 ; in12 in3

    punpckhwd            m1, m6     ; in2  in13

    punpckhwd            m6, m5, m2 ; in10 in5

    punpcklwd            m2, m5     ; in4  in11

    punpcklwd            m5, m4, m3 ; in8  in7

    punpckhwd            m3, m4     ; in6  in9

    ITX_MUL2X_PACK        0, 4, 9, 10,  201, 4091, 3 ; t0  t1

    ITX_MUL2X_PACK        1, 4, 9, 10,  995, 3973, 3 ; t2  t3

    ITX_MUL2X_PACK        2, 4, 9, 10, 1751, 3703, 3 ; t4  t5

    ITX_MUL2X_PACK        3, 4, 9, 10, 2440, 3290, 3 ; t6  t7

    ITX_MUL2X_PACK        5, 4, 9, 10, 3035, 2751, 3 ; t8  t9

    ITX_MUL2X_PACK        6, 4, 9, 10, 3513, 2106, 3 ; t10 t11

    ITX_MUL2X_PACK        7, 4, 9, 10, 3857, 1380, 3 ; t12 t13

    ITX_MUL2X_PACK        8, 4, 9, 10, 4052,  601, 3 ; t14 t15

    psubsw               m4, m0, m5 ; t9a  t8a

    paddsw               m0, m5     ; t1a  t0a

    psubsw               m5, m1, m6 ; t11a t10a

    paddsw               m1, m6     ; t3a  t2a

    psubsw               m6, m2, m7 ; t13a t12a

    paddsw               m2, m7     ; t5a  t4a

    psubsw               m7, m3, m8 ; t15a t14a

    paddsw               m3, m8     ; t7a  t6a

    vpbroadcastd        m11, [o(pw_m4017_799)]

    vpbroadcastd        m12, [o(pw_799_4017)]

    pxor                 m9, m9

    ITX_MUL2X_PACK        4, 8, _, 10, 11, 12, 6 ; t8  t9

    psubw                m8, m9, m11 ; pw_4017_m799

    ITX_MUL2X_PACK        6, 12, _, 10, 12, 8, 6 ; t12 t13

    vpbroadcastd        m11, [o(pw_m2276_3406)]

    vpbroadcastd        m12, [o(pw_3406_2276)]

    ITX_MUL2X_PACK        5, 8, _, 10, 11, 12, 6 ; t10 t11

    psubw                m8, m9, m11 ; pw_2276_m3406

    ITX_MUL2X_PACK        7, 12, _, 10, 12, 8, 6 ; t14 t15

    psubsw               m8, m1, m3 ; t7   t6

    paddsw               m1, m3     ; t3   t2

    psubsw               m3, m0, m2 ; t5   t4

    paddsw               m0, m2     ; t1   t0

    psubsw               m2, m5, m7 ; t14a t15a

    paddsw               m7, m5     ; t10a t11a

    psubsw               m5, m4, m6 ; t12a t13a

    paddsw               m4, m6     ; t8a  t9a

    vpbroadcastd        m11, [o(pw_m3784_1567)]

    vpbroadcastd        m12, [o(pw_1567_3784)]

    ITX_MUL2X_PACK        3, 6, _, 10, 12, 11, 6 ; t5a t4a

    psubw                m6, m9, m11 ; pw_3784_m1567

    ITX_MUL2X_PACK        8, 6, _, 10, 6, 12, 6  ; t7a t6a

    vpbroadcastd        m11, [o(pw_m1567_3784)]

    vpbroadcastd        m12, [o(pw_3784_1567)]

    ITX_MUL2X_PACK        2, 6, _, 10, 11, 12, 6 ; t15 t14

    psubw                m6, m9, m11 ; pw_1567_m3784

    ITX_MUL2X_PACK        5, 12, _, 10, 12, 6, 6 ; t13 t12

    vbroadcasti128      m12, [o(deint_shuf)]

    paddsw               m6, m4, m7        ; -out1  out14

    psubsw               m4, m7            ;  t10    t11

    psubsw              m11, m3, m8        ;  t7     t6

    paddsw               m8, m3            ;  out12 -out3

    psubsw               m3, m0, m1        ;  t3a    t2a

    paddsw               m0, m1            ; -out15  out0

    paddsw               m1, m2, m5        ; -out13  out2

    psubsw               m5, m2            ;  t15a   t14a

    pshufb               m0, m12

    pshufb               m6, m12

    pshufb               m8, m12

    pshufb               m1, m12

    shufps               m7, m6, m0, q1032 ;  out14 -out15

    vpblendd             m0, m6, 0x33      ; -out1   out0

    punpcklqdq           m6, m8, m1        ;  out12 -out13

    punpckhqdq           m1, m8, m1        ; -out3   out2

    ret

ALIGN function_align

.main_pass1_end:

    vpbroadcastd         m8, [o(pw_m2896_2896)]

    vpbroadcastd        m12, [o(pw_2896_2896)]

    pmaddwd              m9, m8, m11       ; -out11

    pmaddwd              m2, m12, m5       ; -out5

    pmaddwd              m5, m8            ;  out10

    pmaddwd             m11, m12           ;  out4

    REPX     {paddd x, m10}, m9, m5, m2, m11

    REPX     {psrad x, 12 }, m9, m5, m2, m11

    packssdw             m5, m9            ;  out10 -out11

    packssdw             m2, m11           ; -out5   out4

    pmaddwd             m11, m8, m3        ;  out8

    vpbroadcastd         m8, [o(pw_2896_m2896)]

    pmaddwd              m3, m12           ; -out7

    pmaddwd              m8, m4            ; -out9

    pmaddwd              m4, m12           ;  out6

    REPX     {paddd x, m10}, m11, m3, m8, m4

    REPX     {psrad x, 12 }, m11, m3, m8, m4

    packssdw             m3, m4            ; -out7   out6

    packssdw             m4, m11, m8       ;  out8  -out9

    vpbroadcastd        m10, [o(pw_16384)]

    pxor                 m9, m9

    ret

ALIGN function_align

cglobal_label .main_pass2_end

    vpbroadcastd         m8, [o(pw_2896x8)]

    pshufb               m2, m11, m12

    pshufb               m5, m12

    pshufb               m3, m12

    pshufb               m4, m12

    punpcklqdq          m11, m5, m2        ;  t15a   t7

    punpckhqdq           m5, m2            ;  t14a   t6

    shufps               m2, m3, m4, q1032 ;  t2a    t10

    vpblendd             m3, m4, 0xcc      ;  t3a    t11

    psubsw               m4, m2, m3        ;  out8  -out9

    paddsw               m3, m2            ; -out7   out6

    paddsw               m2, m5, m11       ; -out5   out4

    psubsw               m5, m11           ;  out10 -out11

    REPX   {pmulhrsw x, m8}, m2, m3, m4, m5

    ret

INV_TXFM_8X16_FN flipadst, dct

INV_TXFM_8X16_FN flipadst, adst

INV_TXFM_8X16_FN flipadst, flipadst

INV_TXFM_8X16_FN flipadst, identity

cglobal iflipadst_8x16_internal_8bpc, 0, 5, 13, dst, stride, c, eob, tx2

    ITX_8X16_LOAD_COEFS

    call m(iadst_16x8_internal_8bpc).main

    call m(iadst_16x8_internal_8bpc).main_pass1_end

    vpbroadcastd         m9, [o(pw_16384)]

    pslld               m10, m9, 17

    psubw               m10, m9 ; -16384, 16384

    vperm2i128           m9, m4, m0, 0x31

    vinserti128          m0, m4, xm0, 1

    vperm2i128           m8, m5, m1, 0x31

    vinserti128          m4, m5, xm1, 1

    vperm2i128           m5, m7, m3, 0x31

    vinserti128          m3, m7, xm3, 1

    vinserti128          m1, m6, xm2, 1

    vperm2i128           m6, m6, m2, 0x31

    punpcklwd            m2, m4, m0

    punpckhwd            m4, m0

    punpcklwd            m0, m3, m1

    punpckhwd            m3, m1

    jmp m(idct_8x16_internal_8bpc).pass1_end2

.pass2:

    call m(iadst_8x16_internal_8bpc).main

    call m(iadst_8x16_internal_8bpc).main_pass2_end

    vpbroadcastd         m8, [o(pw_2048)]

    vpbroadcastd        xm9, [o(pw_4096)]

    psubw                m8, m9

    vpermq               m9, m0, q3120

    vpermq               m0, m7, q2031

    vpermq               m7, m1, q3120

    vpermq               m1, m6, q2031

    vpermq               m6, m2, q3120

    vpermq               m2, m5, q2031

    vpermq               m5, m3, q3120

    vpermq               m3, m4, q2031

    pmulhrsw             m0, m8

    pmulhrsw             m1, m8

    pmulhrsw             m2, m8

    pmulhrsw             m3, m8

    pmulhrsw             m4, m5, m8

    pmulhrsw             m5, m6, m8

    pmulhrsw             m6, m7, m8

    pmulhrsw             m7, m9, m8

    jmp m(idct_8x16_internal_8bpc).end3

INV_TXFM_8X16_FN identity, dct

INV_TXFM_8X16_FN identity, adst

INV_TXFM_8X16_FN identity, flipadst

INV_TXFM_8X16_FN identity, identity

%macro IDTX16 3-4 ; src/dst, tmp, pw_1697x16, [pw_16394]

    pmulhrsw            m%2, m%3, m%1

%if %0 == 4 ; if downshifting by 1

    pmulhrsw            m%2, m%4

%else

    paddsw              m%1, m%1

%endif

    paddsw              m%1, m%2

%endmacro

cglobal iidentity_8x16_internal_8bpc, 0, 5, 13, dst, stride, c, eob, tx2

    mova                xm3, [cq+16*0]

    mova                xm2, [cq+16*2]

--> --------------------

--> maximum size reached

--> --------------------
Messung V0.5
¤ Dauer der Verarbeitung: 0.27 Sekunden (vorverarbeitet) ¤

Wurzel
Suchen
Beweissystem der NASA
Beweissystem Isabelle
NIST Cobol Testsuite
Cephes Mathematical Library
Wiener Entwicklungsmethode
Haftungshinweis

Die Informationen auf dieser Webseite wurden nach bestem Wissen sorgfältig zusammengestellt. Es wird jedoch weder Vollständigkeit, noch Richtigkeit, noch Qualität der bereit gestellten Informationen zugesichert.