Ziele Untersuchung
mit Columbo Integrität von
Datenbanken Interaktion und
Portierbarkeit Ergonomie der
Schnittstellen

Angebot Produkte Projekt Beratung

Mittel Analytik Modellierung Sprachen Algebra Logik Hardware Denken Kreativität

Zusammenhänge Gesellschaft Wirtschaft Branche Firma


products/sources/formale Sprachen/C/Linux/arch/arm/crypto/ (Open Source Betriebssystem Version 6.17.9^©) Datei vom 24.10.2025 mit Größe 13 kB

Quelle ghash-ce-core.S Sprache: Sparc

/* SPDX-License-Identifier: GPL-2.0-only */
/*
* Accelerated GHASH implementation with NEON/ARMv8 vmull.p8/64 instructions.
*
* Copyright (C) 2015 - 2017 Linaro Ltd.
* Copyright (C) 2023 Google LLC. <ardb@google.com>
*/

#include <linux/linkage.h>
#include <asm/assembler.h>

.arch  armv8-a
.fpu  crypto-neon-fp-armv8

SHASH  .req q0
T1  .req q1
XL  .req q2
XM  .req q3
XH  .req q4
IN1  .req q4

SHASH_L  .req d0
SHASH_H  .req d1
T1_L  .req d2
T1_H  .req d3
XL_L  .req d4
XL_H  .req d5
XM_L  .req d6
XM_H  .req d7
XH_L  .req d8

t0l  .req d10
t0h  .req d11
t1l  .req d12
t1h  .req d13
t2l  .req d14
t2h  .req d15
t3l  .req d16
t3h  .req d17
t4l  .req d18
t4h  .req d19

t0q  .req q5
t1q  .req q6
t2q  .req q7
t3q  .req q8
t4q  .req q9
XH2  .req q9

s1l  .req d20
s1h  .req d21
s2l  .req d22
s2h  .req d23
s3l  .req d24
s3h  .req d25
s4l  .req d26
s4h  .req d27

MASK  .req d28
SHASH2_p8 .req d28

k16  .req d29
k32  .req d30
k48  .req d31
SHASH2_p64 .req d31

HH  .req q10
HH3  .req q11
HH4  .req q12
HH34  .req q13

HH_L  .req d20
HH_H  .req d21
HH3_L  .req d22
HH3_H  .req d23
HH4_L  .req d24
HH4_H  .req d25
HH34_L  .req d26
HH34_H  .req d27
SHASH2_H .req d29

XL2  .req q5
XM2  .req q6
T2  .req q7
T3  .req q8

XL2_L  .req d10
XL2_H  .req d11
XM2_L  .req d12
XM2_H  .req d13
T3_L  .req d16
T3_H  .req d17

.text

.macro  __pmull_p64, rd, rn, rm, b1, b2, b3, b4
vmull.p64 \rd, \rn, \rm
.endm

/*
* This implementation of 64x64 -> 128 bit polynomial multiplication
* using vmull.p8 instructions (8x8 -> 16) is taken from the paper
* "Fast Software Polynomial Multiplication on ARM Processors Using
* the NEON Engine" by Danilo Camara, Conrado Gouvea, Julio Lopez and
* Ricardo Dahab (https://hal.inria.fr/hal-01506572)
*
* It has been slightly tweaked for in-order performance, and to allow
* 'rq' to overlap with 'ad' or 'bd'.
*/
.macro  __pmull_p8, rq, ad, bd, b1=t4l, b2=t3l, b3=t4l, b4=t3l
vext.8  t0l, \ad, \ad, #1 @ A1
.ifc  \b1, t4l
vext.8  t4l, \bd, \bd, #1 @ B1
.endif
vmull.p8 t0q, t0l, \bd  @ F = A1*B
vext.8  t1l, \ad, \ad, #2 @ A2
vmull.p8 t4q, \ad, \b1  @ E = A*B1
.ifc  \b2, t3l
vext.8  t3l, \bd, \bd, #2 @ B2
.endif
vmull.p8 t1q, t1l, \bd  @ H = A2*B
vext.8  t2l, \ad, \ad, #3 @ A3
vmull.p8 t3q, \ad, \b2  @ G = A*B2
veor  t0q, t0q, t4q  @ L = E + F
.ifc  \b3, t4l
vext.8  t4l, \bd, \bd, #3 @ B3
.endif
vmull.p8 t2q, t2l, \bd  @ J = A3*B
veor  t0l, t0l, t0h  @ t0 = (L) (P0 + P1) << 8
veor  t1q, t1q, t3q  @ M = G + H
.ifc  \b4, t3l
vext.8  t3l, \bd, \bd, #4 @ B4
.endif
vmull.p8 t4q, \ad, \b3  @ I = A*B3
veor  t1l, t1l, t1h  @ t1 = (M) (P2 + P3) << 16
vmull.p8 t3q, \ad, \b4  @ K = A*B4
vand  t0h, t0h, k48
vand  t1h, t1h, k32
veor  t2q, t2q, t4q  @ N = I + J
veor  t0l, t0l, t0h
veor  t1l, t1l, t1h
veor  t2l, t2l, t2h  @ t2 = (N) (P4 + P5) << 24
vand  t2h, t2h, k16
veor  t3l, t3l, t3h  @ t3 = (K) (P6 + P7) << 32
vmov.i64 t3h, #0
vext.8  t0q, t0q, t0q, #15
veor  t2l, t2l, t2h
vext.8  t1q, t1q, t1q, #14
vmull.p8 \rq, \ad, \bd  @ D = A*B
vext.8  t2q, t2q, t2q, #13
vext.8  t3q, t3q, t3q, #12
veor  t0q, t0q, t1q
veor  t2q, t2q, t3q
veor  \rq, \rq, t0q
veor  \rq, \rq, t2q
.endm

//
// PMULL (64x64->128) based reduction for CPUs that can do
// it in a single instruction.
//
.macro  __pmull_reduce_p64
vmull.p64 T1, XL_L, MASK

veor  XH_L, XH_L, XM_H
vext.8  T1, T1, T1, #8
veor  XL_H, XL_H, XM_L
veor  T1, T1, XL

vmull.p64 XL, T1_H, MASK
.endm

//
// Alternative reduction for CPUs that lack support for the
// 64x64->128 PMULL instruction
//
.macro  __pmull_reduce_p8
veor  XL_H, XL_H, XM_L
veor  XH_L, XH_L, XM_H

vshl.i64 T1, XL, #57
vshl.i64 T2, XL, #62
veor  T1, T1, T2
vshl.i64 T2, XL, #63
veor  T1, T1, T2
veor  XL_H, XL_H, T1_L
veor  XH_L, XH_L, T1_H

vshr.u64 T1, XL, #1
veor  XH, XH, XL
veor  XL, XL, T1
vshr.u64 T1, T1, #6
vshr.u64 XL, XL, #1
.endm

.macro  ghash_update, pn, enc, aggregate=1, head=1
vld1.64  {XL}, [r1]

.if  \head
/* do the head block first, if supplied */
ldr  ip, [sp]
teq  ip, #0
beq  0f
vld1.64  {T1}, [ip]
teq  r0, #0
b  3f
.endif

0: .ifc  \pn, p64
.if  \aggregate
tst  r0, #3   // skip until #blocks is a
bne  2f   // round multiple of 4

vld1.8  {XL2-XM2}, [r2]!
1: vld1.8  {T2-T3}, [r2]!

.ifnb  \enc
\enc\()_4x XL2, XM2, T2, T3

add  ip, r3, #16
vld1.64  {HH}, [ip, :128]!
vld1.64  {HH3-HH4}, [ip, :128]

veor  SHASH2_p64, SHASH_L, SHASH_H
veor  SHASH2_H, HH_L, HH_H
veor  HH34_L, HH3_L, HH3_H
veor  HH34_H, HH4_L, HH4_H

vmov.i8  MASK, #0xe1
vshl.u64 MASK, MASK, #57
.endif

vrev64.8 XL2, XL2
vrev64.8 XM2, XM2

subs  r0, r0, #4

vext.8  T1, XL2, XL2, #8
veor  XL2_H, XL2_H, XL_L
veor  XL, XL, T1

vrev64.8 T1, T3
vrev64.8 T3, T2

vmull.p64 XH, HH4_H, XL_H   // a1 * b1
veor  XL2_H, XL2_H, XL_H
vmull.p64 XL, HH4_L, XL_L   // a0 * b0
vmull.p64 XM, HH34_H, XL2_H  // (a1 + a0)(b1 + b0)

vmull.p64 XH2, HH3_H, XM2_L  // a1 * b1
veor  XM2_L, XM2_L, XM2_H
vmull.p64 XL2, HH3_L, XM2_H  // a0 * b0
vmull.p64 XM2, HH34_L, XM2_L  // (a1 + a0)(b1 + b0)

veor  XH, XH, XH2
veor  XL, XL, XL2
veor  XM, XM, XM2

vmull.p64 XH2, HH_H, T3_L   // a1 * b1
veor  T3_L, T3_L, T3_H
vmull.p64 XL2, HH_L, T3_H   // a0 * b0
vmull.p64 XM2, SHASH2_H, T3_L  // (a1 + a0)(b1 + b0)

veor  XH, XH, XH2
veor  XL, XL, XL2
veor  XM, XM, XM2

vmull.p64 XH2, SHASH_H, T1_L  // a1 * b1
veor  T1_L, T1_L, T1_H
vmull.p64 XL2, SHASH_L, T1_H  // a0 * b0
vmull.p64 XM2, SHASH2_p64, T1_L  // (a1 + a0)(b1 + b0)

veor  XH, XH, XH2
veor  XL, XL, XL2
veor  XM, XM, XM2

beq  4f

vld1.8  {XL2-XM2}, [r2]!

veor  T1, XL, XH
veor  XM, XM, T1

__pmull_reduce_p64

veor  T1, T1, XH
veor  XL, XL, T1

b  1b
.endif
.endif

2: vld1.8  {T1}, [r2]!

.ifnb  \enc
\enc\()_1x T1
veor  SHASH2_p64, SHASH_L, SHASH_H
vmov.i8  MASK, #0xe1
vshl.u64 MASK, MASK, #57
.endif

subs  r0, r0, #1

3: /* multiply XL by SHASH in GF(2^128) */
vrev64.8 T1, T1

vext.8  IN1, T1, T1, #8
veor  T1_L, T1_L, XL_H
veor  XL, XL, IN1

__pmull_\pn XH, XL_H, SHASH_H, s1h, s2h, s3h, s4h @ a1 * b1
veor  T1, T1, XL
__pmull_\pn XL, XL_L, SHASH_L, s1l, s2l, s3l, s4l @ a0 * b0
__pmull_\pn XM, T1_L, SHASH2_\pn   @ (a1+a0)(b1+b0)

4: veor  T1, XL, XH
veor  XM, XM, T1

__pmull_reduce_\pn

veor  T1, T1, XH
veor  XL, XL, T1

bne  0b
.endm

/*
* void pmull_ghash_update(int blocks, u64 dg[], const char *src,
*    struct ghash_key const *k, const char *head)
*/
ENTRY(pmull_ghash_update_p64)
vld1.64  {SHASH}, [r3]!
vld1.64  {HH}, [r3]!
vld1.64  {HH3-HH4}, [r3]

veor  SHASH2_p64, SHASH_L, SHASH_H
veor  SHASH2_H, HH_L, HH_H
veor  HH34_L, HH3_L, HH3_H
veor  HH34_H, HH4_L, HH4_H

vmov.i8  MASK, #0xe1
vshl.u64 MASK, MASK, #57

ghash_update p64
vst1.64  {XL}, [r1]

bx  lr
ENDPROC(pmull_ghash_update_p64)

ENTRY(pmull_ghash_update_p8)
vld1.64  {SHASH}, [r3]
veor  SHASH2_p8, SHASH_L, SHASH_H

vext.8  s1l, SHASH_L, SHASH_L, #1
vext.8  s2l, SHASH_L, SHASH_L, #2
vext.8  s3l, SHASH_L, SHASH_L, #3
vext.8  s4l, SHASH_L, SHASH_L, #4
vext.8  s1h, SHASH_H, SHASH_H, #1
vext.8  s2h, SHASH_H, SHASH_H, #2
vext.8  s3h, SHASH_H, SHASH_H, #3
vext.8  s4h, SHASH_H, SHASH_H, #4

vmov.i64 k16, #0xffff
vmov.i64 k32, #0xffffffff
vmov.i64 k48, #0xffffffffffff

ghash_update p8
vst1.64  {XL}, [r1]

bx  lr
ENDPROC(pmull_ghash_update_p8)

e0  .req q9
e1  .req q10
e2  .req q11
e3  .req q12
e0l  .req d18
e0h  .req d19
e2l  .req d22
e2h  .req d23
e3l  .req d24
e3h  .req d25
ctr  .req q13
ctr0  .req d26
ctr1  .req d27

ek0  .req q14
ek1  .req q15

.macro  round, rk:req, regs:vararg
.irp  r, \regs
aese.8  \r, \rk
aesmc.8  \r, \r
.endr
.endm

.macro  aes_encrypt, rkp, rounds, regs:vararg
vld1.8  {ek0-ek1}, [\rkp, :128]!
cmp  \rounds, #12
blt  .L\@   // AES-128

round  ek0, \regs
vld1.8  {ek0}, [\rkp, :128]!
round  ek1, \regs
vld1.8  {ek1}, [\rkp, :128]!

beq  .L\@   // AES-192

round  ek0, \regs
vld1.8  {ek0}, [\rkp, :128]!
round  ek1, \regs
vld1.8  {ek1}, [\rkp, :128]!

.L\@: .rept  4
round  ek0, \regs
vld1.8  {ek0}, [\rkp, :128]!
round  ek1, \regs
vld1.8  {ek1}, [\rkp, :128]!
.endr

round  ek0, \regs
vld1.8  {ek0}, [\rkp, :128]

.irp  r, \regs
aese.8  \r, ek1
.endr
.irp  r, \regs
veor  \r, \r, ek0
.endr
.endm

pmull_aes_encrypt:
add  ip, r5, #4
vld1.8  {ctr0}, [r5]  // load 12 byte IV
vld1.8  {ctr1}, [ip]
rev  r8, r7
vext.8  ctr1, ctr1, ctr1, #4
add  r7, r7, #1
vmov.32  ctr1[1], r8
vmov  e0, ctr

add  ip, r3, #64
aes_encrypt ip, r6, e0
bx  lr
ENDPROC(pmull_aes_encrypt)

pmull_aes_encrypt_4x:
add  ip, r5, #4
vld1.8  {ctr0}, [r5]
vld1.8  {ctr1}, [ip]
rev  r8, r7
vext.8  ctr1, ctr1, ctr1, #4
add  r7, r7, #1
vmov.32  ctr1[1], r8
rev  ip, r7
vmov  e0, ctr
add  r7, r7, #1
vmov.32  ctr1[1], ip
rev  r8, r7
vmov  e1, ctr
add  r7, r7, #1
vmov.32  ctr1[1], r8
rev  ip, r7
vmov  e2, ctr
add  r7, r7, #1
vmov.32  ctr1[1], ip
vmov  e3, ctr

add  ip, r3, #64
aes_encrypt ip, r6, e0, e1, e2, e3
bx  lr
ENDPROC(pmull_aes_encrypt_4x)

pmull_aes_encrypt_final:
add  ip, r5, #4
vld1.8  {ctr0}, [r5]
vld1.8  {ctr1}, [ip]
rev  r8, r7
vext.8  ctr1, ctr1, ctr1, #4
mov  r7, #1 << 24  // BE #1 for the tag
vmov.32  ctr1[1], r8
vmov  e0, ctr
vmov.32  ctr1[1], r7
vmov  e1, ctr

add  ip, r3, #64
aes_encrypt ip, r6, e0, e1
bx  lr
ENDPROC(pmull_aes_encrypt_final)

.macro  enc_1x, in0
bl  pmull_aes_encrypt
veor  \in0, \in0, e0
vst1.8  {\in0}, [r4]!
.endm

.macro  dec_1x, in0
bl  pmull_aes_encrypt
veor  e0, e0, \in0
vst1.8  {e0}, [r4]!
.endm

.macro  enc_4x, in0, in1, in2, in3
bl  pmull_aes_encrypt_4x

veor  \in0, \in0, e0
veor  \in1, \in1, e1
veor  \in2, \in2, e2
veor  \in3, \in3, e3

vst1.8  {\in0-\in1}, [r4]!
vst1.8  {\in2-\in3}, [r4]!
.endm

.macro  dec_4x, in0, in1, in2, in3
bl  pmull_aes_encrypt_4x

veor  e0, e0, \in0
veor  e1, e1, \in1
veor  e2, e2, \in2
veor  e3, e3, \in3

vst1.8  {e0-e1}, [r4]!
vst1.8  {e2-e3}, [r4]!
.endm

/*
* void pmull_gcm_encrypt(int blocks, u64 dg[], const char *src,
*   struct gcm_key const *k, char *dst,
*   char *iv, int rounds, u32 counter)
*/
ENTRY(pmull_gcm_encrypt)
push  {r4-r8, lr}
ldrd  r4, r5, [sp, #24]
ldrd  r6, r7, [sp, #32]

vld1.64  {SHASH}, [r3]

ghash_update p64, enc, head=0
vst1.64  {XL}, [r1]

pop  {r4-r8, pc}
ENDPROC(pmull_gcm_encrypt)

/*
* void pmull_gcm_decrypt(int blocks, u64 dg[], const char *src,
*   struct gcm_key const *k, char *dst,
*   char *iv, int rounds, u32 counter)
*/
ENTRY(pmull_gcm_decrypt)
push  {r4-r8, lr}
ldrd  r4, r5, [sp, #24]
ldrd  r6, r7, [sp, #32]

vld1.64  {SHASH}, [r3]

ghash_update p64, dec, head=0
vst1.64  {XL}, [r1]

pop  {r4-r8, pc}
ENDPROC(pmull_gcm_decrypt)

/*
* void pmull_gcm_enc_final(int bytes, u64 dg[], char *tag,
*     struct gcm_key const *k, char *head,
*     char *iv, int rounds, u32 counter)
*/
ENTRY(pmull_gcm_enc_final)
push  {r4-r8, lr}
ldrd  r4, r5, [sp, #24]
ldrd  r6, r7, [sp, #32]

bl  pmull_aes_encrypt_final

cmp  r0, #0
beq  .Lenc_final

mov_l  ip, .Lpermute
sub  r4, r4, #16
add  r8, ip, r0
add  ip, ip, #32
add  r4, r4, r0
sub  ip, ip, r0

vld1.8  {e3}, [r8]  // permute vector for key stream
vld1.8  {e2}, [ip]  // permute vector for ghash input

vtbl.8  e3l, {e0}, e3l
vtbl.8  e3h, {e0}, e3h

vld1.8  {e0}, [r4]  // encrypt tail block
veor  e0, e0, e3
vst1.8  {e0}, [r4]

vtbl.8  T1_L, {e0}, e2l
vtbl.8  T1_H, {e0}, e2h

vld1.64  {XL}, [r1]
.Lenc_final:
vld1.64  {SHASH}, [r3, :128]
vmov.i8  MASK, #0xe1
veor  SHASH2_p64, SHASH_L, SHASH_H
vshl.u64 MASK, MASK, #57
mov  r0, #1
bne  3f   // process head block first
ghash_update p64, aggregate=0, head=0

vrev64.8 XL, XL
vext.8  XL, XL, XL, #8
veor  XL, XL, e1

sub  r2, r2, #16  // rewind src pointer
vst1.8  {XL}, [r2]  // store tag

pop  {r4-r8, pc}
ENDPROC(pmull_gcm_enc_final)

/*
* int pmull_gcm_dec_final(int bytes, u64 dg[], char *tag,
*    struct gcm_key const *k, char *head,
*    char *iv, int rounds, u32 counter,
*    const char *otag, int authsize)
*/
ENTRY(pmull_gcm_dec_final)
push  {r4-r8, lr}
ldrd  r4, r5, [sp, #24]
ldrd  r6, r7, [sp, #32]

bl  pmull_aes_encrypt_final

cmp  r0, #0
beq  .Ldec_final

mov_l  ip, .Lpermute
sub  r4, r4, #16
add  r8, ip, r0
add  ip, ip, #32
add  r4, r4, r0
sub  ip, ip, r0

vld1.8  {e3}, [r8]  // permute vector for key stream
vld1.8  {e2}, [ip]  // permute vector for ghash input

vtbl.8  e3l, {e0}, e3l
vtbl.8  e3h, {e0}, e3h

vld1.8  {e0}, [r4]

vtbl.8  T1_L, {e0}, e2l
vtbl.8  T1_H, {e0}, e2h

veor  e0, e0, e3
vst1.8  {e0}, [r4]

vld1.64  {XL}, [r1]
.Ldec_final:
vld1.64  {SHASH}, [r3]
vmov.i8  MASK, #0xe1
veor  SHASH2_p64, SHASH_L, SHASH_H
vshl.u64 MASK, MASK, #57
mov  r0, #1
bne  3f   // process head block first
ghash_update p64, aggregate=0, head=0

vrev64.8 XL, XL
vext.8  XL, XL, XL, #8
veor  XL, XL, e1

mov_l  ip, .Lpermute
ldrd  r2, r3, [sp, #40] // otag and authsize
vld1.8  {T1}, [r2]
add  ip, ip, r3
vceq.i8  T1, T1, XL  // compare tags
vmvn  T1, T1   // 0 for eq, -1 for ne

vld1.8  {e0}, [ip]
vtbl.8  XL_L, {T1}, e0l  // keep authsize bytes only
vtbl.8  XL_H, {T1}, e0h

vpmin.s8 XL_L, XL_L, XL_H // take the minimum s8 across the vector
vpmin.s8 XL_L, XL_L, XL_L
vmov.32  r0, XL_L[0]  // fail if != 0x0

pop  {r4-r8, pc}
ENDPROC(pmull_gcm_dec_final)

.section ".rodata", "a", %progbits
.align  5
.Lpermute:
.byte  0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff
.byte  0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff
.byte  0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07
.byte  0x08, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f
.byte  0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff
.byte  0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff

Messung V0.5

¤ Dauer der Verarbeitung: 0.5 Sekunden ¤

Wurzel

Suchen

Beweissystem der NASA

Beweissystem Isabelle

NIST Cobol Testsuite

Cephes Mathematical Library

Wiener Entwicklungsmethode

Haftungshinweis

Die Informationen auf dieser Webseite wurden nach bestem Wissen sorgfältig zusammengestellt. Es wird jedoch weder Vollständigkeit, noch Richtigkeit, noch Qualität der bereit gestellten Informationen zugesichert.