acc_amd64.s

   1// generated by go run gen.go; DO NOT EDIT
   2
   3// +build !appengine
   4// +build gc
   5// +build !noasm
   6
   7#include "textflag.h"
   8
   9// fl is short for floating point math. fx is short for fixed point math.
  10
  11DATA flAlmost65536<>+0x00(SB)/8, $0x477fffff477fffff
  12DATA flAlmost65536<>+0x08(SB)/8, $0x477fffff477fffff
  13DATA flOne<>+0x00(SB)/8, $0x3f8000003f800000
  14DATA flOne<>+0x08(SB)/8, $0x3f8000003f800000
  15DATA flSignMask<>+0x00(SB)/8, $0x7fffffff7fffffff
  16DATA flSignMask<>+0x08(SB)/8, $0x7fffffff7fffffff
  17
  18// scatterAndMulBy0x101 is a PSHUFB mask that brings the low four bytes of an
  19// XMM register to the low byte of that register's four uint32 values. It
  20// duplicates those bytes, effectively multiplying each uint32 by 0x101.
  21//
  22// It transforms a little-endian 16-byte XMM value from
  23//	ijkl????????????
  24// to
  25//	ii00jj00kk00ll00
  26DATA scatterAndMulBy0x101<>+0x00(SB)/8, $0x8080010180800000
  27DATA scatterAndMulBy0x101<>+0x08(SB)/8, $0x8080030380800202
  28
  29// gather is a PSHUFB mask that brings the second-lowest byte of the XMM
  30// register's four uint32 values to the low four bytes of that register.
  31//
  32// It transforms a little-endian 16-byte XMM value from
  33//	?i???j???k???l??
  34// to
  35//	ijkl000000000000
  36DATA gather<>+0x00(SB)/8, $0x808080800d090501
  37DATA gather<>+0x08(SB)/8, $0x8080808080808080
  38
  39DATA fxAlmost65536<>+0x00(SB)/8, $0x0000ffff0000ffff
  40DATA fxAlmost65536<>+0x08(SB)/8, $0x0000ffff0000ffff
  41DATA inverseFFFF<>+0x00(SB)/8, $0x8000800180008001
  42DATA inverseFFFF<>+0x08(SB)/8, $0x8000800180008001
  43
  44GLOBL flAlmost65536<>(SB), (NOPTR+RODATA), $16
  45GLOBL flOne<>(SB), (NOPTR+RODATA), $16
  46GLOBL flSignMask<>(SB), (NOPTR+RODATA), $16
  47GLOBL scatterAndMulBy0x101<>(SB), (NOPTR+RODATA), $16
  48GLOBL gather<>(SB), (NOPTR+RODATA), $16
  49GLOBL fxAlmost65536<>(SB), (NOPTR+RODATA), $16
  50GLOBL inverseFFFF<>(SB), (NOPTR+RODATA), $16
  51
  52// func haveSSE4_1() bool
  53TEXT ·haveSSE4_1(SB), NOSPLIT, $0
  54	MOVQ $1, AX
  55	CPUID
  56	SHRQ $19, CX
  57	ANDQ $1, CX
  58	MOVB CX, ret+0(FP)
  59	RET
  60
  61// ----------------------------------------------------------------------------
  62
  63// func fixedAccumulateOpOverSIMD(dst []uint8, src []uint32)
  64//
  65// XMM registers. Variable names are per
  66// https://github.com/google/font-rs/blob/master/src/accumulate.c
  67//
  68//	xmm0	scratch
  69//	xmm1	x
  70//	xmm2	y, z
  71//	xmm3	-
  72//	xmm4	-
  73//	xmm5	fxAlmost65536
  74//	xmm6	gather
  75//	xmm7	offset
  76//	xmm8	scatterAndMulBy0x101
  77//	xmm9	fxAlmost65536
  78//	xmm10	inverseFFFF
  79TEXT ·fixedAccumulateOpOverSIMD(SB), NOSPLIT, $0-48
  80
  81	MOVQ dst_base+0(FP), DI
  82	MOVQ dst_len+8(FP), BX
  83	MOVQ src_base+24(FP), SI
  84	MOVQ src_len+32(FP), R10
  85
  86	// Sanity check that len(dst) >= len(src).
  87	CMPQ BX, R10
  88	JLT  fxAccOpOverEnd
  89
  90	// R10 = len(src) &^ 3
  91	// R11 = len(src)
  92	MOVQ R10, R11
  93	ANDQ $-4, R10
  94
  95	// fxAlmost65536 := XMM(0x0000ffff repeated four times) // Maximum of an uint16.
  96	MOVOU fxAlmost65536<>(SB), X5
  97
  98	// gather               := XMM(see above)                      // PSHUFB shuffle mask.
  99	// scatterAndMulBy0x101 := XMM(see above)                      // PSHUFB shuffle mask.
 100	// fxAlmost65536        := XMM(0x0000ffff repeated four times) // 0xffff.
 101	// inverseFFFF          := XMM(0x80008001 repeated four times) // Magic constant for dividing by 0xffff.
 102	MOVOU gather<>(SB), X6
 103	MOVOU scatterAndMulBy0x101<>(SB), X8
 104	MOVOU fxAlmost65536<>(SB), X9
 105	MOVOU inverseFFFF<>(SB), X10
 106
 107	// offset := XMM(0x00000000 repeated four times) // Cumulative sum.
 108	XORPS X7, X7
 109
 110	// i := 0
 111	MOVQ $0, R9
 112
 113fxAccOpOverLoop4:
 114	// for i < (len(src) &^ 3)
 115	CMPQ R9, R10
 116	JAE  fxAccOpOverLoop1
 117
 118	// x = XMM(s0, s1, s2, s3)
 119	//
 120	// Where s0 is src[i+0], s1 is src[i+1], etc.
 121	MOVOU (SI), X1
 122
 123	// scratch = XMM(0, s0, s1, s2)
 124	// x += scratch                                  // yields x == XMM(s0, s0+s1, s1+s2, s2+s3)
 125	MOVOU X1, X0
 126	PSLLO $4, X0
 127	PADDD X0, X1
 128
 129	// scratch = XMM(0, 0, 0, 0)
 130	// scratch = XMM(scratch@0, scratch@0, x@0, x@1) // yields scratch == XMM(0, 0, s0, s0+s1)
 131	// x += scratch                                  // yields x == XMM(s0, s0+s1, s0+s1+s2, s0+s1+s2+s3)
 132	XORPS  X0, X0
 133	SHUFPS $0x40, X1, X0
 134	PADDD  X0, X1
 135
 136	// x += offset
 137	PADDD X7, X1
 138
 139	// y = abs(x)
 140	// y >>= 2 // Shift by 2*ϕ - 16.
 141	// y = min(y, fxAlmost65536)
 142	PABSD  X1, X2
 143	PSRLL  $2, X2
 144	PMINUD X5, X2
 145
 146	// z = convertToInt32(y)
 147	// No-op.
 148
 149	// Blend over the dst's prior value. SIMD for i in 0..3:
 150	//
 151	// dstA := uint32(dst[i]) * 0x101
 152	// maskA := z@i
 153	// outA := dstA*(0xffff-maskA)/0xffff + maskA
 154	// dst[i] = uint8(outA >> 8)
 155	//
 156	// First, set X0 to dstA*(0xfff-maskA).
 157	MOVL   (DI), X0
 158	PSHUFB X8, X0
 159	MOVOU  X9, X11
 160	PSUBL  X2, X11
 161	PMULLD X11, X0
 162
 163	// We implement uint32 division by 0xffff as multiplication by a magic
 164	// constant (0x800080001) and then a shift by a magic constant (47).
 165	// See TestDivideByFFFF for a justification.
 166	//
 167	// That multiplication widens from uint32 to uint64, so we have to
 168	// duplicate and shift our four uint32s from one XMM register (X0) to
 169	// two XMM registers (X0 and X11).
 170	//
 171	// Move the second and fourth uint32s in X0 to be the first and third
 172	// uint32s in X11.
 173	MOVOU X0, X11
 174	PSRLQ $32, X11
 175
 176	// Multiply by magic, shift by magic.
 177	PMULULQ X10, X0
 178	PMULULQ X10, X11
 179	PSRLQ   $47, X0
 180	PSRLQ   $47, X11
 181
 182	// Merge the two registers back to one, X11, and add maskA.
 183	PSLLQ $32, X11
 184	XORPS X0, X11
 185	PADDD X11, X2
 186
 187	// As per opSrcStore4, shuffle and copy the 4 second-lowest bytes.
 188	PSHUFB X6, X2
 189	MOVL   X2, (DI)
 190
 191	// offset = XMM(x@3, x@3, x@3, x@3)
 192	MOVOU  X1, X7
 193	SHUFPS $0xff, X1, X7
 194
 195	// i += 4
 196	// dst = dst[4:]
 197	// src = src[4:]
 198	ADDQ $4, R9
 199	ADDQ $4, DI
 200	ADDQ $16, SI
 201	JMP  fxAccOpOverLoop4
 202
 203fxAccOpOverLoop1:
 204	// for i < len(src)
 205	CMPQ R9, R11
 206	JAE  fxAccOpOverEnd
 207
 208	// x = src[i] + offset
 209	MOVL  (SI), X1
 210	PADDD X7, X1
 211
 212	// y = abs(x)
 213	// y >>= 2 // Shift by 2*ϕ - 16.
 214	// y = min(y, fxAlmost65536)
 215	PABSD  X1, X2
 216	PSRLL  $2, X2
 217	PMINUD X5, X2
 218
 219	// z = convertToInt32(y)
 220	// No-op.
 221
 222	// Blend over the dst's prior value.
 223	//
 224	// dstA := uint32(dst[0]) * 0x101
 225	// maskA := z
 226	// outA := dstA*(0xffff-maskA)/0xffff + maskA
 227	// dst[0] = uint8(outA >> 8)
 228	MOVBLZX (DI), R12
 229	IMULL   $0x101, R12
 230	MOVL    X2, R13
 231	MOVL    $0xffff, AX
 232	SUBL    R13, AX
 233	MULL    R12             // MULL's implicit arg is AX, and the result is stored in DX:AX.
 234	MOVL    $0x80008001, BX // Divide by 0xffff is to first multiply by a magic constant...
 235	MULL    BX              // MULL's implicit arg is AX, and the result is stored in DX:AX.
 236	SHRL    $15, DX         // ...and then shift by another magic constant (47 - 32 = 15).
 237	ADDL    DX, R13
 238	SHRL    $8, R13
 239	MOVB    R13, (DI)
 240
 241	// offset = x
 242	MOVOU X1, X7
 243
 244	// i += 1
 245	// dst = dst[1:]
 246	// src = src[1:]
 247	ADDQ $1, R9
 248	ADDQ $1, DI
 249	ADDQ $4, SI
 250	JMP  fxAccOpOverLoop1
 251
 252fxAccOpOverEnd:
 253	RET
 254
 255// ----------------------------------------------------------------------------
 256
 257// func fixedAccumulateOpSrcSIMD(dst []uint8, src []uint32)
 258//
 259// XMM registers. Variable names are per
 260// https://github.com/google/font-rs/blob/master/src/accumulate.c
 261//
 262//	xmm0	scratch
 263//	xmm1	x
 264//	xmm2	y, z
 265//	xmm3	-
 266//	xmm4	-
 267//	xmm5	fxAlmost65536
 268//	xmm6	gather
 269//	xmm7	offset
 270//	xmm8	-
 271//	xmm9	-
 272//	xmm10	-
 273TEXT ·fixedAccumulateOpSrcSIMD(SB), NOSPLIT, $0-48
 274
 275	MOVQ dst_base+0(FP), DI
 276	MOVQ dst_len+8(FP), BX
 277	MOVQ src_base+24(FP), SI
 278	MOVQ src_len+32(FP), R10
 279
 280	// Sanity check that len(dst) >= len(src).
 281	CMPQ BX, R10
 282	JLT  fxAccOpSrcEnd
 283
 284	// R10 = len(src) &^ 3
 285	// R11 = len(src)
 286	MOVQ R10, R11
 287	ANDQ $-4, R10
 288
 289	// fxAlmost65536 := XMM(0x0000ffff repeated four times) // Maximum of an uint16.
 290	MOVOU fxAlmost65536<>(SB), X5
 291
 292	// gather := XMM(see above) // PSHUFB shuffle mask.
 293	MOVOU gather<>(SB), X6
 294
 295	// offset := XMM(0x00000000 repeated four times) // Cumulative sum.
 296	XORPS X7, X7
 297
 298	// i := 0
 299	MOVQ $0, R9
 300
 301fxAccOpSrcLoop4:
 302	// for i < (len(src) &^ 3)
 303	CMPQ R9, R10
 304	JAE  fxAccOpSrcLoop1
 305
 306	// x = XMM(s0, s1, s2, s3)
 307	//
 308	// Where s0 is src[i+0], s1 is src[i+1], etc.
 309	MOVOU (SI), X1
 310
 311	// scratch = XMM(0, s0, s1, s2)
 312	// x += scratch                                  // yields x == XMM(s0, s0+s1, s1+s2, s2+s3)
 313	MOVOU X1, X0
 314	PSLLO $4, X0
 315	PADDD X0, X1
 316
 317	// scratch = XMM(0, 0, 0, 0)
 318	// scratch = XMM(scratch@0, scratch@0, x@0, x@1) // yields scratch == XMM(0, 0, s0, s0+s1)
 319	// x += scratch                                  // yields x == XMM(s0, s0+s1, s0+s1+s2, s0+s1+s2+s3)
 320	XORPS  X0, X0
 321	SHUFPS $0x40, X1, X0
 322	PADDD  X0, X1
 323
 324	// x += offset
 325	PADDD X7, X1
 326
 327	// y = abs(x)
 328	// y >>= 2 // Shift by 2*ϕ - 16.
 329	// y = min(y, fxAlmost65536)
 330	PABSD  X1, X2
 331	PSRLL  $2, X2
 332	PMINUD X5, X2
 333
 334	// z = convertToInt32(y)
 335	// No-op.
 336
 337	// z = shuffleTheSecondLowestBytesOfEach4ByteElement(z)
 338	// copy(dst[:4], low4BytesOf(z))
 339	PSHUFB X6, X2
 340	MOVL   X2, (DI)
 341
 342	// offset = XMM(x@3, x@3, x@3, x@3)
 343	MOVOU  X1, X7
 344	SHUFPS $0xff, X1, X7
 345
 346	// i += 4
 347	// dst = dst[4:]
 348	// src = src[4:]
 349	ADDQ $4, R9
 350	ADDQ $4, DI
 351	ADDQ $16, SI
 352	JMP  fxAccOpSrcLoop4
 353
 354fxAccOpSrcLoop1:
 355	// for i < len(src)
 356	CMPQ R9, R11
 357	JAE  fxAccOpSrcEnd
 358
 359	// x = src[i] + offset
 360	MOVL  (SI), X1
 361	PADDD X7, X1
 362
 363	// y = abs(x)
 364	// y >>= 2 // Shift by 2*ϕ - 16.
 365	// y = min(y, fxAlmost65536)
 366	PABSD  X1, X2
 367	PSRLL  $2, X2
 368	PMINUD X5, X2
 369
 370	// z = convertToInt32(y)
 371	// No-op.
 372
 373	// dst[0] = uint8(z>>8)
 374	MOVL X2, BX
 375	SHRL $8, BX
 376	MOVB BX, (DI)
 377
 378	// offset = x
 379	MOVOU X1, X7
 380
 381	// i += 1
 382	// dst = dst[1:]
 383	// src = src[1:]
 384	ADDQ $1, R9
 385	ADDQ $1, DI
 386	ADDQ $4, SI
 387	JMP  fxAccOpSrcLoop1
 388
 389fxAccOpSrcEnd:
 390	RET
 391
 392// ----------------------------------------------------------------------------
 393
 394// func fixedAccumulateMaskSIMD(buf []uint32)
 395//
 396// XMM registers. Variable names are per
 397// https://github.com/google/font-rs/blob/master/src/accumulate.c
 398//
 399//	xmm0	scratch
 400//	xmm1	x
 401//	xmm2	y, z
 402//	xmm3	-
 403//	xmm4	-
 404//	xmm5	fxAlmost65536
 405//	xmm6	-
 406//	xmm7	offset
 407//	xmm8	-
 408//	xmm9	-
 409//	xmm10	-
 410TEXT ·fixedAccumulateMaskSIMD(SB), NOSPLIT, $0-24
 411
 412	MOVQ buf_base+0(FP), DI
 413	MOVQ buf_len+8(FP), BX
 414	MOVQ buf_base+0(FP), SI
 415	MOVQ buf_len+8(FP), R10
 416
 417	// R10 = len(src) &^ 3
 418	// R11 = len(src)
 419	MOVQ R10, R11
 420	ANDQ $-4, R10
 421
 422	// fxAlmost65536 := XMM(0x0000ffff repeated four times) // Maximum of an uint16.
 423	MOVOU fxAlmost65536<>(SB), X5
 424
 425	// offset := XMM(0x00000000 repeated four times) // Cumulative sum.
 426	XORPS X7, X7
 427
 428	// i := 0
 429	MOVQ $0, R9
 430
 431fxAccMaskLoop4:
 432	// for i < (len(src) &^ 3)
 433	CMPQ R9, R10
 434	JAE  fxAccMaskLoop1
 435
 436	// x = XMM(s0, s1, s2, s3)
 437	//
 438	// Where s0 is src[i+0], s1 is src[i+1], etc.
 439	MOVOU (SI), X1
 440
 441	// scratch = XMM(0, s0, s1, s2)
 442	// x += scratch                                  // yields x == XMM(s0, s0+s1, s1+s2, s2+s3)
 443	MOVOU X1, X0
 444	PSLLO $4, X0
 445	PADDD X0, X1
 446
 447	// scratch = XMM(0, 0, 0, 0)
 448	// scratch = XMM(scratch@0, scratch@0, x@0, x@1) // yields scratch == XMM(0, 0, s0, s0+s1)
 449	// x += scratch                                  // yields x == XMM(s0, s0+s1, s0+s1+s2, s0+s1+s2+s3)
 450	XORPS  X0, X0
 451	SHUFPS $0x40, X1, X0
 452	PADDD  X0, X1
 453
 454	// x += offset
 455	PADDD X7, X1
 456
 457	// y = abs(x)
 458	// y >>= 2 // Shift by 2*ϕ - 16.
 459	// y = min(y, fxAlmost65536)
 460	PABSD  X1, X2
 461	PSRLL  $2, X2
 462	PMINUD X5, X2
 463
 464	// z = convertToInt32(y)
 465	// No-op.
 466
 467	// copy(dst[:4], z)
 468	MOVOU X2, (DI)
 469
 470	// offset = XMM(x@3, x@3, x@3, x@3)
 471	MOVOU  X1, X7
 472	SHUFPS $0xff, X1, X7
 473
 474	// i += 4
 475	// dst = dst[4:]
 476	// src = src[4:]
 477	ADDQ $4, R9
 478	ADDQ $16, DI
 479	ADDQ $16, SI
 480	JMP  fxAccMaskLoop4
 481
 482fxAccMaskLoop1:
 483	// for i < len(src)
 484	CMPQ R9, R11
 485	JAE  fxAccMaskEnd
 486
 487	// x = src[i] + offset
 488	MOVL  (SI), X1
 489	PADDD X7, X1
 490
 491	// y = abs(x)
 492	// y >>= 2 // Shift by 2*ϕ - 16.
 493	// y = min(y, fxAlmost65536)
 494	PABSD  X1, X2
 495	PSRLL  $2, X2
 496	PMINUD X5, X2
 497
 498	// z = convertToInt32(y)
 499	// No-op.
 500
 501	// dst[0] = uint32(z)
 502	MOVL X2, (DI)
 503
 504	// offset = x
 505	MOVOU X1, X7
 506
 507	// i += 1
 508	// dst = dst[1:]
 509	// src = src[1:]
 510	ADDQ $1, R9
 511	ADDQ $4, DI
 512	ADDQ $4, SI
 513	JMP  fxAccMaskLoop1
 514
 515fxAccMaskEnd:
 516	RET
 517
 518// ----------------------------------------------------------------------------
 519
 520// func floatingAccumulateOpOverSIMD(dst []uint8, src []float32)
 521//
 522// XMM registers. Variable names are per
 523// https://github.com/google/font-rs/blob/master/src/accumulate.c
 524//
 525//	xmm0	scratch
 526//	xmm1	x
 527//	xmm2	y, z
 528//	xmm3	flSignMask
 529//	xmm4	flOne
 530//	xmm5	flAlmost65536
 531//	xmm6	gather
 532//	xmm7	offset
 533//	xmm8	scatterAndMulBy0x101
 534//	xmm9	fxAlmost65536
 535//	xmm10	inverseFFFF
 536TEXT ·floatingAccumulateOpOverSIMD(SB), NOSPLIT, $8-48
 537
 538	MOVQ dst_base+0(FP), DI
 539	MOVQ dst_len+8(FP), BX
 540	MOVQ src_base+24(FP), SI
 541	MOVQ src_len+32(FP), R10
 542
 543	// Sanity check that len(dst) >= len(src).
 544	CMPQ BX, R10
 545	JLT  flAccOpOverEnd
 546
 547	// R10 = len(src) &^ 3
 548	// R11 = len(src)
 549	MOVQ R10, R11
 550	ANDQ $-4, R10
 551
 552	// Prepare to set MXCSR bits 13 and 14, so that the CVTPS2PL below is
 553	// "Round To Zero".
 554	STMXCSR mxcsrOrig-8(SP)
 555	MOVL    mxcsrOrig-8(SP), AX
 556	ORL     $0x6000, AX
 557	MOVL    AX, mxcsrNew-4(SP)
 558
 559	// flSignMask    := XMM(0x7fffffff repeated four times) // All but the sign bit of a float32.
 560	// flOne         := XMM(0x3f800000 repeated four times) // 1 as a float32.
 561	// flAlmost65536 := XMM(0x477fffff repeated four times) // 255.99998 * 256 as a float32.
 562	MOVOU flSignMask<>(SB), X3
 563	MOVOU flOne<>(SB), X4
 564	MOVOU flAlmost65536<>(SB), X5
 565
 566	// gather               := XMM(see above)                      // PSHUFB shuffle mask.
 567	// scatterAndMulBy0x101 := XMM(see above)                      // PSHUFB shuffle mask.
 568	// fxAlmost65536        := XMM(0x0000ffff repeated four times) // 0xffff.
 569	// inverseFFFF          := XMM(0x80008001 repeated four times) // Magic constant for dividing by 0xffff.
 570	MOVOU gather<>(SB), X6
 571	MOVOU scatterAndMulBy0x101<>(SB), X8
 572	MOVOU fxAlmost65536<>(SB), X9
 573	MOVOU inverseFFFF<>(SB), X10
 574
 575	// offset := XMM(0x00000000 repeated four times) // Cumulative sum.
 576	XORPS X7, X7
 577
 578	// i := 0
 579	MOVQ $0, R9
 580
 581flAccOpOverLoop4:
 582	// for i < (len(src) &^ 3)
 583	CMPQ R9, R10
 584	JAE  flAccOpOverLoop1
 585
 586	// x = XMM(s0, s1, s2, s3)
 587	//
 588	// Where s0 is src[i+0], s1 is src[i+1], etc.
 589	MOVOU (SI), X1
 590
 591	// scratch = XMM(0, s0, s1, s2)
 592	// x += scratch                                  // yields x == XMM(s0, s0+s1, s1+s2, s2+s3)
 593	MOVOU X1, X0
 594	PSLLO $4, X0
 595	ADDPS X0, X1
 596
 597	// scratch = XMM(0, 0, 0, 0)
 598	// scratch = XMM(scratch@0, scratch@0, x@0, x@1) // yields scratch == XMM(0, 0, s0, s0+s1)
 599	// x += scratch                                  // yields x == XMM(s0, s0+s1, s0+s1+s2, s0+s1+s2+s3)
 600	XORPS  X0, X0
 601	SHUFPS $0x40, X1, X0
 602	ADDPS  X0, X1
 603
 604	// x += offset
 605	ADDPS X7, X1
 606
 607	// y = x & flSignMask
 608	// y = min(y, flOne)
 609	// y = mul(y, flAlmost65536)
 610	MOVOU X3, X2
 611	ANDPS X1, X2
 612	MINPS X4, X2
 613	MULPS X5, X2
 614
 615	// z = convertToInt32(y)
 616	LDMXCSR  mxcsrNew-4(SP)
 617	CVTPS2PL X2, X2
 618	LDMXCSR  mxcsrOrig-8(SP)
 619
 620	// Blend over the dst's prior value. SIMD for i in 0..3:
 621	//
 622	// dstA := uint32(dst[i]) * 0x101
 623	// maskA := z@i
 624	// outA := dstA*(0xffff-maskA)/0xffff + maskA
 625	// dst[i] = uint8(outA >> 8)
 626	//
 627	// First, set X0 to dstA*(0xfff-maskA).
 628	MOVL   (DI), X0
 629	PSHUFB X8, X0
 630	MOVOU  X9, X11
 631	PSUBL  X2, X11
 632	PMULLD X11, X0
 633
 634	// We implement uint32 division by 0xffff as multiplication by a magic
 635	// constant (0x800080001) and then a shift by a magic constant (47).
 636	// See TestDivideByFFFF for a justification.
 637	//
 638	// That multiplication widens from uint32 to uint64, so we have to
 639	// duplicate and shift our four uint32s from one XMM register (X0) to
 640	// two XMM registers (X0 and X11).
 641	//
 642	// Move the second and fourth uint32s in X0 to be the first and third
 643	// uint32s in X11.
 644	MOVOU X0, X11
 645	PSRLQ $32, X11
 646
 647	// Multiply by magic, shift by magic.
 648	PMULULQ X10, X0
 649	PMULULQ X10, X11
 650	PSRLQ   $47, X0
 651	PSRLQ   $47, X11
 652
 653	// Merge the two registers back to one, X11, and add maskA.
 654	PSLLQ $32, X11
 655	XORPS X0, X11
 656	PADDD X11, X2
 657
 658	// As per opSrcStore4, shuffle and copy the 4 second-lowest bytes.
 659	PSHUFB X6, X2
 660	MOVL   X2, (DI)
 661
 662	// offset = XMM(x@3, x@3, x@3, x@3)
 663	MOVOU  X1, X7
 664	SHUFPS $0xff, X1, X7
 665
 666	// i += 4
 667	// dst = dst[4:]
 668	// src = src[4:]
 669	ADDQ $4, R9
 670	ADDQ $4, DI
 671	ADDQ $16, SI
 672	JMP  flAccOpOverLoop4
 673
 674flAccOpOverLoop1:
 675	// for i < len(src)
 676	CMPQ R9, R11
 677	JAE  flAccOpOverEnd
 678
 679	// x = src[i] + offset
 680	MOVL  (SI), X1
 681	ADDPS X7, X1
 682
 683	// y = x & flSignMask
 684	// y = min(y, flOne)
 685	// y = mul(y, flAlmost65536)
 686	MOVOU X3, X2
 687	ANDPS X1, X2
 688	MINPS X4, X2
 689	MULPS X5, X2
 690
 691	// z = convertToInt32(y)
 692	LDMXCSR  mxcsrNew-4(SP)
 693	CVTPS2PL X2, X2
 694	LDMXCSR  mxcsrOrig-8(SP)
 695
 696	// Blend over the dst's prior value.
 697	//
 698	// dstA := uint32(dst[0]) * 0x101
 699	// maskA := z
 700	// outA := dstA*(0xffff-maskA)/0xffff + maskA
 701	// dst[0] = uint8(outA >> 8)
 702	MOVBLZX (DI), R12
 703	IMULL   $0x101, R12
 704	MOVL    X2, R13
 705	MOVL    $0xffff, AX
 706	SUBL    R13, AX
 707	MULL    R12             // MULL's implicit arg is AX, and the result is stored in DX:AX.
 708	MOVL    $0x80008001, BX // Divide by 0xffff is to first multiply by a magic constant...
 709	MULL    BX              // MULL's implicit arg is AX, and the result is stored in DX:AX.
 710	SHRL    $15, DX         // ...and then shift by another magic constant (47 - 32 = 15).
 711	ADDL    DX, R13
 712	SHRL    $8, R13
 713	MOVB    R13, (DI)
 714
 715	// offset = x
 716	MOVOU X1, X7
 717
 718	// i += 1
 719	// dst = dst[1:]
 720	// src = src[1:]
 721	ADDQ $1, R9
 722	ADDQ $1, DI
 723	ADDQ $4, SI
 724	JMP  flAccOpOverLoop1
 725
 726flAccOpOverEnd:
 727	RET
 728
 729// ----------------------------------------------------------------------------
 730
 731// func floatingAccumulateOpSrcSIMD(dst []uint8, src []float32)
 732//
 733// XMM registers. Variable names are per
 734// https://github.com/google/font-rs/blob/master/src/accumulate.c
 735//
 736//	xmm0	scratch
 737//	xmm1	x
 738//	xmm2	y, z
 739//	xmm3	flSignMask
 740//	xmm4	flOne
 741//	xmm5	flAlmost65536
 742//	xmm6	gather
 743//	xmm7	offset
 744//	xmm8	-
 745//	xmm9	-
 746//	xmm10	-
 747TEXT ·floatingAccumulateOpSrcSIMD(SB), NOSPLIT, $8-48
 748
 749	MOVQ dst_base+0(FP), DI
 750	MOVQ dst_len+8(FP), BX
 751	MOVQ src_base+24(FP), SI
 752	MOVQ src_len+32(FP), R10
 753
 754	// Sanity check that len(dst) >= len(src).
 755	CMPQ BX, R10
 756	JLT  flAccOpSrcEnd
 757
 758	// R10 = len(src) &^ 3
 759	// R11 = len(src)
 760	MOVQ R10, R11
 761	ANDQ $-4, R10
 762
 763	// Prepare to set MXCSR bits 13 and 14, so that the CVTPS2PL below is
 764	// "Round To Zero".
 765	STMXCSR mxcsrOrig-8(SP)
 766	MOVL    mxcsrOrig-8(SP), AX
 767	ORL     $0x6000, AX
 768	MOVL    AX, mxcsrNew-4(SP)
 769
 770	// flSignMask    := XMM(0x7fffffff repeated four times) // All but the sign bit of a float32.
 771	// flOne         := XMM(0x3f800000 repeated four times) // 1 as a float32.
 772	// flAlmost65536 := XMM(0x477fffff repeated four times) // 255.99998 * 256 as a float32.
 773	MOVOU flSignMask<>(SB), X3
 774	MOVOU flOne<>(SB), X4
 775	MOVOU flAlmost65536<>(SB), X5
 776
 777	// gather := XMM(see above) // PSHUFB shuffle mask.
 778	MOVOU gather<>(SB), X6
 779
 780	// offset := XMM(0x00000000 repeated four times) // Cumulative sum.
 781	XORPS X7, X7
 782
 783	// i := 0
 784	MOVQ $0, R9
 785
 786flAccOpSrcLoop4:
 787	// for i < (len(src) &^ 3)
 788	CMPQ R9, R10
 789	JAE  flAccOpSrcLoop1
 790
 791	// x = XMM(s0, s1, s2, s3)
 792	//
 793	// Where s0 is src[i+0], s1 is src[i+1], etc.
 794	MOVOU (SI), X1
 795
 796	// scratch = XMM(0, s0, s1, s2)
 797	// x += scratch                                  // yields x == XMM(s0, s0+s1, s1+s2, s2+s3)
 798	MOVOU X1, X0
 799	PSLLO $4, X0
 800	ADDPS X0, X1
 801
 802	// scratch = XMM(0, 0, 0, 0)
 803	// scratch = XMM(scratch@0, scratch@0, x@0, x@1) // yields scratch == XMM(0, 0, s0, s0+s1)
 804	// x += scratch                                  // yields x == XMM(s0, s0+s1, s0+s1+s2, s0+s1+s2+s3)
 805	XORPS  X0, X0
 806	SHUFPS $0x40, X1, X0
 807	ADDPS  X0, X1
 808
 809	// x += offset
 810	ADDPS X7, X1
 811
 812	// y = x & flSignMask
 813	// y = min(y, flOne)
 814	// y = mul(y, flAlmost65536)
 815	MOVOU X3, X2
 816	ANDPS X1, X2
 817	MINPS X4, X2
 818	MULPS X5, X2
 819
 820	// z = convertToInt32(y)
 821	LDMXCSR  mxcsrNew-4(SP)
 822	CVTPS2PL X2, X2
 823	LDMXCSR  mxcsrOrig-8(SP)
 824
 825	// z = shuffleTheSecondLowestBytesOfEach4ByteElement(z)
 826	// copy(dst[:4], low4BytesOf(z))
 827	PSHUFB X6, X2
 828	MOVL   X2, (DI)
 829
 830	// offset = XMM(x@3, x@3, x@3, x@3)
 831	MOVOU  X1, X7
 832	SHUFPS $0xff, X1, X7
 833
 834	// i += 4
 835	// dst = dst[4:]
 836	// src = src[4:]
 837	ADDQ $4, R9
 838	ADDQ $4, DI
 839	ADDQ $16, SI
 840	JMP  flAccOpSrcLoop4
 841
 842flAccOpSrcLoop1:
 843	// for i < len(src)
 844	CMPQ R9, R11
 845	JAE  flAccOpSrcEnd
 846
 847	// x = src[i] + offset
 848	MOVL  (SI), X1
 849	ADDPS X7, X1
 850
 851	// y = x & flSignMask
 852	// y = min(y, flOne)
 853	// y = mul(y, flAlmost65536)
 854	MOVOU X3, X2
 855	ANDPS X1, X2
 856	MINPS X4, X2
 857	MULPS X5, X2
 858
 859	// z = convertToInt32(y)
 860	LDMXCSR  mxcsrNew-4(SP)
 861	CVTPS2PL X2, X2
 862	LDMXCSR  mxcsrOrig-8(SP)
 863
 864	// dst[0] = uint8(z>>8)
 865	MOVL X2, BX
 866	SHRL $8, BX
 867	MOVB BX, (DI)
 868
 869	// offset = x
 870	MOVOU X1, X7
 871
 872	// i += 1
 873	// dst = dst[1:]
 874	// src = src[1:]
 875	ADDQ $1, R9
 876	ADDQ $1, DI
 877	ADDQ $4, SI
 878	JMP  flAccOpSrcLoop1
 879
 880flAccOpSrcEnd:
 881	RET
 882
 883// ----------------------------------------------------------------------------
 884
 885// func floatingAccumulateMaskSIMD(dst []uint32, src []float32)
 886//
 887// XMM registers. Variable names are per
 888// https://github.com/google/font-rs/blob/master/src/accumulate.c
 889//
 890//	xmm0	scratch
 891//	xmm1	x
 892//	xmm2	y, z
 893//	xmm3	flSignMask
 894//	xmm4	flOne
 895//	xmm5	flAlmost65536
 896//	xmm6	-
 897//	xmm7	offset
 898//	xmm8	-
 899//	xmm9	-
 900//	xmm10	-
 901TEXT ·floatingAccumulateMaskSIMD(SB), NOSPLIT, $8-48
 902
 903	MOVQ dst_base+0(FP), DI
 904	MOVQ dst_len+8(FP), BX
 905	MOVQ src_base+24(FP), SI
 906	MOVQ src_len+32(FP), R10
 907
 908	// Sanity check that len(dst) >= len(src).
 909	CMPQ BX, R10
 910	JLT  flAccMaskEnd
 911
 912	// R10 = len(src) &^ 3
 913	// R11 = len(src)
 914	MOVQ R10, R11
 915	ANDQ $-4, R10
 916
 917	// Prepare to set MXCSR bits 13 and 14, so that the CVTPS2PL below is
 918	// "Round To Zero".
 919	STMXCSR mxcsrOrig-8(SP)
 920	MOVL    mxcsrOrig-8(SP), AX
 921	ORL     $0x6000, AX
 922	MOVL    AX, mxcsrNew-4(SP)
 923
 924	// flSignMask    := XMM(0x7fffffff repeated four times) // All but the sign bit of a float32.
 925	// flOne         := XMM(0x3f800000 repeated four times) // 1 as a float32.
 926	// flAlmost65536 := XMM(0x477fffff repeated four times) // 255.99998 * 256 as a float32.
 927	MOVOU flSignMask<>(SB), X3
 928	MOVOU flOne<>(SB), X4
 929	MOVOU flAlmost65536<>(SB), X5
 930
 931	// offset := XMM(0x00000000 repeated four times) // Cumulative sum.
 932	XORPS X7, X7
 933
 934	// i := 0
 935	MOVQ $0, R9
 936
 937flAccMaskLoop4:
 938	// for i < (len(src) &^ 3)
 939	CMPQ R9, R10
 940	JAE  flAccMaskLoop1
 941
 942	// x = XMM(s0, s1, s2, s3)
 943	//
 944	// Where s0 is src[i+0], s1 is src[i+1], etc.
 945	MOVOU (SI), X1
 946
 947	// scratch = XMM(0, s0, s1, s2)
 948	// x += scratch                                  // yields x == XMM(s0, s0+s1, s1+s2, s2+s3)
 949	MOVOU X1, X0
 950	PSLLO $4, X0
 951	ADDPS X0, X1
 952
 953	// scratch = XMM(0, 0, 0, 0)
 954	// scratch = XMM(scratch@0, scratch@0, x@0, x@1) // yields scratch == XMM(0, 0, s0, s0+s1)
 955	// x += scratch                                  // yields x == XMM(s0, s0+s1, s0+s1+s2, s0+s1+s2+s3)
 956	XORPS  X0, X0
 957	SHUFPS $0x40, X1, X0
 958	ADDPS  X0, X1
 959
 960	// x += offset
 961	ADDPS X7, X1
 962
 963	// y = x & flSignMask
 964	// y = min(y, flOne)
 965	// y = mul(y, flAlmost65536)
 966	MOVOU X3, X2
 967	ANDPS X1, X2
 968	MINPS X4, X2
 969	MULPS X5, X2
 970
 971	// z = convertToInt32(y)
 972	LDMXCSR  mxcsrNew-4(SP)
 973	CVTPS2PL X2, X2
 974	LDMXCSR  mxcsrOrig-8(SP)
 975
 976	// copy(dst[:4], z)
 977	MOVOU X2, (DI)
 978
 979	// offset = XMM(x@3, x@3, x@3, x@3)
 980	MOVOU  X1, X7
 981	SHUFPS $0xff, X1, X7
 982
 983	// i += 4
 984	// dst = dst[4:]
 985	// src = src[4:]
 986	ADDQ $4, R9
 987	ADDQ $16, DI
 988	ADDQ $16, SI
 989	JMP  flAccMaskLoop4
 990
 991flAccMaskLoop1:
 992	// for i < len(src)
 993	CMPQ R9, R11
 994	JAE  flAccMaskEnd
 995
 996	// x = src[i] + offset
 997	MOVL  (SI), X1
 998	ADDPS X7, X1
 999
1000	// y = x & flSignMask
1001	// y = min(y, flOne)
1002	// y = mul(y, flAlmost65536)
1003	MOVOU X3, X2
1004	ANDPS X1, X2
1005	MINPS X4, X2
1006	MULPS X5, X2
1007
1008	// z = convertToInt32(y)
1009	LDMXCSR  mxcsrNew-4(SP)
1010	CVTPS2PL X2, X2
1011	LDMXCSR  mxcsrOrig-8(SP)
1012
1013	// dst[0] = uint32(z)
1014	MOVL X2, (DI)
1015
1016	// offset = x
1017	MOVOU X1, X7
1018
1019	// i += 1
1020	// dst = dst[1:]
1021	// src = src[1:]
1022	ADDQ $1, R9
1023	ADDQ $4, DI
1024	ADDQ $4, SI
1025	JMP  flAccMaskLoop1
1026
1027flAccMaskEnd:
1028	RET