<p>laforge <strong>submitted</strong> this change.</p><p><a href="https://gerrit.osmocom.org/c/libosmocore/+/19497">View Change</a></p><div style="white-space:pre-wrap">Approvals:
  Jenkins Builder: Verified
  tnt: Looks good to me, but someone else must approve
  laforge: Looks good to me, approved

</div><pre style="font-family: monospace,monospace; white-space: pre-wrap;">bits.c: Use faster look-up-table approach for osmo_revbytebits_{buf,u8}<br><br>Benchmarking has shown that a look-up table based approach is much<br>faster than the arithmetic approach we used so far.<br><br>This is from a Core i7-6600U:<br><br>10    bytes, 1     iterations: flip=379, revb=5491; revb = 1448 %<br>10    bytes, 10    iterations: flip=728, revb=1517; revb = 208 %<br>10    bytes, 100   iterations: flip=2952, revb=9305; revb = 315 %<br>10    bytes, 1000  iterations: flip=26305, revb=90953; revb = 345 %<br>100   bytes, 1     iterations: flip=468, revb=1093; revb = 233 %<br>100   bytes, 10    iterations: flip=2634, revb=7418; revb = 281 %<br>100   bytes, 100   iterations: flip=23666, revb=70718; revb = 298 %<br>100   bytes, 1000  iterations: flip=237595, revb=900555; revb = 379 %<br>1024  bytes, 1     iterations: flip=3417, revb=11454; revb = 335 %<br>1024  bytes, 10    iterations: flip=33579, revb=92353; revb = 275 %<br>1024  bytes, 100   iterations: flip=555399, revb=1196228; revb = 215 %<br>1024  bytes, 1000  iterations: flip=3478271, revb=9227966; revb = 265 %<br>1048576 bytes, 1     iterations: flip=10189583, revb=7022193; revb = 68 %<br>1048576 bytes, 10    iterations: flip=19693347, revb=54389925; revb = 276 %<br>1048576 bytes, 100   iterations: flip=151308243, revb=454293151; revb = 300 %<br>1048576 bytes, 1000  iterations: flip=1390338439, revb=4429862642; revb = 318 %<br><br>where 'revb' is the old arithmetic approach, and 'flip' the new<br>look-up-table approach. In our usual cases of 100..1024 bytes in a<br>single iteration, the old code takes 233..335% of the look-up table.<br><br>Benchmarks on an Atom E6xx also show improvements except in one<br>situation (a single iteration over one 1MB large buffer).<br><br>10    bytes, 1     iterations: flip=416, revb=9184; revb = 2207 %<br>10    bytes, 10    iterations: flip=1960, revb=4024; revb = 205 %<br>10    bytes, 100   iterations: flip=13624, revb=32408; revb = 237 %<br>10    bytes, 1000  iterations: flip=160656, revb=361784; revb = 225 %<br>100   bytes, 1     iterations: flip=3536, revb=4952; revb = 140 %<br>100   bytes, 10    iterations: flip=12960, revb=20912; revb = 161 %<br>100   bytes, 100   iterations: flip=122448, revb=215152; revb = 175 %<br>100   bytes, 1000  iterations: flip=1204928, revb=1647680; revb = 136 %<br>1024  bytes, 1     iterations: flip=12944, revb=23128; revb = 178 %<br>1024  bytes, 10    iterations: flip=126192, revb=239784; revb = 190 %<br>1024  bytes, 100   iterations: flip=1190184, revb=1491672; revb = 125 %<br>1024  bytes, 1000  iterations: flip=11865872, revb=15113872; revb = 127 %<br>1048576 bytes, 1     iterations: flip=16288272, revb=15925888; revb = 97 %<br>1048576 bytes, 10    iterations: flip=121957000, revb=157883384; revb = 129 %<br>1048576 bytes, 100   iterations: flip=1219264992, revb=1621265216; revb = 132 %<br>1048576 bytes, 1000  iterations: flip=12219520648, revb=15960035856; revb = 130 %<br><br>Change-Id: I25029fe7e54c92979fb0119992fb8dc167e1536e<br>---<br>M src/bits.c<br>1 file changed, 32 insertions(+), 26 deletions(-)<br><br></pre><pre style="font-family: monospace,monospace; white-space: pre-wrap;"><span>diff --git a/src/bits.c b/src/bits.c</span><br><span>index 8837c1f..aa11753 100644</span><br><span>--- a/src/bits.c</span><br><span>+++ b/src/bits.c</span><br><span>@@ -226,6 +226,35 @@</span><br><span>       return out_ofs + num_bits;</span><br><span> }</span><br><span> </span><br><span style="color: hsl(120, 100%, 40%);">+/* look-up table for bit-reversal within a byte. Generated using:</span><br><span style="color: hsl(120, 100%, 40%);">+        int i,k;</span><br><span style="color: hsl(120, 100%, 40%);">+        for (i = 0 ; i < 256 ; i++) {</span><br><span style="color: hsl(120, 100%, 40%);">+                uint8_t sample = 0 ;</span><br><span style="color: hsl(120, 100%, 40%);">+                for (k = 0; k<8; k++) {</span><br><span style="color: hsl(120, 100%, 40%);">+                        if ( i & 1 << k ) sample |= 0x80 >>  k;</span><br><span style="color: hsl(120, 100%, 40%);">+                }</span><br><span style="color: hsl(120, 100%, 40%);">+                flip_table[i] = sample;</span><br><span style="color: hsl(120, 100%, 40%);">+        }</span><br><span style="color: hsl(120, 100%, 40%);">+ */</span><br><span style="color: hsl(120, 100%, 40%);">+static const uint8_t flip_table[256] = {</span><br><span style="color: hsl(120, 100%, 40%);">+   0x00, 0x80, 0x40, 0xc0, 0x20, 0xa0, 0x60, 0xe0, 0x10, 0x90, 0x50, 0xd0, 0x30, 0xb0, 0x70, 0xf0,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x08, 0x88, 0x48, 0xc8, 0x28, 0xa8, 0x68, 0xe8, 0x18, 0x98, 0x58, 0xd8, 0x38, 0xb8, 0x78, 0xf8,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x04, 0x84, 0x44, 0xc4, 0x24, 0xa4, 0x64, 0xe4, 0x14, 0x94, 0x54, 0xd4, 0x34, 0xb4, 0x74, 0xf4,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x0c, 0x8c, 0x4c, 0xcc, 0x2c, 0xac, 0x6c, 0xec, 0x1c, 0x9c, 0x5c, 0xdc, 0x3c, 0xbc, 0x7c, 0xfc,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x02, 0x82, 0x42, 0xc2, 0x22, 0xa2, 0x62, 0xe2, 0x12, 0x92, 0x52, 0xd2, 0x32, 0xb2, 0x72, 0xf2,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x0a, 0x8a, 0x4a, 0xca, 0x2a, 0xaa, 0x6a, 0xea, 0x1a, 0x9a, 0x5a, 0xda, 0x3a, 0xba, 0x7a, 0xfa,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x06, 0x86, 0x46, 0xc6, 0x26, 0xa6, 0x66, 0xe6, 0x16, 0x96, 0x56, 0xd6, 0x36, 0xb6, 0x76, 0xf6,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x0e, 0x8e, 0x4e, 0xce, 0x2e, 0xae, 0x6e, 0xee, 0x1e, 0x9e, 0x5e, 0xde, 0x3e, 0xbe, 0x7e, 0xfe,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x01, 0x81, 0x41, 0xc1, 0x21, 0xa1, 0x61, 0xe1, 0x11, 0x91, 0x51, 0xd1, 0x31, 0xb1, 0x71, 0xf1,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x09, 0x89, 0x49, 0xc9, 0x29, 0xa9, 0x69, 0xe9, 0x19, 0x99, 0x59, 0xd9, 0x39, 0xb9, 0x79, 0xf9,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x05, 0x85, 0x45, 0xc5, 0x25, 0xa5, 0x65, 0xe5, 0x15, 0x95, 0x55, 0xd5, 0x35, 0xb5, 0x75, 0xf5,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x0d, 0x8d, 0x4d, 0xcd, 0x2d, 0xad, 0x6d, 0xed, 0x1d, 0x9d, 0x5d, 0xdd, 0x3d, 0xbd, 0x7d, 0xfd,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x03, 0x83, 0x43, 0xc3, 0x23, 0xa3, 0x63, 0xe3, 0x13, 0x93, 0x53, 0xd3, 0x33, 0xb3, 0x73, 0xf3,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x0b, 0x8b, 0x4b, 0xcb, 0x2b, 0xab, 0x6b, 0xeb, 0x1b, 0x9b, 0x5b, 0xdb, 0x3b, 0xbb, 0x7b, 0xfb,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x07, 0x87, 0x47, 0xc7, 0x27, 0xa7, 0x67, 0xe7, 0x17, 0x97, 0x57, 0xd7, 0x37, 0xb7, 0x77, 0xf7,</span><br><span style="color: hsl(120, 100%, 40%);">+       0x0f, 0x8f, 0x4f, 0xcf, 0x2f, 0xaf, 0x6f, 0xef, 0x1f, 0x9f, 0x5f, 0xdf, 0x3f, 0xbf, 0x7f, 0xff,</span><br><span style="color: hsl(120, 100%, 40%);">+};</span><br><span style="color: hsl(120, 100%, 40%);">+</span><br><span> /*! generalized bit reversal function</span><br><span>  *  \param[in] x the 32bit value to be reversed</span><br><span>  *  \param[in] k the type of reversal requested</span><br><span>@@ -265,16 +294,10 @@</span><br><span> /*! reverse the bit order in a byte</span><br><span>  *  \param[in] x 8bit input value</span><br><span>  *  \returns 8bit value where bits order has been reversed</span><br><span style="color: hsl(0, 100%, 40%);">- *</span><br><span style="color: hsl(0, 100%, 40%);">- * See Chapter 7 "Hackers Delight"</span><br><span>  */</span><br><span> uint32_t osmo_revbytebits_8(uint8_t x)</span><br><span> {</span><br><span style="color: hsl(0, 100%, 40%);">-      x = (x & 0x55) <<  1 | (x & 0xAA) >>  1;</span><br><span style="color: hsl(0, 100%, 40%);">-    x = (x & 0x33) <<  2 | (x & 0xCC) >>  2;</span><br><span style="color: hsl(0, 100%, 40%);">-    x = (x & 0x0F) <<  4 | (x & 0xF0) >>  4;</span><br><span style="color: hsl(0, 100%, 40%);">-</span><br><span style="color: hsl(0, 100%, 40%);">-    return x;</span><br><span style="color: hsl(120, 100%, 40%);">+     return flip_table[x];</span><br><span> }</span><br><span> </span><br><span> /*! reverse bit-order of each byte in a buffer</span><br><span>@@ -286,26 +309,9 @@</span><br><span> void osmo_revbytebits_buf(uint8_t *buf, int len)</span><br><span> {</span><br><span>     unsigned int i;</span><br><span style="color: hsl(0, 100%, 40%);">- unsigned int unaligned_cnt;</span><br><span style="color: hsl(0, 100%, 40%);">-     int len_remain = len;</span><br><span> </span><br><span style="color: hsl(0, 100%, 40%);">-       unaligned_cnt = ((unsigned long)buf & 3);</span><br><span style="color: hsl(0, 100%, 40%);">-   for (i = 0; i < unaligned_cnt; i++) {</span><br><span style="color: hsl(0, 100%, 40%);">-                buf[i] = osmo_revbytebits_8(buf[i]);</span><br><span style="color: hsl(0, 100%, 40%);">-            len_remain--;</span><br><span style="color: hsl(0, 100%, 40%);">-           if (len_remain <= 0)</span><br><span style="color: hsl(0, 100%, 40%);">-                 return;</span><br><span style="color: hsl(0, 100%, 40%);">- }</span><br><span style="color: hsl(0, 100%, 40%);">-</span><br><span style="color: hsl(0, 100%, 40%);">-       for (i = unaligned_cnt; i + 3 < len; i += 4) {</span><br><span style="color: hsl(0, 100%, 40%);">-               osmo_store32be(osmo_revbytebits_32(osmo_load32be(buf + i)), buf + i);</span><br><span style="color: hsl(0, 100%, 40%);">-           len_remain -= 4;</span><br><span style="color: hsl(0, 100%, 40%);">-        }</span><br><span style="color: hsl(0, 100%, 40%);">-</span><br><span style="color: hsl(0, 100%, 40%);">-       for (i = len - len_remain; i < len; i++) {</span><br><span style="color: hsl(0, 100%, 40%);">-           buf[i] = osmo_revbytebits_8(buf[i]);</span><br><span style="color: hsl(0, 100%, 40%);">-            len_remain--;</span><br><span style="color: hsl(0, 100%, 40%);">-   }</span><br><span style="color: hsl(120, 100%, 40%);">+     for (i = 0; i < len; i++)</span><br><span style="color: hsl(120, 100%, 40%);">+          buf[i] = flip_table[buf[i]];</span><br><span> }</span><br><span> </span><br><span> /*! @} */</span><br><span></span><br></pre><p>To view, visit <a href="https://gerrit.osmocom.org/c/libosmocore/+/19497">change 19497</a>. To unsubscribe, or for help writing mail filters, visit <a href="https://gerrit.osmocom.org/settings">settings</a>.</p><div itemscope itemtype="http://schema.org/EmailMessage"><div itemscope itemprop="action" itemtype="http://schema.org/ViewAction"><link itemprop="url" href="https://gerrit.osmocom.org/c/libosmocore/+/19497"/><meta itemprop="name" content="View Change"/></div></div>

<div style="display:none"> Gerrit-Project: libosmocore </div>
<div style="display:none"> Gerrit-Branch: master </div>
<div style="display:none"> Gerrit-Change-Id: I25029fe7e54c92979fb0119992fb8dc167e1536e </div>
<div style="display:none"> Gerrit-Change-Number: 19497 </div>
<div style="display:none"> Gerrit-PatchSet: 2 </div>
<div style="display:none"> Gerrit-Owner: laforge <laforge@osmocom.org> </div>
<div style="display:none"> Gerrit-Reviewer: Jenkins Builder </div>
<div style="display:none"> Gerrit-Reviewer: laforge <laforge@osmocom.org> </div>
<div style="display:none"> Gerrit-Reviewer: tnt <tnt@246tNt.com> </div>
<div style="display:none"> Gerrit-MessageType: merged </div>