]> git.ipfire.org Git - thirdparty/dovecot/core.git/commitdiff
lib: Add murmurhash3 support
authorAki Tuomi <aki.tuomi@dovecot.fi>
Mon, 27 Nov 2017 11:46:17 +0000 (13:46 +0200)
committerAki Tuomi <aki.tuomi@open-xchange.com>
Thu, 30 Nov 2017 19:23:13 +0000 (21:23 +0200)
Needed for bloom filters

src/lib/Makefile.am
src/lib/murmurhash3.c [new file with mode: 0644]
src/lib/murmurhash3.h [new file with mode: 0644]
src/lib/test-lib.inc
src/lib/test-murmurhash3.c [new file with mode: 0644]

index b8628318316e7b771e899996554a440a6fbf6186..5a2baefcf9c99e714f514eed829be252e18c2f7a 100644 (file)
@@ -109,6 +109,7 @@ liblib_la_SOURCES = \
        mmap-util.c \
        module-dir.c \
        mountpoint.c \
+       murmurhash3.c \
        net.c \
        nfs-workarounds.c \
        numpack.c \
@@ -257,6 +258,7 @@ headers = \
        module-context.h \
        module-dir.h \
        mountpoint.h \
+       murmurhash3.h \
        net.h \
        nfs-workarounds.h \
        numpack.h \
@@ -371,6 +373,7 @@ test_lib_SOURCES = \
        test-mempool.c \
        test-mempool-allocfree.c \
        test-mempool-alloconly.c \
+       test-murmurhash3.c \
        test-pkcs5.c \
        test-net.c \
        test-numpack.c \
diff --git a/src/lib/murmurhash3.c b/src/lib/murmurhash3.c
new file mode 100644 (file)
index 0000000..7d5a212
--- /dev/null
@@ -0,0 +1,302 @@
+/* MurmurHash3 was written by Austin Appleby, and is placed in the public
+   domain. The author hereby disclaims copyright to this source code.
+
+   Note - The x86 and x64 versions do _not_ produce the same results, as the
+   algorithms are optimized for their respective platforms. You can still
+   compile and run any of them on any platform, but your performance with the
+   non-native version will be less than optimal.
+
+   Adapted for Dovecot by Aki Tuomi <aki.tuomi@dovecot.> 2017-11-27
+*/
+
+#include "lib.h"
+#include "murmurhash3.h"
+
+#define ROTL32(x,y)    bits_rotl32(x,y)
+#define ROTL64(x,y)    bits_rotl64(x,y)
+
+#define BIG_CONSTANT(x) (x##LLU)
+
+//-----------------------------------------------------------------------------
+// Block read - if your platform needs to do endian-swapping or can only
+// handle aligned reads, do the conversion here
+
+static inline uint32_t getblock32(const uint32_t *p, int i)
+{
+  return p[i];
+}
+
+//-----------------------------------------------------------------------------
+// Finalization mix - force all bits of a hash block to avalanche
+
+static inline uint32_t fmix32(uint32_t h)
+{
+  h ^= h >> 16;
+  h *= 0x85ebca6b;
+  h ^= h >> 13;
+  h *= 0xc2b2ae35;
+  h ^= h >> 16;
+
+  return h;
+}
+
+//----------
+
+void murmurhash3_32 (const void *key, size_t len, uint32_t seed,
+                    unsigned char out[STATIC_ARRAY MURMURHASH3_32_RESULTBYTES])
+{
+  const uint8_t *data = (const uint8_t *)key;
+  size_t nblocks = len / 4;
+
+  uint32_t h1 = seed;
+
+  uint32_t c1 = 0xcc9e2d51;
+  uint32_t c2 = 0x1b873593;
+  //----------
+  // body
+
+  const uint32_t *blocks = (const uint32_t *)data;
+
+  for(size_t i = 0; i < nblocks; i++)
+  {
+    uint32_t k1 = getblock32(blocks,i);
+
+    k1 *= c1;
+    k1 = ROTL32(k1,15);
+    k1 *= c2;
+
+    h1 ^= k1;
+    h1 = ROTL32(h1,13);
+    h1 = h1*5+0xe6546b64;
+  }
+
+  //----------
+  // tail
+
+  const uint8_t *tail = (const uint8_t *)(data + nblocks*4);
+
+  uint32_t k1 = 0;
+
+  switch(len & 3)
+  {
+  case 3: k1 ^= tail[2] << 16;
+  case 2: k1 ^= tail[1] << 8;
+  case 1: k1 ^= tail[0];
+          k1 *= c1; k1 = ROTL32(k1,15); k1 *= c2; h1 ^= k1;
+  };
+
+  //----------
+  // finalization
+
+  h1 ^= len;
+
+  h1 = fmix32(h1);
+
+  memcpy(out, &h1, sizeof(h1));
+}
+
+//-----------------------------------------------------------------------------
+
+#ifdef _LP64
+
+static inline uint64_t getblock64(const uint64_t *p, int i)
+{
+  return p[i];
+}
+
+static inline uint64_t fmix64(uint64_t k)
+{
+  k ^= k >> 33;
+  k *= BIG_CONSTANT(0xff51afd7ed558ccd);
+  k ^= k >> 33;
+  k *= BIG_CONSTANT(0xc4ceb9fe1a85ec53);
+  k ^= k >> 33;
+
+  return k;
+}
+
+void murmurhash3_128(const void *key, size_t len, uint32_t seed,
+                    unsigned char out[STATIC_ARRAY MURMURHASH3_128_RESULTBYTES])
+{
+  const uint8_t *data = (const uint8_t *)key;
+  size_t nblocks = len / 16;
+
+  uint64_t h1 = seed;
+  uint64_t h2 = seed;
+
+  const uint64_t c1 = BIG_CONSTANT(0x87c37b91114253d5);
+  const uint64_t c2 = BIG_CONSTANT(0x4cf5ad432745937f);
+
+  //----------
+  // body
+
+  const uint64_t *blocks = (const uint64_t *)data;
+
+  for(size_t i = 0; i < nblocks; i++)
+  {
+    uint64_t k1 = getblock64(blocks,i*2+0);
+    uint64_t k2 = getblock64(blocks,i*2+1);
+
+    k1 *= c1; k1  = ROTL64(k1,31); k1 *= c2; h1 ^= k1;
+
+    h1 = ROTL64(h1,27); h1 += h2; h1 = h1*5+0x52dce729;
+
+    k2 *= c2; k2  = ROTL64(k2,33); k2 *= c1; h2 ^= k2;
+
+    h2 = ROTL64(h2,31); h2 += h1; h2 = h2*5+0x38495ab5;
+  }
+
+  //----------
+  // tail
+
+  const uint8_t *tail = (const uint8_t *)(data + nblocks*16);
+
+  uint64_t k1 = 0;
+  uint64_t k2 = 0;
+
+  switch(len & 15)
+  {
+  case 15: k2 ^= ((uint64_t)tail[14]) << 48;
+  case 14: k2 ^= ((uint64_t)tail[13]) << 40;
+  case 13: k2 ^= ((uint64_t)tail[12]) << 32;
+  case 12: k2 ^= ((uint64_t)tail[11]) << 24;
+  case 11: k2 ^= ((uint64_t)tail[10]) << 16;
+  case 10: k2 ^= ((uint64_t)tail[ 9]) << 8;
+  case  9: k2 ^= ((uint64_t)tail[ 8]) << 0;
+           k2 *= c2; k2  = ROTL64(k2,33); k2 *= c1; h2 ^= k2;
+
+  case  8: k1 ^= ((uint64_t)tail[ 7]) << 56;
+  case  7: k1 ^= ((uint64_t)tail[ 6]) << 48;
+  case  6: k1 ^= ((uint64_t)tail[ 5]) << 40;
+  case  5: k1 ^= ((uint64_t)tail[ 4]) << 32;
+  case  4: k1 ^= ((uint64_t)tail[ 3]) << 24;
+  case  3: k1 ^= ((uint64_t)tail[ 2]) << 16;
+  case  2: k1 ^= ((uint64_t)tail[ 1]) << 8;
+  case  1: k1 ^= ((uint64_t)tail[ 0]) << 0;
+           k1 *= c1; k1  = ROTL64(k1,31); k1 *= c2; h1 ^= k1;
+  };
+
+  //----------
+  // finalization
+
+  h1 ^= len; h2 ^= len;
+
+  h1 += h2;
+  h2 += h1;
+
+  h1 = fmix64(h1);
+  h2 = fmix64(h2);
+
+  h1 += h2;
+  h2 += h1;
+
+  memcpy(out, &h1, sizeof(h1));
+  memcpy(out+sizeof(h1), &h2, sizeof(h2));
+}
+
+#else
+
+void murmurhash3_128(const void *key, size_t len, uint32_t seed,
+                    unsigned char out[STATIC_ARRAY MURMURHASH3_128_RESULTBYTES])
+{
+  const uint8_t *data = (const uint8_t *)key;
+  size_t nblocks = len / 16;
+
+  uint32_t h1 = seed;
+  uint32_t h2 = seed;
+  uint32_t h3 = seed;
+  uint32_t h4 = seed;
+
+  uint32_t c1 = 0x239b961b;
+  uint32_t c2 = 0xab0e9789;
+  uint32_t c3 = 0x38b34ae5;
+  uint32_t c4 = 0xa1e38b93;
+
+  //----------
+  // body
+
+  const uint32_t *blocks = (const uint32_t *)data;
+
+  for(size_t i = 0 ; i < nblocks; i++)
+  {
+    uint32_t k1 = getblock32(blocks,i*4+0);
+    uint32_t k2 = getblock32(blocks,i*4+1);
+    uint32_t k3 = getblock32(blocks,i*4+2);
+    uint32_t k4 = getblock32(blocks,i*4+3);
+
+    k1 *= c1; k1  = ROTL32(k1,15); k1 *= c2; h1 ^= k1;
+
+    h1 = ROTL32(h1,19); h1 += h2; h1 = h1*5+0x561ccd1b;
+
+    k2 *= c2; k2  = ROTL32(k2,16); k2 *= c3; h2 ^= k2;
+
+    h2 = ROTL32(h2,17); h2 += h3; h2 = h2*5+0x0bcaa747;
+
+    k3 *= c3; k3  = ROTL32(k3,17); k3 *= c4; h3 ^= k3;
+
+    h3 = ROTL32(h3,15); h3 += h4; h3 = h3*5+0x96cd1c35;
+
+    k4 *= c4; k4  = ROTL32(k4,18); k4 *= c1; h4 ^= k4;
+
+    h4 = ROTL32(h4,13); h4 += h1; h4 = h4*5+0x32ac3b17;
+  }
+
+  //----------
+  // tail
+
+  const uint8_t *tail = (const uint8_t *)(data + nblocks*16);
+
+  uint32_t k1 = 0;
+  uint32_t k2 = 0;
+  uint32_t k3 = 0;
+  uint32_t k4 = 0;
+
+  switch(len & 15)
+  {
+  case 15: k4 ^= tail[14] << 16;
+  case 14: k4 ^= tail[13] << 8;
+  case 13: k4 ^= tail[12] << 0;
+           k4 *= c4; k4  = ROTL32(k4,18); k4 *= c1; h4 ^= k4;
+
+  case 12: k3 ^= tail[11] << 24;
+  case 11: k3 ^= tail[10] << 16;
+  case 10: k3 ^= tail[ 9] << 8;
+  case  9: k3 ^= tail[ 8] << 0;
+           k3 *= c3; k3  = ROTL32(k3,17); k3 *= c4; h3 ^= k3;
+
+  case  8: k2 ^= tail[ 7] << 24;
+  case  7: k2 ^= tail[ 6] << 16;
+  case  6: k2 ^= tail[ 5] << 8;
+  case  5: k2 ^= tail[ 4] << 0;
+           k2 *= c2; k2  = ROTL32(k2,16); k2 *= c3; h2 ^= k2;
+
+  case  4: k1 ^= tail[ 3] << 24;
+  case  3: k1 ^= tail[ 2] << 16;
+  case  2: k1 ^= tail[ 1] << 8;
+  case  1: k1 ^= tail[ 0] << 0;
+           k1 *= c1; k1  = ROTL32(k1,15); k1 *= c2; h1 ^= k1;
+  };
+
+  //----------
+  // finalization
+
+  h1 ^= len; h2 ^= len; h3 ^= len; h4 ^= len;
+
+  h1 += h2; h1 += h3; h1 += h4;
+  h2 += h1; h3 += h1; h4 += h1;
+
+  h1 = fmix32(h1);
+  h2 = fmix32(h2);
+  h3 = fmix32(h3);
+  h4 = fmix32(h4);
+
+  h1 += h2; h1 += h3; h1 += h4;
+  h2 += h1; h3 += h1; h4 += h1;
+
+  memcpy(out, &h1, sizeof(h1));
+  memcpy(out+sizeof(h1), &h2, sizeof(h2));
+  memcpy(out+sizeof(h2), &h3, sizeof(h3));
+  memcpy(out+sizeof(h3), &h4, sizeof(h4));
+}
+
+#endif
diff --git a/src/lib/murmurhash3.h b/src/lib/murmurhash3.h
new file mode 100644 (file)
index 0000000..4f838e2
--- /dev/null
@@ -0,0 +1,23 @@
+/*
+  MurmurHash3 was written by Austin Appleby, and is placed in the public
+  domain. The author hereby disclaims copyright to this source code.
+
+
+  Adapted for dovecot by Aki Tuomi <aki.tuomi@dovecot.fi> 2017-11-27
+*/
+#ifndef MURMURHASH3_H
+#define MURMURHASH3_H
+
+#define MURMURHASH3_32_RESULTBYTES (sizeof(uint32_t))
+#ifdef _LP64
+#define MURMURHASH3_128_RESULTBYTES (sizeof(uint64_t)*2)
+#else
+#define MURMURHASH3_128_RESULTBYTES (sizeof(uint32_t)*4)
+#endif
+
+/* You should use random seed */
+void murmurhash3_32(const void * key, size_t len, uint32_t seed,
+                   unsigned char out[STATIC_ARRAY MURMURHASH3_32_RESULTBYTES]);
+void murmurhash3_128(const void * key, size_t len, uint32_t seed,
+                    unsigned char out[STATIC_ARRAY MURMURHASH3_128_RESULTBYTES]);
+#endif
index 294225e6d462105e3510d61c027b4f98ccb6d3ad..2d995b77319d6f403a82a8f76640b0fe6665953c 100644 (file)
@@ -56,6 +56,7 @@ TEST(test_mempool_alloconly)
 FATAL(fatal_mempool_alloconly)
 TEST(test_mempool_allocfree)
 FATAL(fatal_mempool_allocfree)
+TEST(test_murmurhash3)
 TEST(test_net)
 TEST(test_numpack)
 TEST(test_ostream_buffer)
diff --git a/src/lib/test-murmurhash3.c b/src/lib/test-murmurhash3.c
new file mode 100644 (file)
index 0000000..7061f58
--- /dev/null
@@ -0,0 +1,139 @@
+#include "test-lib.h"
+#include "murmurhash3.h"
+
+struct murmur3_test_vectors {
+       const char *input;
+       size_t len;
+       uint32_t seed;
+       uint32_t result[4]; /* fits all results */
+};
+
+static void test_murmurhash3_algorithm(const char *name,
+                                      void (*func)(const void*,size_t,uint32_t,unsigned char[]),
+                                      size_t result_size,
+                                      const struct murmur3_test_vectors *vectors,
+                                      unsigned int tests)
+{
+       test_begin(t_strdup_printf("murmurhash3 (%s)", name));
+
+       for(unsigned int i = 0; i < tests; i++) {
+               unsigned char result[result_size];
+               func(vectors[i].input, vectors[i].len, vectors[i].seed, result);
+               test_assert_idx(memcmp(result, vectors[i].result, sizeof(result)) == 0, i);
+       }
+
+       test_end();
+}
+
+static void test_murmurhash3_32(void)
+{
+       struct murmur3_test_vectors vectors[] = {
+               { "", 0, 0, { 0, 0, 0, 0}},
+               { "", 0, 0x1, { 0x514E28B7, 0, 0, 0 }},
+               { "", 0, 0xFFFFFFFF, { 0x81F16F39, 0, 0, 0 }},
+               { "\0\0\0\0", 4, 0, { 0x2362F9DE, 0, 0, 0 }},
+               { "aaaa", 4, 0x9747b28c, { 0x5A97808A, 0, 0, 0 }},
+               { "aaa", 3, 0x9747b28c, { 0x283E0130, 0, 0, 0 }},
+               { "aa", 2, 0x9747b28c, { 0x5D211726, 0, 0, 0 }},
+               { "a", 1, 0x9747b28c, { 0x7FA09EA6, 0, 0, 0 }},
+               { "abcd", 4, 0x9747b28c, { 0xF0478627, 0, 0, 0 }},
+               { "abc", 3, 0x9747b28c, { 0xC84A62DD, 0, 0, 0 }},
+               { "ab", 2, 0x9747b28c, { 0x74875592, 0, 0, 0 }},
+               { "Hello, world!", 13, 0x9747b28c, { 0x24884CBA, 0, 0, 0 }},
+               {
+                 "\xcf\x80\xcf\x80\xcf\x80\xcf\x80\xcf\x80\xcf\x80\xcf\x80\xcf\x80",
+                 16,
+                 0x9747b28c,
+                 { 0xD58063C1, 0, 0, 0 }
+               }, /* 8 U+03C0 (Greek Small Letter Pi) */
+               {
+                 "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"
+                 "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"
+                 "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"
+                 "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"
+                 "aaaaaaaaaaaaaaaaaaaa",
+                 256,
+                 0x9747b28c,
+                 { 0x37405BDC, 0, 0, 0 }
+               },
+       };
+
+       test_murmurhash3_algorithm("murmurhash3_32", murmurhash3_32,
+                                  MURMURHASH3_32_RESULTBYTES,
+                                  vectors, N_ELEMENTS(vectors));
+}
+
+static void test_murmurhash3_128(void)
+{
+       struct murmur3_test_vectors vectors[] = {
+#ifdef _LP64
+               { "", 0, 0x00000000, { 0x00000000, 0x00000000, 0x00000000, 0x00000000 }},
+               { "", 0, 0x00000001, { 0x6eff5cb5, 0x4610abe5, 0x78f83583, 0x51622daa }},
+               { "", 0, 0xffffffff, { 0x9d3bc9ec, 0x6af1df4d, 0x1ee6446b, 0x85742112 }},
+               { "\0\0\0\0", 4, 0x00000000, { 0xd84c76bc, 0xcfa0f7dd, 0x1cf526f1, 0x58962316 }},
+               { "aaaa", 4, 0x9747b28c, { 0x5e649bf0, 0xb4e0a5f7, 0x038c569f, 0xa5d3e8e9 }},
+               { "aaa", 3, 0x9747b28c, { 0xe4c7466b, 0x8ea5e37a, 0x35dc931c, 0xf925bef0 }},
+               { "aa", 2, 0x9747b28c, { 0xbee5bb1f, 0x12a698a9, 0x5e269401, 0xe93630ff }},
+               { "a", 1, 0x9747b28c, { 0x2db25a1d, 0x5ce8d851, 0x9208f004, 0x9e6dab0f }},
+               { "abcd", 4, 0x9747b28c, { 0xac553791, 0x49b4709e, 0xe9d3a7bb, 0x8a7e67e7 }},
+               { "abc", 3, 0x9747b28c, { 0xbfc3cedc, 0x3743630d, 0x20b504bf, 0xcde0a234 }},
+               { "ab", 2, 0x9747b28c, { 0x1a44280b, 0x8434eead, 0x63ce372b, 0x7eb933e7 }},
+               { "Hello, world!", 13, 0x9747b28c, { 0x62a8392e, 0xedc485d6, 0x31d576ba, 0xf85e7e76 }},
+               {
+                 "\xcf\x80\xcf\x80\xcf\x80\xcf\x80\xcf\x80\xcf\x80\xcf\x80\xcf\x80",
+                 16,
+                 0x9747b28c,
+                 { 0xc0361a1f, 0x96ea5bd8, 0x094be17b, 0xf8b72bd0 }
+               },
+               {
+                 "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"
+                 "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"
+                 "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"
+                 "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"
+                 "aaaaaaaaaaaaaaaaaaaa",
+                 256,
+                 0x9747b28c,
+                 { 0xa5dec1c4, 0x07bd957c, 0x1f6cee55, 0xc4d8bb8d }
+               },
+#else  /* 32 bit test vectors */
+               { "", 0, 0x00000000, { 0x00000000, 0x00000000, 0x00000000, 0x00000000 }},
+               { "", 0, 0x00000001, { 0x88c4adec, 0x54d201b9, 0x54d201b9, 0x54d201b9 }},
+               { "", 0, 0xffffffff, { 0x051e08a9, 0x989d49f7, 0x989d49f7, 0x989d49f7 }},
+               { "\0\0\0\0", 4, 0x00000000, { 0xcc066f1f, 0x9e517840, 0x9e517840, 0x9e517840 }},
+               { "aaaa", 4, 0x9747b28c, { 0x36804cef, 0x2a61c224, 0x2a61c224, 0x2a61c224 }},
+               { "aaa", 3, 0x9747b28c, { 0x838389be, 0x9aad7f88, 0x9aad7f88, 0x9aad7f88 }},
+               { "aa", 2, 0x9747b28c, { 0xdfbe4a86, 0x4a9c350b, 0x4a9c350b, 0x4a9c350b }},
+               { "a", 1, 0x9747b28c, { 0x084ef944, 0x21a1186e, 0x21a1186e, 0x21a1186e }},
+               { "abcd", 4, 0x9747b28c, { 0x4795c529, 0xcec1885e, 0xcec1885e, 0xcec1885e }},
+               { "abc", 3, 0x9747b28c, { 0xd6359eaf, 0x48fc3ac3, 0x48fc3ac3, 0x48fc3ac3 }},
+               { "ab", 2, 0x9747b28c, { 0x3837d795, 0xc7fe5896, 0xc7fe5896, 0xc7fe5896 }},
+               { "Hello, world!", 13, 0x9747b28c, { 0x756d5460, 0xbb872216, 0xb7d48b7c, 0x53c8c636 }},
+               {
+                 "\xcf\x80\xcf\x80\xcf\x80\xcf\x80\xcf\x80\xcf\x80\xcf\x80\xcf\x80",
+                 16,
+                 0x9747b28c,
+                 { 0xaf2ad325, 0x3a74df88, 0x38cc7534, 0xf197cc0d }
+               },
+               {
+                 "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"
+                 "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"
+                 "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"
+                 "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"
+                 "aaaaaaaaaaaaaaaaaaaa",
+                 256,
+                 0x9747b28c,
+                 { 0xd3f2b7bb, 0xf666c0cc, 0xd4a40060, 0x5ec8d32a }
+               },
+#endif
+       };
+
+       test_murmurhash3_algorithm("murmurhash3_128", murmurhash3_128,
+                                  MURMURHASH3_128_RESULTBYTES,
+                                  vectors, N_ELEMENTS(vectors));
+}
+
+void test_murmurhash3(void)
+{
+       test_murmurhash3_32();
+       test_murmurhash3_128();
+}