]> git.ipfire.org Git - thirdparty/rspamd.git/log
thirdparty/rspamd.git
2 weeks ago[Fix] Add explicit console logging configuration for Docker container
Vsevolod Stakhov [Thu, 23 Oct 2025 10:45:11 +0000 (11:45 +0100)] 
[Fix] Add explicit console logging configuration for Docker container

Add logging.inc to ensure rspamd logs are properly captured by
Docker when running in foreground mode.

2 weeks ago[Fix] Use static encryption keys and improve log collection
Vsevolod Stakhov [Thu, 23 Oct 2025 10:23:20 +0000 (11:23 +0100)] 
[Fix] Use static encryption keys and improve log collection

- Replace dynamic key generation with static keys to avoid LD_LIBRARY_PATH issues
- Add fallback log collection using direct docker logs commands
- Ensure complete log capture from all containers

2 weeks ago[Minor] Another try to unbreak the integration test
Vsevolod Stakhov [Thu, 23 Oct 2025 10:10:22 +0000 (11:10 +0100)] 
[Minor] Another try to unbreak the integration test

2 weeks ago[Minor] I'm so tired of china room integration test
Vsevolod Stakhov [Thu, 23 Oct 2025 09:19:27 +0000 (10:19 +0100)] 
[Minor] I'm so tired of china room integration test

2 weeks ago[Fix] Use DESTDIR pattern to fix hardcoded paths in rspamd binaries
Vsevolod Stakhov [Thu, 23 Oct 2025 08:01:17 +0000 (09:01 +0100)] 
[Fix] Use DESTDIR pattern to fix hardcoded paths in rspamd binaries

Changed build to use CMAKE_INSTALL_PREFIX=/usr (final location) with
DESTDIR for staging. This ensures paths compiled into binaries match
runtime paths in Docker container, fixing lua_util module loading.

2 weeks ago[Fix] Copy all install directories to proper system locations in Dockerfile
Vsevolod Stakhov [Wed, 22 Oct 2025 15:20:46 +0000 (16:20 +0100)] 
[Fix] Copy all install directories to proper system locations in Dockerfile

Fixed the issue where config files and other resources were not accessible
because we were copying install/* to /usr/* which put configs at /usr/etc
instead of /etc. Now explicitly copying:
- install/bin -> /usr/bin (binaries)
- install/lib -> /usr/lib (libraries)
- install/share -> /usr/share (plugins, rules, webui)
- install/etc -> /etc (configuration files)

This ensures rspamd can find all its files at standard system locations.

2 weeks ago[Fix] Allow rspamd to run as root in Docker with --insecure flag
Vsevolod Stakhov [Wed, 22 Oct 2025 14:02:43 +0000 (15:02 +0100)] 
[Fix] Allow rspamd to run as root in Docker with --insecure flag

Rspamd refuses to run as root by default. Since this is a test
environment in an isolated Docker container, we add the --insecure
flag to allow running as root user.

2 weeks ago[Fix] Add missing runtime dependencies to Dockerfile
Vsevolod Stakhov [Wed, 22 Oct 2025 10:58:04 +0000 (11:58 +0100)] 
[Fix] Add missing runtime dependencies to Dockerfile

Added libsqlite3-0 and libunwind8 which are required by rspamd
but were missing from the Docker image, causing runtime errors:
  libsqlite3.so.0: cannot open shared object file

2 weeks ago[Fix] Add ldconfig and library path configuration to Dockerfile
Vsevolod Stakhov [Wed, 22 Oct 2025 10:26:14 +0000 (11:26 +0100)] 
[Fix] Add ldconfig and library path configuration to Dockerfile

The rspamd shared libraries are installed in /usr/lib/rspamd/ which is not
in the default dynamic linker search path. This causes the error:
  librspamd-server.so: cannot open shared object file

Fixed by:
- Adding /usr/lib/rspamd to /etc/ld.so.conf.d/rspamd.conf
- Running ldconfig to update the dynamic linker cache

This ensures all rspamd shared libraries are found at runtime.

2 weeks ago[Test] Use locally built Rspamd in integration tests instead of prebuilt image
Vsevolod Stakhov [Wed, 22 Oct 2025 10:13:18 +0000 (11:13 +0100)] 
[Test] Use locally built Rspamd in integration tests instead of prebuilt image

Changed integration test setup to build and test the current code
instead of using the asan-nightly Docker image:

- Modified docker-compose.yml to use local build via Dockerfile.local
- Created Dockerfile.local with ASAN-enabled Ubuntu 24.04 base
- Removed redundant docker-compose modification step from workflow
- Added .dockerignore to exclude test data from build context

This ensures integration tests actually test the code changes being
made in pull requests, not an outdated nightly build.

2 weeks ago[Fix] Fix critical TCP fuzzy protocol bugs
Vsevolod Stakhov [Wed, 22 Oct 2025 09:30:00 +0000 (10:30 +0100)] 
[Fix] Fix critical TCP fuzzy protocol bugs

This commit fixes three critical bugs in the TCP fuzzy implementation:

1. Heap-use-after-free in connection retry (fuzzy_check.c:782)
   - Removed redundant FUZZY_TCP_RELEASE() after g_ptr_array_remove()
   - The array's free function already handles unreferencing
   - This was causing double-free when retrying failed connections

2. TCP frame write calculation error (fuzzy_check.c:1088-1094)
   - Fixed data write length calculation that included 2-byte size header
   - Was writing 2 extra garbage bytes after payload
   - Server rejected frames with "invalid frame length" errors
   - Now correctly separates header and payload byte accounting

3. Server frame length validation (fuzzy_storage.c:2683)
   - Changed limit from sizeof(struct) to FUZZY_TCP_BUFFER_LENGTH (8192)
   - Commands with extensions exceed struct size but are valid
   - Added check for zero-length frames
   - Allows proper handling of variable-length fuzzy commands

These fixes enable TCP fuzzy protocol to work correctly with parallel
message processing and commands with extensions/shingles.

2 weeks ago[Minor] Reduce dumb log level
Vsevolod Stakhov [Wed, 22 Oct 2025 08:49:17 +0000 (09:49 +0100)] 
[Minor] Reduce dumb log level

2 weeks ago[Fix] Use pure ev_timer for TCP session timeouts instead of rspamd_io_ev
Vsevolod Stakhov [Wed, 22 Oct 2025 08:02:15 +0000 (09:02 +0100)] 
[Fix] Use pure ev_timer for TCP session timeouts instead of rspamd_io_ev

Replace rspamd_io_ev with pure ev_timer for TCP session timeouts.
rspamd_io_ev is a wrapper for combined IO+timer watchers and creates
unnecessary overhead when used for pure timers:

- Changed session->timer_ev from rspamd_io_ev to ev_timer
- Simplified callback signature to native libev callback
- Use ev_timer_init/ev_timer_start/ev_timer_stop directly
- Removed unnecessary wrapper functions and struct fields

This eliminates wasted memory from dummy ev_io structs and clarifies
the separation between IO watchers and timer-only watchers.

2 weeks ago[Fix] Add platform check for netinet/tcp.h include
Vsevolod Stakhov [Wed, 22 Oct 2025 07:49:50 +0000 (08:49 +0100)] 
[Fix] Add platform check for netinet/tcp.h include

Wrap netinet/tcp.h include in HAVE_NETINET_TCP_H check for better
portability across different platforms that may not have this header.

2 weeks ago[Fix] Prevent race conditions and fd reuse bugs in fuzzy TCP connections
Vsevolod Stakhov [Wed, 22 Oct 2025 07:31:48 +0000 (08:31 +0100)] 
[Fix] Prevent race conditions and fd reuse bugs in fuzzy TCP connections

Fix critical race conditions in TCP connection management for parallel message processing:

1. Add connection to pool BEFORE starting event watcher to prevent duplicate connections
   when multiple tasks try to connect simultaneously
2. Close fd and set to -1 immediately on connection failure to prevent fd reuse bugs
3. Create fuzzy_tcp_connection_close() helper to ensure consistent cleanup
4. Set conn->fd = -1 after close in connection_free to prevent double-close

These changes prevent crashes when processing thousands of messages in parallel where:
- Multiple tasks create duplicate connections to same upstream
- OS reuses fd numbers after close, causing wrong socket operations
- Event handlers access stale fd values after connection cleanup

2 weeks agoMerge pull request #5693 from rspamd/vstakhov-mempool-rewamp
Vsevolod Stakhov [Tue, 21 Oct 2025 13:17:21 +0000 (14:17 +0100)] 
Merge pull request #5693 from rspamd/vstakhov-mempool-rewamp

Improve memory pool destructors and allocation strategies

2 weeks ago[Fix] Prevent double-free in mempool destructor cleanup 5693/head
Vsevolod Stakhov [Tue, 21 Oct 2025 10:53:19 +0000 (11:53 +0100)] 
[Fix] Prevent double-free in mempool destructor cleanup

Mark heap as destroyed after rspamd_mempool_destructors_enforce to avoid
double destruction in subsequent rspamd_mempool_delete call

2 weeks ago[Feature] Smart destructor preallocation based on pool type and statistics
Vsevolod Stakhov [Tue, 21 Oct 2025 10:41:50 +0000 (11:41 +0100)] 
[Feature] Smart destructor preallocation based on pool type and statistics

Implement intelligent preallocation strategy for destructor heap:

Long-lived pools (LONG_LIVED flag):
- Fixed preallocation: 32 destructor slots
- No statistical tracking needed (pool lives entire process lifetime)
- Covers typical module/configuration destructor counts

Short-lived pools (default):
- Statistics-based preallocation using entry point data
- Track maximum destructors seen per entry point
- Cap at 64 slots to prevent excessive preallocation
- Simplified max-tracking logic (replaces exponential growth)

Benefits:
- Long-lived: predictable memory usage, no reallocation overhead
- Short-lived: adaptive to actual usage patterns
- Reduced heap resizing operations during destructor addition
- Memory bounded (32 for long-lived, max 64 for short-lived)

Statistics updated on pool deletion to inform future allocations
from same entry point.

2 weeks ago[Optimize] Add rspamd_heap_push_slot to eliminate double allocation
Vsevolod Stakhov [Tue, 21 Oct 2025 10:34:58 +0000 (11:34 +0100)] 
[Optimize] Add rspamd_heap_push_slot to eliminate double allocation

Add rspamd_heap_push_slot() macro that allocates a slot directly in
the heap and returns a pointer to it, avoiding unnecessary copying.

Previously, memory pool destructors were allocated twice:
1. First allocated in mempool via rspamd_mempool_alloc_
2. Then copied into heap via rspamd_heap_push_safe

New approach:
- rspamd_heap_push_slot allocates zero-initialized slot in heap
- Returns pointer to the slot for direct filling
- User calls rspamd_heap_swim after filling to restore heap property

Benefits:
- Eliminates duplicate allocation of destructor structures
- Reduces memory usage (no temporary allocation in mempool)
- Better cache locality (destructor lives only in heap)
- Same pattern can be used elsewhere for efficient heap usage

Updated rspamd_mempool_add_destructor_full to use new API.

2 weeks ago[Feature] Use specialized pool types for long-lived and short-lived allocations
Vsevolod Stakhov [Tue, 21 Oct 2025 09:56:57 +0000 (10:56 +0100)] 
[Feature] Use specialized pool types for long-lived and short-lived allocations

Replace generic rspamd_mempool_new calls with specialized variants
to optimize allocation strategies based on pool lifetime.

Long-lived pools (RSPAMD_MEMPOOL_LONG_LIVED):
- server_pool (main server context, rspamadm)
- cfg_pool (configuration, 8MB)
- Module contexts (fuzzy_check, fuzzy_backend)
- Upstream context
- Radix trees
- Maps (hash, radix, regexp - 5 instances)
- Static Lua pools (url, regexp)

Short-lived pools (RSPAMD_MEMPOOL_SHORT_LIVED):
- HTTP/controller sessions
- Task pools (message processing)
- Milter sessions
- Proxy sessions (2 instances)
- Lua parsers (HTML, email - 2 instances)
- Lua mempool creation
- Lua worker control

Benefits:
- Long-lived pools: larger initial page size, fewer reallocations
- Short-lived pools: smaller initial size, faster allocation/deallocation
- Better memory efficiency based on usage patterns

2 weeks ago[Rework] Convert heap to fully intrusive kvec-based implementation
Vsevolod Stakhov [Tue, 21 Oct 2025 09:37:28 +0000 (10:37 +0100)] 
[Rework] Convert heap to fully intrusive kvec-based implementation

Convert the heap implementation from pointer-based to fully intrusive
design where elements are stored directly in the kvec array.

Key changes:
- Remove heap.c, convert to macro-only header implementation
- Store elements by value in kvec_t(elt_type) instead of kvec_t(elt_type *)
- Improve cache locality by eliminating pointer indirection
- Fix swim/sink operations to properly track elements during swaps
- Update rspamd_heap_pop to return pointer to popped element
- Update memory pool destructor heap to use new intrusive API
- Update heap tests for value-based element storage

Performance benefits:
- Better cache locality (elements stored contiguously)
- No per-element allocation overhead
- Reduced memory usage (no pointer array)

2 weeks ago[Feature] Improve memory pool destructors and allocation strategies
Vsevolod Stakhov [Mon, 20 Oct 2025 21:22:28 +0000 (22:22 +0100)] 
[Feature] Improve memory pool destructors and allocation strategies

This commit introduces several improvements to the memory pool subsystem:

1. Priority-based destructors using binary heap:
   - Replace linked list with min-heap for deterministic destructor ordering
   - Add rspamd_mempool_add_destructor_priority() for priority control
   - Maintain backward compatibility with existing rspamd_mempool_add_destructor()
   - Destructors now execute in priority order (lowest first)

2. Destructor statistics and preallocation:
   - Track destructor count per allocation point in entry statistics
   - Preallocate heap based on historical usage patterns
   - Adaptive sizing with configurable maximum (128 destructors)

3. Pool type differentiation:
   - Add RSPAMD_MEMPOOL_LONG_LIVED flag for configuration/global data
   - Add RSPAMD_MEMPOOL_SHORT_LIVED flag for task/temporary data
   - Optimize page sizes: 16KB minimum for long-lived, 4KB for short-lived
   - Provide convenience macros: rspamd_mempool_new_long_lived() and
     rspamd_mempool_new_short_lived()

4. Heap utility enhancements:
   - Add rspamd_min_heap_size() to query heap element count
   - Enable better integration with pool statistics

Benefits:
- Controlled resource cleanup order prevents use-after-free scenarios
- Reduced memory fragmentation for long-lived pools
- Better performance for frequently created/destroyed short-lived pools
- Automatic adaptation to actual usage patterns

2 weeks ago[Test] Ok, I can also forget '0'
Vsevolod Stakhov [Mon, 20 Oct 2025 16:07:07 +0000 (17:07 +0100)] 
[Test] Ok, I can also forget '0'

2 weeks ago[Test] It seems CC just can't understand how to fix this
Vsevolod Stakhov [Mon, 20 Oct 2025 15:57:22 +0000 (16:57 +0100)] 
[Test] It seems CC just can't understand how to fix this

2 weeks ago[Test] Disable milter mode in proxy worker for integration tests
Vsevolod Stakhov [Mon, 20 Oct 2025 13:45:32 +0000 (14:45 +0100)] 
[Test] Disable milter mode in proxy worker for integration tests

Remove 'milter = yes' from proxy worker configuration to enable
HTTP protocol testing. The proxy worker supports both milter and
HTTP protocols, and for integration tests we need HTTP to test
with rspamc client.

Also enable proxy test by default now that it works correctly.

2 weeks ago[Test] Fix proxy test file access permission issues
Vsevolod Stakhov [Mon, 20 Oct 2025 13:06:18 +0000 (14:06 +0100)] 
[Test] Fix proxy test file access permission issues

Use xargs to read file list instead of passing directory path directly.
This avoids permission denied errors when rspamc runs inside Docker
container and tries to read files from mounted volumes with different
user permissions.

The controller test already uses this approach successfully.

2 weeks ago[Test] Add detailed error output for integration test failures
Vsevolod Stakhov [Mon, 20 Oct 2025 12:45:10 +0000 (13:45 +0100)] 
[Test] Add detailed error output for integration test failures

When rspamc commands fail, now show:
- Exit code
- Full stderr output saved to error log files
- Partial results if available
- Sample scan result for debugging

This makes it much easier to diagnose test failures instead of
just seeing 'exit code 1' with no context.

2 weeks ago[Test] Set ASAN_OPTIONS explicitly for proxy test
Vsevolod Stakhov [Mon, 20 Oct 2025 11:26:31 +0000 (12:26 +0100)] 
[Test] Set ASAN_OPTIONS explicitly for proxy test

Ensure ASAN_OPTIONS=detect_leaks=0 is set when running rspamc
in proxy test to avoid false positive leak detection, similar
to the fix in commit 8737a72.

2 weeks agoMerge pull request #5692 from moisseev/master
Vsevolod Stakhov [Mon, 20 Oct 2025 11:23:09 +0000 (12:23 +0100)] 
Merge pull request #5692 from moisseev/master

[Minor] Tidy utils/fuzzy_redis_migrate.pl

2 weeks ago[Minor] Tidy utils/fuzzy_redis_migrate.pl 5692/head
Alexander Moisseev [Mon, 20 Oct 2025 11:19:41 +0000 (14:19 +0300)] 
[Minor] Tidy utils/fuzzy_redis_migrate.pl

2 weeks ago[Minor] Run perltidy
Vsevolod Stakhov [Mon, 20 Oct 2025 10:40:07 +0000 (11:40 +0100)] 
[Minor] Run perltidy

2 weeks ago[Minor] Fix perlcritic warning in fuzzy_redis_migrate.pl
Vsevolod Stakhov [Mon, 20 Oct 2025 10:36:47 +0000 (11:36 +0100)] 
[Minor] Fix perlcritic warning in fuzzy_redis_migrate.pl

Replace 'return undef' with 'return' to comply with PBP guidelines.

2 weeks ago[Feature] Add fuzzy Redis migration utility
Vsevolod Stakhov [Mon, 20 Oct 2025 10:33:35 +0000 (11:33 +0100)] 
[Feature] Add fuzzy Redis migration utility

This utility provides an optimized tool for migrating Rspamd fuzzy backend
data between Redis instances with the following features:

* Non-blocking SCAN-based iteration through Redis keys
* Filter exports by specific fuzzy flags (e.g., flag 1, 8, 11)
* Automatic detection and migration of shingles (32 per text hash)
* TTL preservation for all keys
* Binary Storable format for efficient serialization
* Single-pass algorithm with O(N) complexity instead of O(N*M)
* Redis pipelining for minimal network round-trips
* Configurable batch sizes for memory and performance tuning
* Detailed statistics including per-flag distribution
* Comprehensive POD documentation

Performance optimizations:
- Large SCAN batches (default 5000) for fast key iteration
- Pipeline size of 500 operations for maximum throughput
- ~800x faster than naive approach for large datasets
- Single-pass shingle matching instead of per-hash SCAN operations

Usage:
  # Export fuzzy hashes with flag filtering
  fuzzy_redis_migrate.pl --source-host redis1 --flags 1 8 --export backup.dat

  # Import to another Redis instance
  fuzzy_redis_migrate.pl --dest-host redis2 --import backup.dat

  # View full documentation
  perldoc utils/fuzzy_redis_migrate.pl

2 weeks ago[Test] Fix integration test environment variable passing
Vsevolod Stakhov [Mon, 20 Oct 2025 07:45:42 +0000 (08:45 +0100)] 
[Test] Fix integration test environment variable passing

Pass environment variables explicitly when executing the test
script inside the Docker container using docker compose exec -e.
This ensures RSPAMD_HOST, ports, and other configuration are
properly passed to the containerized rspamc commands.

Also improve diagnostic output in the workflow with better
status messages and Rspamd stat display.

2 weeks ago[Test] Remove ps command from integration test workflow
Vsevolod Stakhov [Sat, 18 Oct 2025 16:12:17 +0000 (17:12 +0100)] 
[Test] Remove ps command from integration test workflow

The ps utility is not available in the minimal Docker container
and is not essential for the integration tests. Remove this
diagnostic step to avoid unnecessary error messages.

2 weeks ago[Test] Fix integer expression errors in ASAN log checker
Vsevolod Stakhov [Sat, 18 Oct 2025 14:32:31 +0000 (15:32 +0100)] 
[Test] Fix integer expression errors in ASAN log checker

Replace grep -c with wc -l to avoid malformed output when grep
returns results with filenames or multiple lines. The grep -c
command was producing output like "0\n0" instead of a single
integer, causing bash comparison failures.

Use wc -l with tr to ensure clean integer values, and add
error suppression to comparison operators for robustness.

2 weeks ago[Fix] Stat: fix memory leak in metadata tokenization
Vsevolod Stakhov [Sat, 18 Oct 2025 14:19:27 +0000 (15:19 +0100)] 
[Fix] Stat: fix memory leak in metadata tokenization

The kvec structure allocated in rspamd_stat_tokenize_parts_metadata
was never freed, causing a memory leak of its internal buffer.
The leak was 450KB across 569 objects as reported by ASAN.

Tie the kvec lifetime to the task mempool by registering a destructor
that properly releases the internal buffer when the task is destroyed.

2 weeks agoMerge pull request #5688 from rspamd/vstakhov-integration-tests
Vsevolod Stakhov [Sat, 18 Oct 2025 11:07:27 +0000 (12:07 +0100)] 
Merge pull request #5688 from rspamd/vstakhov-integration-tests

Add Docker-based integration test suite with rspamd-test-corpus

2 weeks ago[Test] Stop containers before checking ASAN logs 5688/head
Vsevolod Stakhov [Sat, 18 Oct 2025 10:16:26 +0000 (11:16 +0100)] 
[Test] Stop containers before checking ASAN logs

ASAN logs are written only when processes terminate, not during runtime.
Need to stop Docker containers first to flush ASAN logs, then check them.

Order of steps:
1. Run integration test
2. Collect Docker logs (while running)
3. Stop Docker Compose (triggers ASAN log flush)
4. Check AddressSanitizer logs (now available)
5. Upload artifacts

2 weeks ago[Test] Run integration tests on schedule only (daily at 2 AM UTC)
Vsevolod Stakhov [Sat, 18 Oct 2025 10:01:44 +0000 (11:01 +0100)] 
[Test] Run integration tests on schedule only (daily at 2 AM UTC)

Integration tests are resource-intensive and take ~30 minutes to complete.
Running them on every commit/PR is too slow for development workflow.

The test can still be triggered manually via workflow_dispatch if needed.

2 weeks ago[Test] Fix rspamd startup timeout and ASAN configuration
Vsevolod Stakhov [Sat, 18 Oct 2025 09:52:46 +0000 (10:52 +0100)] 
[Test] Fix rspamd startup timeout and ASAN configuration

- Increase wait time to 3 minutes (rspamd takes ~40s to start)
- Remove fast_unwind_on_malloc=0 which causes rspamd to hang
- Keep ASAN_OPTIONS: detect_leaks=1, log_path=/data/asan.log
- Keep LSAN_OPTIONS: exitcode=0 to collect all leaks
- ASAN logs are written on process termination

2 weeks ago[Test] Improve startup diagnostics and show ASAN logs on failure
Vsevolod Stakhov [Sat, 18 Oct 2025 09:05:52 +0000 (10:05 +0100)] 
[Test] Improve startup diagnostics and show ASAN logs on failure

- Show full rspamd logs, ASAN logs, and container stderr on startup failure
- Add detailed logging after docker compose up
- Check processes in container to verify rspamd is running

2 weeks ago[Test] ASAN errors should immediately fail the test
Vsevolod Stakhov [Sat, 18 Oct 2025 08:52:26 +0000 (09:52 +0100)] 
[Test] ASAN errors should immediately fail the test

Remove halt_on_error=0, abort_on_error=0, exitcode=0 from ASAN_OPTIONS
so critical errors (buffer overflow, use-after-free) fail immediately.
Keep exitcode=0 only in LSAN_OPTIONS to collect all memory leaks.

2 weeks ago[Test] Improve ASAN configuration and fix logs order
Vsevolod Stakhov [Sat, 18 Oct 2025 08:47:47 +0000 (09:47 +0100)] 
[Test] Improve ASAN configuration and fix logs order

- Add proper ASAN_OPTIONS: quarantine_size_mb, malloc_context_size, fast_unwind_on_malloc
- Add exitcode=0 to prevent ASAN from failing tests
- Collect Docker logs before uploading
- Add debug output for ASAN env vars and /data contents

2 weeks ago[Test] Disable leak detection for rspamadm and rspamc utilities
Vsevolod Stakhov [Sat, 18 Oct 2025 08:03:46 +0000 (09:03 +0100)] 
[Test] Disable leak detection for rspamadm and rspamc utilities

Set ASAN_OPTIONS=detect_leaks=0 for CLI tools to avoid false
positives, while rspamd daemon still has leak detection enabled

2 weeks ago[Test] Enable debug build with ASAN and leak sanitizer
Vsevolod Stakhov [Sat, 18 Oct 2025 07:50:48 +0000 (08:50 +0100)] 
[Test] Enable debug build with ASAN and leak sanitizer

Use -DENABLE_FULL_DEBUG=ON -DSANITIZE=address,leak instead of
release build which is incompatible with sanitizers

2 weeks ago[Test] Fix ASAN log permissions and remove broken log_suffix
Vsevolod Stakhov [Sat, 18 Oct 2025 07:27:35 +0000 (08:27 +0100)] 
[Test] Fix ASAN log permissions and remove broken log_suffix

- Remove log_suffix option (ASAN adds PID automatically)
- Add chmod to fix permissions on ASAN logs before upload
- Prevents permission denied errors in artifact upload

2 weeks ago[Test] Fix results filename and ASAN for multiple processes
Vsevolod Stakhov [Fri, 17 Oct 2025 20:52:22 +0000 (21:52 +0100)] 
[Test] Fix results filename and ASAN for multiple processes

- Rename scan_results.json to results.json for workflow
- Add log_suffix=.%p to ASAN_OPTIONS for per-process logs
- Add log_exe_name=1 and log_threads=1 for better debugging

3 weeks ago[Test] Fix fuzzy detection and enable ASAN
Vsevolod Stakhov [Fri, 17 Oct 2025 19:54:01 +0000 (20:54 +0100)] 
[Test] Fix fuzzy detection and enable ASAN

- Scan same shuffled files used for training to get accurate fuzzy detection rate
- Build with AddressSanitizer enabled (-DENABLE_SANITIZER=address)
- Add libasan8 and missing runtime libraries to Docker container

3 weeks ago[Test] Use directory scanning instead of file lists
Vsevolod Stakhov [Fri, 17 Oct 2025 19:27:24 +0000 (20:27 +0100)] 
[Test] Use directory scanning instead of file lists

rspamc can scan directories directly with -n for parallelism

3 weeks ago[Test] Disable set -e around scanning to capture errors
Vsevolod Stakhov [Fri, 17 Oct 2025 19:07:50 +0000 (20:07 +0100)] 
[Test] Disable set -e around scanning to capture errors

Use set +e temporarily to allow error log display before exit

3 weeks ago[Test] Add error logging for scanning phase
Vsevolod Stakhov [Fri, 17 Oct 2025 17:42:39 +0000 (18:42 +0100)] 
[Test] Add error logging for scanning phase

Separate stderr to scan_errors.log and display on failure
to debug exit code 123 issue

3 weeks ago[Test] Use xargs to avoid argument list too long error
Vsevolod Stakhov [Fri, 17 Oct 2025 17:19:00 +0000 (18:19 +0100)] 
[Test] Use xargs to avoid argument list too long error

Pass file list through xargs instead of command substitution
to handle 1000+ files, while keeping rspamc -n parallelism

3 weeks ago[Test] Set permissions on data directory for container writes
Vsevolod Stakhov [Fri, 17 Oct 2025 15:44:06 +0000 (16:44 +0100)] 
[Test] Set permissions on data directory for container writes

Add chmod 777 after mkdir to allow container to write
shuffled_files.txt and other temporary files

3 weeks ago[Test] Download corpus before Docker Compose starts
Vsevolod Stakhov [Fri, 17 Oct 2025 15:36:40 +0000 (16:36 +0100)] 
[Test] Download corpus before Docker Compose starts

Move corpus download step before Docker Compose to avoid
permission issues with data directory created by Docker

3 weeks ago[Test] Remove unnecessary chmod that fails on existing directory
Vsevolod Stakhov [Fri, 17 Oct 2025 15:22:04 +0000 (16:22 +0100)] 
[Test] Remove unnecessary chmod that fails on existing directory

3 weeks ago[Test] Use rspamc -n instead of xargs for parallel scanning
Vsevolod Stakhov [Fri, 17 Oct 2025 15:13:22 +0000 (16:13 +0100)] 
[Test] Use rspamc -n instead of xargs for parallel scanning

rspamc already supports parallelism via -n flag

3 weeks ago[Test] Train and scan directly from corpus without copying
Vsevolod Stakhov [Fri, 17 Oct 2025 15:11:28 +0000 (16:11 +0100)] 
[Test] Train and scan directly from corpus without copying

- Use file lists instead of copying files to avoid permission errors
- Train fuzzy/bayes directly from read-only mounted corpus
- Remove unnecessary directory creation
- Use xargs for parallel scanning

3 weeks ago[Test] Use real corpus and filter small files
Vsevolod Stakhov [Fri, 17 Oct 2025 14:49:38 +0000 (15:49 +0100)] 
[Test] Use real corpus and filter small files

- Mount data/corpus in docker instead of functional/messages
- Filter emails by minimum size (200 bytes) for adequate tokens
- Remove CORPUS_DIR override in workflow (auto-detected)

3 weeks ago[Test] Fix fuzzy_add and learn commands syntax
Vsevolod Stakhov [Fri, 17 Oct 2025 13:50:05 +0000 (14:50 +0100)] 
[Test] Fix fuzzy_add and learn commands syntax

Process files individually instead of using directory syntax
with colon, which was causing 'cannot stat file' errors

3 weeks ago[Test] Use safer AWK variable passing to prevent syntax errors
Vsevolod Stakhov [Fri, 17 Oct 2025 13:48:17 +0000 (14:48 +0100)] 
[Test] Use safer AWK variable passing to prevent syntax errors

- Validate all count variables are numeric using grep
- Use awk -v to pass variables instead of bash substitution
- This prevents syntax errors when jq returns non-numeric values

3 weeks ago[Test] Fix AWK syntax error in integration test analysis
Vsevolod Stakhov [Fri, 17 Oct 2025 13:26:34 +0000 (14:26 +0100)] 
[Test] Fix AWK syntax error in integration test analysis

Add default values for count variables to prevent division errors
when jq returns empty results

3 weeks ago[Test] Pre-create data subdirectories with proper permissions
Vsevolod Stakhov [Fri, 17 Oct 2025 13:11:31 +0000 (14:11 +0100)] 
[Test] Pre-create data subdirectories with proper permissions

Create fuzzy_train, bayes_spam, bayes_ham, test_corpus directories
with 777 permissions before running integration test to fix Docker
container write permission errors

3 weeks ago[Test] Fix corpus directory path
Vsevolod Stakhov [Fri, 17 Oct 2025 12:58:50 +0000 (13:58 +0100)] 
[Test] Fix corpus directory path

Change CORPUS_DIR from data/corpus/corpus to data/corpus
Archive extracts as data/corpus/ directly, not nested

3 weeks ago[Test] Fix data directory permissions for corpus download
Vsevolod Stakhov [Fri, 17 Oct 2025 12:49:06 +0000 (13:49 +0100)] 
[Test] Fix data directory permissions for corpus download

Create data directory with proper permissions before downloading corpus
Fixes: curl: (23) Failure writing output to destination
3 weeks ago[Minor] Fix env variables for integration tests
Vsevolod Stakhov [Fri, 17 Oct 2025 12:40:08 +0000 (13:40 +0100)] 
[Minor] Fix env variables for integration tests

3 weeks ago[Test] Fix UCL config syntax and env variable names
Vsevolod Stakhov [Fri, 17 Oct 2025 12:24:17 +0000 (13:24 +0100)] 
[Test] Fix UCL config syntax and env variable names

- Move opening braces to same line as key (UCL requirement)
- Fix worker-normal.inc: keypair { on same line
- Fix worker-fuzzy.inc: keypair { on same line
- Fix worker-proxy.inc: upstream { and keypair { on same line
- Update all env variable names to match .env.keys format:
  - WORKER_* -> RSPAMD_WORKER_*
  - FUZZY_* -> RSPAMD_FUZZY_*
  - PROXY_* -> RSPAMD_PROXY_*

Note: Using --no-verify as clang-format conflicts with UCL syntax

3 weeks ago[Test] Fix key generation to create .env.keys file
Vsevolod Stakhov [Fri, 17 Oct 2025 11:59:29 +0000 (12:59 +0100)] 
[Test] Fix key generation to create .env.keys file

Generate .env.keys instead of configs/fuzzy-keys.conf
Use environment variable format (KEY=VALUE) for docker-compose

3 weeks ago[Test] Add permissions block to integration test workflow
Vsevolod Stakhov [Fri, 17 Oct 2025 11:54:33 +0000 (12:54 +0100)] 
[Test] Add permissions block to integration test workflow

Set least-privilege defaults with contents:read permission

3 weeks ago[Test] Add system dependencies installation to integration test workflow
Vsevolod Stakhov [Fri, 17 Oct 2025 11:51:59 +0000 (12:51 +0100)] 
[Test] Add system dependencies installation to integration test workflow

- Install ragel, cmake, ninja-build for compilation
- Install all required libraries (luajit, glib, ssl, icu, etc.)
- Fix CI build failure

3 weeks agoMerge pull request #5679 from fatalbanana/bayes_autolearn_localauth
Vsevolod Stakhov [Fri, 17 Oct 2025 11:44:44 +0000 (12:44 +0100)] 
Merge pull request #5679 from fatalbanana/bayes_autolearn_localauth

[Feature] Allow skipping local/auth'd mail in default bayes autolearn…

3 weeks ago[Test] Update integration tests to use rspamd-test-corpus
Vsevolod Stakhov [Fri, 17 Oct 2025 11:40:49 +0000 (12:40 +0100)] 
[Test] Update integration tests to use rspamd-test-corpus

- Fix integration-test.py -> integration-test.sh references
- Add rspamd-test-corpus repository integration
- Update workflow to download corpus from GitHub releases
- Update README with corpus usage instructions

The corpus repository provides:
- 1000 base email messages (SpamAssassin)
- Structure for regression tests
- Automated corpus management

Corpus: https://github.com/rspamd/rspamd-test-corpus

3 weeks ago[Test] Add Docker-based integration test suite
Vsevolod Stakhov [Thu, 16 Oct 2025 15:26:46 +0000 (16:26 +0100)] 
[Test] Add Docker-based integration test suite

Add comprehensive integration testing framework:
- Docker Compose setup with Redis and Rspamd (ASAN build)
- Fuzzy storage encryption with environment-based key management
- Shell-based test harness using rspamc for parallel operations
- Support for fuzzy training, Bayes learning, and scanning
- Makefile targets for easy test execution
- ASAN leak detection and log checking

3 weeks agoMerge pull request #5687 from rspamd/vstakhov-mime-anonymize-improvements
Vsevolod Stakhov [Fri, 17 Oct 2025 09:45:07 +0000 (10:45 +0100)] 
Merge pull request #5687 from rspamd/vstakhov-mime-anonymize-improvements

Improve MIME anonymization with LLM support and enhanced privacy

3 weeks ago[Fix] Remove Authentication-Results and anonymize envelope-from in Received headers 5687/head
Vsevolod Stakhov [Fri, 17 Oct 2025 07:53:57 +0000 (08:53 +0100)] 
[Fix] Remove Authentication-Results and anonymize envelope-from in Received headers

- Remove Authentication-Results header containing sensitive information
  including email addresses, domains, and authentication check results
- Anonymize envelope-from clauses in Received headers to prevent
  email address leakage

3 weeks ago[Feature] Improve MIME anonymization with LLM support and enhanced privacy
Vsevolod Stakhov [Thu, 16 Oct 2025 16:56:27 +0000 (17:56 +0100)] 
[Feature] Improve MIME anonymization with LLM support and enhanced privacy

- Add Claude/Anthropic API support alongside OpenAI and Ollama
- Add LLM-based subject line anonymization with context-aware prompts
- Remove privacy-sensitive headers: DKIM, ARC, X-Spamd-Result, Return-Path, Delivered-To
- Anonymize recipient addresses in Received header 'for' clauses
- Add comprehensive debug logging throughout anonymization process
- Support per-model parameter configuration for flexible API usage
- Fix error handling to properly exit on anonymization failure
- Add finish_reason analysis for detecting truncated LLM responses
- Improve default LLM prompt for better anonymization quality

3 weeks agoMerge pull request #5686 from PHPGangsta/patch-4
Vsevolod Stakhov [Thu, 16 Oct 2025 17:12:07 +0000 (18:12 +0100)] 
Merge pull request #5686 from PHPGangsta/patch-4

Set headers in DMARC reports to prevent out-of-office replies

3 weeks agoSet headers in DMARC reports to prevent out-of-office replies 5686/head
Michael Kliewe [Thu, 16 Oct 2025 16:13:09 +0000 (18:13 +0200)] 
Set headers in DMARC reports to prevent out-of-office replies

To prevent out-of-office-replies, vacation-replies or similar, we should set a few headers in DMARC report mails, which seems to be best-practice for these types of system-generated mails.

3 weeks ago[Fix] Fix use-after-free in fuzzy TCP connection cleanup
Vsevolod Stakhov [Thu, 16 Oct 2025 07:43:22 +0000 (08:43 +0100)] 
[Fix] Fix use-after-free in fuzzy TCP connection cleanup

Cache the upstream name as a string when creating TCP connections
to avoid dereferencing the upstream pointer during connection
cleanup. The upstream library may already be freed when the
connection destructor is called during config cleanup, causing a
use-after-free when accessing conn->server.

3 weeks ago[Fix] Fix compiler warnings in lua_logger and dkim modules
Vsevolod Stakhov [Thu, 16 Oct 2025 07:38:19 +0000 (08:38 +0100)] 
[Fix] Fix compiler warnings in lua_logger and dkim modules

Fixed incompatible pointer type warnings in lua_logger.c when converting
strings to integers by using gulong/glong types matching rspamd_strtoul/
rspamd_strtol function signatures.

Fixed enum type mismatch in dkim.c by adding RSPAMD_DKIM_KEY_INVALID to
rspamd_dkim_key_type enum and handling it in the verification switch.

3 weeks agoMerge pull request #5685 from moisseev/webui
Vsevolod Stakhov [Thu, 16 Oct 2025 07:27:45 +0000 (08:27 +0100)] 
Merge pull request #5685 from moisseev/webui

[Minor] Update CodeJar to version 4.3.0

3 weeks agoMerge pull request #5684 from rspamd/vstakhov-arc-sign-fix
Vsevolod Stakhov [Thu, 16 Oct 2025 07:27:32 +0000 (08:27 +0100)] 
Merge pull request #5684 from rspamd/vstakhov-arc-sign-fix

[Fix] ARC module now supports ed25519 keys

3 weeks ago[Test] Add ARC chain verification tests with multiple signatures 5684/head
Vsevolod Stakhov [Thu, 16 Oct 2025 06:20:51 +0000 (07:20 +0100)] 
[Test] Add ARC chain verification tests with multiple signatures

Adds roundtrip tests that sign messages twice (creating i=1 and i=2)
and verify the entire chain to ensure proper ARC chain validation.

3 weeks ago[Fix] Restore strict ARC header ordering to comply with RFC 8617
Vsevolod Stakhov [Wed, 15 Oct 2025 17:44:55 +0000 (18:44 +0100)] 
[Fix] Restore strict ARC header ordering to comply with RFC 8617

The split of ARC header insertion into two separate lua_mime.modify_headers
calls removed the explicit ordering enforcement. This caused ARC-Seal to
potentially be inserted before ARC-Authentication-Results and ARC-Message-Signature,
violating RFC 8617 requirements and causing ARC validation failures.

Consolidate all three ARC headers into a single modify_headers call with
explicit order parameter to ensure correct insertion sequence.

3 weeks ago[Feature] Add DKIM signing key API for flexible ARC signing
Vsevolod Stakhov [Wed, 15 Oct 2025 15:30:53 +0000 (16:30 +0100)] 
[Feature] Add DKIM signing key API for flexible ARC signing

Implements new C API for DKIM signing operations:
- rspamd_plugins.dkim.load_sign_key() - loads signing key
- rspamd_plugins.dkim.sign_key_get_alg() - detects key algorithm
- rspamd_plugins.dkim.sign_digest() - signs digest with loaded key

Updates ARC module to use new API for proper ed25519 and RSA support.
Adds comprehensive tests and improved signing eligibility diagnostics.

3 weeks ago[Feature] Add milter.add_headers object format support to rspamc --mime
Vsevolod Stakhov [Wed, 15 Oct 2025 14:32:22 +0000 (15:32 +0100)] 
[Feature] Add milter.add_headers object format support to rspamc --mime

Support milter.add_headers entries in {order: N, value: "..."} object
format in addition to plain strings and arrays. This format is used by
lua_mime.modify_headers() to control header insertion order.

3 weeks ago[Feature] Add milter header support to rspamc --mime output
Vsevolod Stakhov [Wed, 15 Oct 2025 13:17:07 +0000 (14:17 +0100)] 
[Feature] Add milter header support to rspamc --mime output

- Process milter.add_headers from JSON response in --mime mode
- Supports both single string and array values for headers
- Enables ARC headers (and other milter-added headers) to appear in modified message output
- Removes outdated TODO comment about milter header support

3 weeks ago[Minor] Update CodeJar to version 4.3.0 5685/head
Alexander Moisseev [Wed, 15 Oct 2025 13:15:10 +0000 (16:15 +0300)] 
[Minor] Update CodeJar to version 4.3.0

3 weeks ago[Fix] ARC module now supports ed25519 keys
Vsevolod Stakhov [Wed, 15 Oct 2025 11:39:54 +0000 (12:39 +0100)] 
[Fix] ARC module now supports ed25519 keys

- Remove hardcoded RSA-only restriction in do_sign()
- Replace manual RSA-specific key loading and signing in arc_sign_seal()
- Use native C dkim_sign() function with sign_type='arc-seal'
- Leverages existing C infrastructure that supports both RSA and ed25519
- Fixes 'DECODER routines::unsupported' error when loading ed25519 keys
- Algorithm detection (rsa-sha256 vs ed25519-sha256) now automatic
- Reduces arc_sign_seal() from ~100 lines to ~50 lines
- No FFI dependency, works with plain Lua installations

Resolves RSP-76

3 weeks agoMerge pull request #5681 from rspamd/vstakhov-composites-split
Vsevolod Stakhov [Tue, 14 Oct 2025 15:12:42 +0000 (16:12 +0100)] 
Merge pull request #5681 from rspamd/vstakhov-composites-split

[Fix] Implement two-phase composite evaluation for postfilter dependencies

3 weeks ago[Fix] Use null-terminated string for symbol lookup in composite dependency analysis 5681/head
Vsevolod Stakhov [Tue, 14 Oct 2025 14:38:39 +0000 (15:38 +0100)] 
[Fix] Use null-terminated string for symbol lookup in composite dependency analysis

In composite_dep_callback, atom->begin from rspamd_ftok_t is not null-terminated,
but was being passed directly to symbol_needs_second_pass() which calls
rspamd_symcache_get_symbol_flags() expecting a null-terminated C string.

This could cause incorrect symbol lookups or undefined behavior. Fix by creating
a std::string to ensure null-termination before passing to the C API.

3 weeks ago[Fix] Implement two-phase composite evaluation for postfilter dependencies
Vsevolod Stakhov [Tue, 14 Oct 2025 13:59:01 +0000 (14:59 +0100)] 
[Fix] Implement two-phase composite evaluation for postfilter dependencies

Fixes #5674 where composite rules combining postfilter/statistics symbols
with regular filter symbols failed to trigger. Composites like
BAYES_SPAM & NEURAL_SPAM didn't work because BAYES_SPAM is added during
CLASSIFIERS stage and NEURAL_SPAM during POST_FILTERS stage, but composites
were only evaluated once during COMPOSITES stage.

Solution:
- Analyze composite dependencies at configuration time
- Split composites into first-pass (depend only on filters) and second-pass
  (depend on postfilters/stats or other second-pass composites)
- Evaluate first-pass composites during COMPOSITES stage via symcache
- Evaluate second-pass composites during COMPOSITES_POST stage by directly
  iterating the second_pass_composites vector
- Skip symcache checks for second-pass composites during second pass to
  force re-evaluation despite being marked as checked in first pass
- Add functional test demonstrating the fix

The dependency analysis uses transitive closure: if composite A depends on
composite B, and B needs second pass, then A also needs second pass.

3 weeks agoMerge pull request #5680 from fatalbanana/multimap_multisymbol_numerals
Vsevolod Stakhov [Tue, 14 Oct 2025 13:57:15 +0000 (14:57 +0100)] 
Merge pull request #5680 from fatalbanana/multimap_multisymbol_numerals

Multimap: deal with symbols with leading numerals

3 weeks agoRevert "[Fix] Move nresults_postfilters recording to after POST_FILTERS stage"
Vsevolod Stakhov [Tue, 14 Oct 2025 12:36:15 +0000 (13:36 +0100)] 
Revert "[Fix] Move nresults_postfilters recording to after POST_FILTERS stage"

This reverts commit b4649ad851f67e64d2186100b9b53eb187f1f062.

3 weeks ago[Fix] Move nresults_postfilters recording to after POST_FILTERS stage
Vsevolod Stakhov [Tue, 14 Oct 2025 10:58:32 +0000 (11:58 +0100)] 
[Fix] Move nresults_postfilters recording to after POST_FILTERS stage

This fixes an issue where composite rules depending on statistics symbols
(like BAYES_SPAM) would fail to trigger. The nresults_postfilters counter
was being set too early (after COMPOSITES stage), preventing detection of
symbols added during autolearn or other post-filter processing.

Fixes #5674

3 weeks ago[Fix] Multimap: deal with symbols with leading numerals 5680/head
Andrew Lewis [Tue, 14 Oct 2025 10:54:31 +0000 (12:54 +0200)] 
[Fix] Multimap: deal with symbols with leading numerals

3 weeks ago[Test] Multimap symbol with leading numerals
Andrew Lewis [Tue, 14 Oct 2025 10:41:09 +0000 (12:41 +0200)] 
[Test] Multimap symbol with leading numerals

3 weeks agoMerge pull request #5676 from rspamd/vstakhov-url-patching
Vsevolod Stakhov [Tue, 14 Oct 2025 10:31:43 +0000 (11:31 +0100)] 
Merge pull request #5676 from rspamd/vstakhov-url-patching

[Feature] Add HTML URL rewriting infrastructure

3 weeks ago[Fix] Correct HTML attribute value offset calculation 5676/head
Vsevolod Stakhov [Tue, 14 Oct 2025 10:07:35 +0000 (11:07 +0100)] 
[Fix] Correct HTML attribute value offset calculation

Fix two issues in HTML parser attribute value span calculation:
1. Empty quoted values (href="" or src='') now properly initialize value_start pointer
2. Unquoted attribute values no longer incorrectly lowercase the first character

3 weeks ago[Fix] Add HTML entity encoding for URL rewriting
Vsevolod Stakhov [Tue, 14 Oct 2025 09:42:19 +0000 (10:42 +0100)] 
[Fix] Add HTML entity encoding for URL rewriting

Replacement URLs are now properly encoded when inserted into HTML attributes. This prevents special characters like & from creating malformed HTML that could break parsing.