]> git.ipfire.org Git - thirdparty/nftables.git/log
thirdparty/nftables.git
23 months agosrc: add <nft.h> header and include it as first
Thomas Haller [Fri, 25 Aug 2023 11:36:30 +0000 (13:36 +0200)] 
src: add <nft.h> header and include it as first

<config.h> is generated by the configure script. As it contains our
feature detection, it want to use it everywhere.

Likewise, in some of our sources, we define _GNU_SOURCE. This defines
the C variant we want to use. Such a define need to come before anything
else, and it would be confusing if different source files adhere to a
different C variant. It would be good to use autoconf's
AC_USE_SYSTEM_EXTENSIONS, in which case we would also need to ensure
that <config.h> is always included as first.

Instead of going through all source files and include <config.h> as
first, add a new header "include/nft.h", which is supposed to be
included in all our sources (and as first).

This will also allow us later to prepare some common base, like include
<stdbool.h> everywhere.

We aim that headers are self-contained, so that they can be included in
any order. Which, by the way, already didn't work because some headers
define _GNU_SOURCE, which would only work if the header gets included as
first. <nft.h> is however an exception to the rule: everything we compile
shall rely on having <nft.h> header included as first. This applies to
source files (which explicitly include <nft.h>) and to internal header
files (which are only compiled indirectly, by being included from a source
file).

Note that <config.h> has no include guards, which is at least ugly to
include multiple times. It doesn't cause problems in practice, because
it only contains defines and the compiler doesn't warn about redefining
a macro with the same value. Still, <nft.h> also ensures to include
<config.h> exactly once.

Signed-off-by: Thomas Haller <thaller@redhat.com>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agometa: define _GNU_SOURCE to get strptime() from <time.h>
Thomas Haller [Fri, 25 Aug 2023 11:36:29 +0000 (13:36 +0200)] 
meta: define _GNU_SOURCE to get strptime() from <time.h>

To use `strptime()`, the documentation indicates

  #define _XOPEN_SOURCE
  #include <time.h>

However, previously this was done wrongly.

For example, when building with musl we got a warning:

      CC       meta.lo
    meta.c:40: warning: "_XOPEN_SOURCE" redefined
       40 | #define _XOPEN_SOURCE
          |
    In file included from /usr/include/errno.h:8,
                     from meta.c:13:
    /usr/include/features.h:16: note: this is the location of the previous definition
       16 | #define _XOPEN_SOURCE 700
          |

Defining "__USE_XOPEN" is wrong. This is a glibc internal define not for
the user.

Note that if we just set _XOPEN_SOURCE (or _XOPEN_SOURCE=700), we won't
get other things like "struct tm.tm_gmtoff".

Instead, we already define _GNU_SOURCE at other places. Do that here
too, it will give us strptime() and all is good.

Also, those directives should be defined as first thing (or via "-D"
command line). See [1].

This is also important, because to use "time_t" in a header, we would
need to include <time.h>. That only works, if we get the feature test
macros right. That is, define the _?_SOURCE macro as first thing.

[1] https://www.gnu.org/software/libc/manual/html_node/Feature-Test-Macros.html

Signed-off-by: Thomas Haller <thaller@redhat.com>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agotests: 30s-stress: add failslab and abort phase tests
Florian Westphal [Wed, 23 Aug 2023 04:29:13 +0000 (06:29 +0200)] 
tests: 30s-stress: add failslab and abort phase tests

Pablo suggested to also cover abort phase by intentionally deleting
non-existent or adding clashing keys.

While at it:
add rules with anon sets and jumps to anonymous chains and a few
constant sets.

Pick different key sizes so there is a higher chance kernel picks
different backend storages such as bitmap or hash_fast.

add failslab support, this also covers unlikely or "impossible" cases like
failing GFP_KERNEL allocations.

randomly spawn 'nft monitor' in the background for a random duration
to cover notification path.

Try to randomly delete a set or chain from control plane.

Randomly set a table as dormant (and back to normal).

Allow to pass the test runtime as argument, so one can now do

./30s-stress 3600

to have the test run for one hour.

For such long test durations, make sure the ruleset
gets regenerated periodically.

Signed-off-by: Florian Westphal <fw@strlen.de>
23 months agopy: add Nftables.{get,set}_input_flags() API
Thomas Haller [Fri, 18 Aug 2023 09:40:41 +0000 (11:40 +0200)] 
py: add Nftables.{get,set}_input_flags() API

Similar to the existing Nftables.{get,set}_debug() API.

Only notable (internal) difference is that nft_ctx_input_set_flags()
returns the old value already, so we don't need to call
Nftables.get_input_flags() first.

The benefit of this API, is that it follows the existing API for debug
flags. Also, when future flags are added it requires few changes to the
python code.

Signed-off-by: Thomas Haller <thaller@redhat.com>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agopy: extract flags helper functions for set_debug()/get_debug()
Thomas Haller [Fri, 18 Aug 2023 09:40:40 +0000 (11:40 +0200)] 
py: extract flags helper functions for set_debug()/get_debug()

Will be re-used for nft_ctx_input_set_flags() and
nft_ctx_input_get_flags().

There are changes in behavior here.

- when passing an unrecognized string (e.g. `ctx.set_debug('foo')` or
  `ctx.set_debug(['foo'])`), a ValueError is now raised instead of a
  KeyError.

- when passing an out-of-range integer, now a ValueError is no raised.
  Previously the integer was truncated to 32bit.

Changing the exception is an API change, but most likely nobody will
care or try to catch a KeyError to find out whether a flag is supported.
Especially, since such a check would be better performed via `'foo' in
ctx.debug_flags`.

In other cases, a TypeError is raised as before.

Signed-off-by: Thomas Haller <thaller@redhat.com>
Reviewed-by: Phil Sutter <phil@nwl.cc>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agopy: fix exception during cleanup of half-initialized Nftables
Thomas Haller [Fri, 18 Aug 2023 09:40:39 +0000 (11:40 +0200)] 
py: fix exception during cleanup of half-initialized Nftables

When we create a Nftables instance against an older library version,
we might not find a symbol and fail with an exception when initializing
the context object.

Then, __del__() is still called, but resulting in a second exception
because self.__ctx is not set. Avoid that second exception.

    $ python -c 'import nftables; nftables.Nftables()'
    Traceback (most recent call last):
      File "<string>", line 1, in <module>
      File "/data/src/nftables/py/nftables.py", line 90, in __init__
        self.nft_ctx_input_get_flags = lib.nft_ctx_input_get_flags
                                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^
      File "/usr/lib64/python3.11/ctypes/__init__.py", line 389, in __getattr__
        func = self.__getitem__(name)
               ^^^^^^^^^^^^^^^^^^^^^^
      File "/usr/lib64/python3.11/ctypes/__init__.py", line 394, in __getitem__
        func = self._FuncPtr((name_or_ordinal, self))
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
    AttributeError: /lib64/libnftables.so.1: undefined symbol: nft_ctx_input_get_flags
    Exception ignored in: <function Nftables.__del__ at 0x7f6315a2c540>
    Traceback (most recent call last):
      File "/data/src/nftables/py/nftables.py", line 166, in __del__
        self.nft_ctx_free(self.__ctx)
        ^^^^^^^^^^^^^^^^^
    AttributeError: 'Nftables' object has no attribute 'nft_ctx_free'

Signed-off-by: Thomas Haller <thaller@redhat.com>
Reviewed-by: Phil Sutter <phil@nwl.cc>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agosrc: add input flag NFT_CTX_INPUT_JSON to enable JSON parsing
Thomas Haller [Fri, 18 Aug 2023 09:40:38 +0000 (11:40 +0200)] 
src: add input flag NFT_CTX_INPUT_JSON to enable JSON parsing

By default, the input is parsed using the nftables grammar. When setting
NFT_CTX_OUTPUT_JSON flag, nftables will first try to parse the input as
JSON before falling back to the nftables grammar.

But NFT_CTX_OUTPUT_JSON flag also turns on JSON for the output. Add a
flag NFT_CTX_INPUT_JSON which allows to treat only the input as JSON,
but keep the output mode unchanged.

Signed-off-by: Thomas Haller <thaller@redhat.com>
Reviewed-by: Phil Sutter <phil@nwl.cc>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agosrc: add input flag NFT_CTX_INPUT_NO_DNS to avoid blocking
Thomas Haller [Fri, 18 Aug 2023 09:40:37 +0000 (11:40 +0200)] 
src: add input flag NFT_CTX_INPUT_NO_DNS to avoid blocking

getaddrinfo() blocks while trying to resolve the name. Blocking the
caller of the library is in many cases undesirable. Also, while
reconfiguring the firewall, it's not clear that resolving names via
the network will work or makes sense.

Add a new input flag NFT_CTX_INPUT_NO_DNS to opt-out from getaddrinfo()
and only accept plain IP addresses.

We could also use AI_NUMERICHOST with getaddrinfo() instead of
inet_pton(). By parsing via inet_pton(), we are better aware of
what we expect and can generate a better error message in case of
failure.

Signed-off-by: Thomas Haller <thaller@redhat.com>
Reviewed-by: Phil Sutter <phil@nwl.cc>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agosrc: add input flags for nft_ctx
Thomas Haller [Fri, 18 Aug 2023 09:40:36 +0000 (11:40 +0200)] 
src: add input flags for nft_ctx

Similar to the existing output flags, add input flags. No flags are yet
implemented, that will follow.

One difference to nft_ctx_output_set_flags(), is that the setter for
input flags returns the previously set flags.

Signed-off-by: Thomas Haller <thaller@redhat.com>
Reviewed-by: Phil Sutter <phil@nwl.cc>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agogitignore: ignore cscope files
Thomas Haller [Wed, 23 Aug 2023 06:56:08 +0000 (08:56 +0200)] 
gitignore: ignore cscope files

Cscope is useful. Ignore the files it creates.

Signed-off-by: Thomas Haller <thaller@redhat.com>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agotests: shell: use minutes granularity in sets/0036add_set_element_expiration_0
Pablo Neira Ayuso [Wed, 23 Aug 2023 12:22:15 +0000 (14:22 +0200)] 
tests: shell: use minutes granularity in sets/0036add_set_element_expiration_0

Use minute granularity to fix bogus failures of this test on slow testbed.

Acked-by: Phil Sutter <phil@nwl.cc>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agoevaluate: error out on meter overlap with an existing set/map declaration
Pablo Neira Ayuso [Wed, 23 Aug 2023 10:13:28 +0000 (12:13 +0200)] 
evaluate: error out on meter overlap with an existing set/map declaration

One of the problems with meters is that they use the set/map
infrastructure behind the scenes which might be confusing to users.

This patch errors out in case user declares a meter whose name overlaps
with an existing set/map:

meter.nft:15:18-91: Error: File exists; meter ‘syn4-meter’ overlaps an existing set ‘syn4-meter’ in family inet
    tcp dport 22 meter syn4-meter { ip  saddr . tcp dport timeout 5m limit rate 20/minute } counter accept
                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

An old 5.10 kernel bails out simply with EEXIST, with this patch a
better hint is provided.

Dynamic sets are preferred over meters these days.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agocache: chain listing implicitly sets on terse option
Pablo Neira Ayuso [Tue, 22 Aug 2023 09:33:27 +0000 (11:33 +0200)] 
cache: chain listing implicitly sets on terse option

If user specifies a chain to be listed (which is internally handled via
filtering options), then toggle NFT_CACHE_TERSE to skip fetching set
content from kernel for non-anonymous sets.

With a large IPv6 set with bogons, before this patch:

 # time nft list chain inet raw x
 table inet raw {
        chain x {
                ip6 saddr @bogons6
                ip6 saddr { aaaa::, bbbb:: }
        }
 }

 real    0m2,913s
 user    0m1,345s
 sys     0m1,568s

After this patch:

 # time nft list chain inet raw prerouting
 table inet raw {
        chain x {
                ip6 saddr @bogons6
                ip6 saddr { aaaa::, bbbb:: }
        }
 }

 real    0m0,056s
 user    0m0,018s
 sys     0m0,039s

This speeds up chain listing in the presence of a large set.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agotests: shell: Stabilize sets/0043concatenated_ranges_0 test
Phil Sutter [Wed, 23 Aug 2023 16:18:49 +0000 (18:18 +0200)] 
tests: shell: Stabilize sets/0043concatenated_ranges_0 test

On a slow system, one of the 'delete element' commands would
occasionally fail. Assuming it can only happen if the 2s timeout passes
"too quickly", work around it by adding elements with a 2m timeout
instead and when wanting to test the element expiry just drop and add
the element again with a short timeout.

Fixes: 6231d3fa4af1e ("tests: shell: Fix for unstable sets/0043concatenated_ranges_0")
Signed-off-by: Phil Sutter <phil@nwl.cc>
23 months agotests: shell: Stabilize sets/reset_command_0 test
Phil Sutter [Wed, 23 Aug 2023 09:18:53 +0000 (11:18 +0200)] 
tests: shell: Stabilize sets/reset_command_0 test

Timeout/expiry value testing based on seconds is way too fragile,
especially with slow debug kernels. Rewrite the unit to test
minute-based values. This means it is no longer feasible to wait for
values to sufficiently change, so instead specify an 'expires' value
when creating the ruleset and drop the 'sleep' call.

While being at it:

- Combine 'get element' and 'reset element' calls into one, assert the
  relevant (sanitized) line appears twice in output instead of comparing
  with 'diff'.
- Turn comments into 'echo' calls to help debugging if the test fails.

Reported-by: Florian Westphal <fw@strlen.de>
Signed-off-by: Phil Sutter <phil@nwl.cc>
23 months agometa: use reentrant localtime_r()/gmtime_r() functions
Thomas Haller [Tue, 22 Aug 2023 08:57:37 +0000 (10:57 +0200)] 
meta: use reentrant localtime_r()/gmtime_r() functions

These functions are POSIX.1-2001. We should have them in all
environments we care about.

Use them as they are thread-safe.

Signed-off-by: Thomas Haller <thaller@redhat.com>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agometa: don't assume time_t is 64 bit in date_type_print()
Thomas Haller [Tue, 22 Aug 2023 08:13:09 +0000 (10:13 +0200)] 
meta: don't assume time_t is 64 bit in date_type_print()

time_t on 32bit arch is not uint64_t. Even if it always were, it would
be ugly to make such an assumption (without a static assert). Copy the
value to a time_t variable first.

Signed-off-by: Thomas Haller <thaller@redhat.com>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agoINSTALL: provide examples to install python bindings
Pablo Neira Ayuso [Mon, 21 Aug 2023 20:03:54 +0000 (22:03 +0200)] 
INSTALL: provide examples to install python bindings

Provide a bit more details on how to install python bindings with legacy
setup.py and pip with .toml file.

Original text from Jeremy Sowden <jeremy@azazel.net>.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agonftutils: add and use wrappers for getprotoby{name,number}_r(), getservbyport_r()
Thomas Haller [Fri, 18 Aug 2023 14:08:19 +0000 (16:08 +0200)] 
nftutils: add and use wrappers for getprotoby{name,number}_r(), getservbyport_r()

We should aim to use the thread-safe variants of getprotoby{name,number}
and getservbyport(). However, they may not be available with other libc,
so it requires a configure check. As that is cumbersome, add wrappers
that do that at one place.

These wrappers are thread-safe, if libc provides the reentrant versions.
Use them.

Signed-off-by: Thomas Haller <thaller@redhat.com>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agojson: use strtok_r() instead of strtok()
Thomas Haller [Fri, 18 Aug 2023 14:33:21 +0000 (16:33 +0200)] 
json: use strtok_r() instead of strtok()

strtok_r() is probably(?) everywhere available where we care.
Use it. It is thread-safe, and libnftables shouldn't make
assumptions about what other threads of the process are doing.

Signed-off-by: Thomas Haller <thaller@redhat.com>
Signed-off-by: Florian Westphal <fw@strlen.de>
23 months agotests: update bad_expression test case
Florian Westphal [Thu, 17 Aug 2023 18:37:21 +0000 (20:37 +0200)] 
tests: update bad_expression test case

Check that the ruleset also fails to validate if there is
another table that passes validation checks.

Reported-by: Pablo Neira Ayuso <pablo@netfilter.org>
Signed-off-by: Florian Westphal <fw@strlen.de>
23 months agotests: add table validation check
Florian Westphal [Thu, 17 Aug 2023 16:57:54 +0000 (18:57 +0200)] 
tests: add table validation check

Pablo noticed problems with commit validation, investigation
shows nfnetlink can retry forever in infinite -EAGAIN cycle,
test for this.

The process is killable, this only hogs cpu.  Add a test for this.

Signed-off-by: Florian Westphal <fw@strlen.de>
23 months agotests: add one more chain jump in vmap test
Florian Westphal [Tue, 15 Aug 2023 16:27:42 +0000 (18:27 +0200)] 
tests: add one more chain jump in vmap test

This triggers a splat on kernels that lack
314c82841602 ("netfilter: nf_tables: can't schedule in nft_chain_validate").

There is another test case that triggers this splat
(optimize/ruleset), but that test uses some more advanced
features that don't exist on older kernels, so the splat is never seen.

Signed-off-by: Florian Westphal <fw@strlen.de>
23 months agotests: add transaction stress test with parallel delete/add/flush and netns deletion
Florian Westphal [Tue, 15 Aug 2023 12:26:50 +0000 (14:26 +0200)] 
tests: add transaction stress test with parallel delete/add/flush and netns deletion

Based on nft_trans_stress.sh from kernel selftests, changed to run from
run-tests.sh, plus additional ideas from Pablo Neira, such as del+readd
of the netns.

Signed-off-by: Florian Westphal <fw@strlen.de>
23 months agotests: add test with concatenation, vmap and timeout
Florian Westphal [Thu, 10 Aug 2023 19:48:01 +0000 (21:48 +0200)] 
tests: add test with concatenation, vmap and timeout

Add 4k elements to map, with timeouts in range 1..3s, also add a
catchall element with timeout.

Check that all elements are no longer included in set list after 4s.

Signed-off-by: Florian Westphal <fw@strlen.de>
23 months agotests: shell: add test case for double-deactivation
Florian Westphal [Sat, 12 Aug 2023 10:39:09 +0000 (12:39 +0200)] 
tests: shell: add test case for double-deactivation

Reported-by: lonial con <kongln9170@gmail.com>
Signed-off-by: Florian Westphal <fw@strlen.de>
23 months agodoc: move man-pages to `MAINTAINERCLEANFILES`
Jeremy Sowden [Sun, 6 Aug 2023 10:22:48 +0000 (11:22 +0100)] 
doc: move man-pages to `MAINTAINERCLEANFILES`

Since the man-pages are built and included in the distribution
tar-balls, the appropriate clean target is `maintainer-clean`.

Signed-off-by: Jeremy Sowden <jeremy@azazel.net>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agodoc: move man-pages to `dist_man_MANS`
Jeremy Sowden [Sun, 6 Aug 2023 10:22:47 +0000 (11:22 +0100)] 
doc: move man-pages to `dist_man_MANS`

Removes the need to add them to `EXTRA_DIST`.

Signed-off-by: Jeremy Sowden <jeremy@azazel.net>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agotests: shell: Review test-cases for destroy command
Phil Sutter [Tue, 1 Aug 2023 11:35:27 +0000 (13:35 +0200)] 
tests: shell: Review test-cases for destroy command

Having separate files for successful destroy of existing and
non-existing objects is a bit too much, just combine them into one.

While being at it:

* No bashisms, using /bin/sh is fine
* Append '-e' to shebang itself instead of calling 'set'
* Use 'nft -a -e' instead of assuming the created rule's handle value
* Shellcheck warned about curly braces, quote them

Signed-off-by: Phil Sutter <phil@nwl.cc>
23 months agoparser: deduplicate map with data interval
Florian Westphal [Wed, 2 Aug 2023 15:48:24 +0000 (17:48 +0200)] 
parser: deduplicate map with data interval

Its copypasted, the copy is same as original
except that it specifies a map key that maps to an interval.

Add an exra rule that returns 0 or EXPR_F_INTERVAL, then
use that in a single rule.

Signed-off-by: Florian Westphal <fw@strlen.de>
23 months agoparser: allow ct timeouts to use time_spec values
Florian Westphal [Wed, 2 Aug 2023 15:47:14 +0000 (17:47 +0200)] 
parser: allow ct timeouts to use time_spec values

For some reason the parser only allows raw numbers (seconds)
for ct timeouts, e.g.

ct timeout ttcp {
protocol tcp;
policy = { syn_sent : 3, ...

Also permit time_spec, e.g. "established : 5d".
Print the nicer time formats on output, but retain
raw numbers support on input for compatibility.

Signed-off-by: Florian Westphal <fw@strlen.de>
23 months agotests: add dynmap datapath add/delete test case
Florian Westphal [Wed, 2 Aug 2023 13:54:28 +0000 (15:54 +0200)] 
tests: add dynmap datapath add/delete test case

Signed-off-by: Florian Westphal <fw@strlen.de>
23 months agodoc: document add chain device parameter
Brennan Paciorek [Wed, 2 Aug 2023 18:29:47 +0000 (14:29 -0400)] 
doc: document add chain device parameter

nft add chain lacked documentation of its optional device parameter,
specifically what values the parameter accepted, what it did and
when to use it.

Closes: https://bugzilla.netfilter.org/show_bug.cgi?id=1093
Suggested-by: Phil Sutter <phil@nwl.cc>
Signed-off-by: Brennan Paciorek <bpaciore@redhat.com>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agopy: add pyproject.toml to support PEP-517-compatible build-systems
Jeremy Sowden [Mon, 31 Jul 2023 11:40:24 +0000 (12:40 +0100)] 
py: add pyproject.toml to support PEP-517-compatible build-systems

This makes it possible to build and install the module without directly
invoking setup.py which has been deprecated.

Retain the setup.py script for backwards-compatibility.

Update INSTALL to mention the new config-file.

Link: https://blog.ganssle.io/articles/2021/10/setup-py-deprecated.html
Signed-off-by: Jeremy Sowden <jeremy@azazel.net>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agopy: use setup.cfg to configure setuptools
Jeremy Sowden [Mon, 31 Jul 2023 11:40:23 +0000 (12:40 +0100)] 
py: use setup.cfg to configure setuptools

Setuptools has had support for declarative configuration for several
years.  To quote their documentation:

  Setuptools allows using configuration files (usually setup.cfg) to
  define a package’s metadata and other options that are normally
  supplied to the setup() function (declarative config).

  This approach not only allows automation scenarios but also reduces
  boilerplate code in some cases.

Additionally, this allows us to introduce support for PEP-517-compatible
build-systems.

Signed-off-by: Jeremy Sowden <jeremy@azazel.net>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
23 months agopy: move package source into src directory
Jeremy Sowden [Mon, 31 Jul 2023 11:40:22 +0000 (12:40 +0100)] 
py: move package source into src directory

Separate the actual package source from the build files.  In addition
to being a bit tidier, this will prevent setup.py being erroneously
installed when we introduce PEP-517 support in a later commit.

Signed-off-by: Jeremy Sowden <jeremy@azazel.net>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agotests: fix inet nat prio tests
Florian Westphal [Wed, 2 Aug 2023 14:19:45 +0000 (16:19 +0200)] 
tests: fix inet nat prio tests

Its legal to DNAT in output and SNAT in input chain, so don't test
for that being illegal.

Fixes: 8beafab74c39 ("rule: allow src/dstnat prios in input and output")
Fixes: 34ce4e4a7bb6 ("test: shell: Test cases for standard chain prios")
Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agolibnftables: Drop cache in -c/--check mode
Pablo Neira Ayuso [Mon, 31 Jul 2023 10:29:55 +0000 (12:29 +0200)] 
libnftables: Drop cache in -c/--check mode

Extend e0aace943412 ("libnftables: Drop cache in error case") to also
drop the cache with -c/--check, this is a dry run mode and kernel does
not get any update.

This fixes a bug with -o/--optimize, which first runs in an implicit
-c/--check mode to validate that the ruleset is correct, then it
provides the proposed optimization. In this case, if the cache is not
emptied, old objects in the cache refer to scanner data that was
already released, which triggers BUG like this:

 BUG: invalid input descriptor type 151665524
 nft: erec.c:161: erec_print: Assertion `0' failed.
 Aborted

This bug was triggered in a ruleset that contains a set for geoip
filtering. This patch also extends tests/shell to cover this case.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agoct expectation: fix 'list object x' vs. 'list objects in table' confusion
Florian Westphal [Fri, 28 Jul 2023 19:04:13 +0000 (21:04 +0200)] 
ct expectation: fix 'list object x' vs. 'list objects in table' confusion

Just like "ct timeout", "ct expectation" is in need of the same fix,
we get segfault on "nft list ct expectation table t", if table t exists.

This is the exact same pattern as resolved for "ct timeout" in commit
1d2e22fc0521 ("ct timeout: fix 'list object x' vs. 'list objects in table' confusion").

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agorule: allow src/dstnat prios in input and output
Florian Westphal [Fri, 28 Jul 2023 17:43:16 +0000 (19:43 +0200)] 
rule: allow src/dstnat prios in input and output

Dan Winship says:

The "dnat" command is usable from either "prerouting" or "output", but the
"dstnat" priority is only usable from "prerouting". (Likewise, "snat" is usable
from either "postrouting" or "input", but "srcnat" is only usable from
"postrouting".)

No need to restrict those priorities to pre/postrouting.

Closes: https://bugzilla.netfilter.org/show_bug.cgi?id=1694
Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agopy: remove setup.py integration with autotools
Pablo Neira Ayuso [Tue, 18 Jul 2023 12:01:19 +0000 (14:01 +0200)] 
py: remove setup.py integration with autotools

With Python distutils and setuptools going deprecated, remove
integration with autotools. This integration is causing issues
in modern environments.

Note that setup.py is still left in place under the py/ folder.

Update INSTALL file to refer to Python support and setup.py.

Acked-by: Phil Sutter <phil@nwl.cc>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agonetlink: delinearize: copy set keytype if needed
Florian Westphal [Tue, 25 Jul 2023 16:51:34 +0000 (18:51 +0200)] 
netlink: delinearize: copy set keytype if needed

Output before:
add @dynmark { 0xa020304 [invalid type] timeout 1s : 0x00000002 } comment "also check timeout-gc"

after:
add @dynmark { 10.2.3.4 timeout 1s : 0x00000002 } comment "also check timeout-gc"

This is a followup to 76c358ccfea0 ("src: maps: update data expression dtype based on set"),
which did fix the map expression, but not the key.

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agotests: shell: extend implicit chain map with flush command
Pablo Neira Ayuso [Thu, 20 Jul 2023 07:14:16 +0000 (09:14 +0200)] 
tests: shell: extend implicit chain map with flush command

Add a rule flush command.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agoupdate INSTALL file
Pablo Neira Ayuso [Tue, 18 Jul 2023 11:42:59 +0000 (13:42 +0200)] 
update INSTALL file

Update it to current library dependencies and existing options.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agotests: shell: auto-run kmemleak if its available
Florian Westphal [Thu, 20 Jul 2023 12:33:34 +0000 (14:33 +0200)] 
tests: shell: auto-run kmemleak if its available

On my test vm a full scan takes almost 5s. As this would slowdown
the test runs too much, only run them every couple of tests.

This allows to detect when there is a leak reported at the
end of the script, and it allows to narrow down the test
case/group that triggers the issue.

Add new -K flag to force kmemleak runs after each test if its
available, this can then be used to find the exact test case.

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agotests: monitor: Summarize failures per test case
Phil Sutter [Thu, 20 Jul 2023 10:08:45 +0000 (12:08 +0200)] 
tests: monitor: Summarize failures per test case

Explicitly print when tests from a file fail in addition to the diff +
"output differs" message.

Signed-off-by: Phil Sutter <phil@nwl.cc>
2 years agometa: stash context statement length when generating payload/meta dependency
Pablo Neira Ayuso [Tue, 18 Jul 2023 21:10:01 +0000 (23:10 +0200)] 
meta: stash context statement length when generating payload/meta dependency

... meta mark set ip dscp

generates an implicit dependency from the inet family to match on meta
nfproto ip.

The length of this implicit expression is incorrectly adjusted to the
statement length, ie. relational to compare meta nfproto takes 4 bytes
instead of 1 byte. The evaluation of 'ip dscp' under the meta mark
statement triggers this implicit dependency which should not consider
the context statement length since it is added before the statement
itself.

This problem shows when listing the ruleset, since netlink_parse_cmp()
where left->len < right->len, hence handling the implicit dependency as
a concatenation, but it is actually a bug in the evaluation step that
leads to incorrect bytecode.

Fixes: 3c64ea7995cb ("evaluate: honor statement length in integer evaluation")
Fixes: edecd58755a8 ("evaluate: support shifts larger than the width of the left operand")
Tested-by: Brian Davidson <davidson.brian@gmail.com>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agopy: return boolean value from Nftables.__[gs]et_output_flag()
Thomas Haller [Tue, 18 Jul 2023 10:33:09 +0000 (12:33 +0200)] 
py: return boolean value from Nftables.__[gs]et_output_flag()

The callers of __get_output_flag() and __set_output_flag(), for example
get_reversedns_output(), are all documented to return a "boolean" value.

Instead, they returned the underlying, non-zero flags value. That number
is not obviously useful to the caller, because there is no API so that
the caller could do anything with it (except evaluating it in a boolean
context). Adjust that, to match the documentation.

The alternative would be to update the documentation, to indicate that
the functions return a non-zero integer when the flag is set. That would
preserve the previous behavior and maybe the number could be useful
somehow(?).

Signed-off-by: Thomas Haller <thaller@redhat.com>
Signed-off-by: Phil Sutter <phil@nwl.cc>
2 years agoexthdr: prefer raw_type instead of desc->type
Florian Westphal [Fri, 14 Jul 2023 14:53:57 +0000 (16:53 +0200)] 
exthdr: prefer raw_type instead of desc->type

On ancient kernels desc can be NULL, because such kernels do not
understand NFTA_EXTHDR_TYPE.

Thus they don't include it in the reverse dump, so the tcp/ip
option gets treated like an ipv6 exthdr, but no matching
description will be found.

This then gives a crash due to the null deref.

Just use the raw value here, this avoid a crash and at least
print *something*, e.g.:

unknown-exthdr unknown & 0xf0 [invalid type] == 0x0 [invalid type]

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agotests/build/run-tests.sh: fix issues reported by shellcheck
Arturo Borrero Gonzalez [Mon, 17 Jul 2023 10:13:24 +0000 (12:13 +0200)] 
tests/build/run-tests.sh: fix issues reported by shellcheck

Improve a bit the script as reported by shellcheck, also including
information about the log file.

The log file, by the way, is added to the gitignore to reduce noise
in the git tree.

Signed-off-by: Arturo Borrero Gonzalez <arturo@netfilter.org>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agobuild: Bump version to 1.0.8 v1.0.8
Pablo Neira Ayuso [Thu, 13 Jul 2023 08:57:04 +0000 (10:57 +0200)] 
build: Bump version to 1.0.8

Update dependency on libnftnl >= 1.2.6 which contains support for
meta broute.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agoinclude: missing dccpopt.h breaks make distcheck
Pablo Neira Ayuso [Fri, 14 Jul 2023 09:34:43 +0000 (11:34 +0200)] 
include: missing dccpopt.h breaks make distcheck

Add it to Makefile.am.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agoImplement 'reset {set,map,element}' commands
Phil Sutter [Thu, 15 Jun 2023 13:24:28 +0000 (15:24 +0200)] 
Implement 'reset {set,map,element}' commands

All these are used to reset state in set/map elements, i.e. reset the
timeout or zero quota and counter values.

While 'reset element' expects a (list of) elements to be specified which
should be reset, 'reset set/map' will reset all elements in the given
set/map.

Signed-off-by: Phil Sutter <phil@nwl.cc>
2 years agoevaluate: Cache looked up set for list commands
Phil Sutter [Wed, 14 Jun 2023 15:40:02 +0000 (17:40 +0200)] 
evaluate: Cache looked up set for list commands

Evaluation phase checks the given table and set exist in cache. Relieve
execution phase from having to perform the lookup again by storing the
set reference in cmd->set. Just have to increase the ref counter so
cmd_free() does the right thing (which lacked handling of MAP and METER
objects for some reason).

Signed-off-by: Phil Sutter <phil@nwl.cc>
2 years agoevaluate: Merge some cases in cmd_evaluate_list()
Phil Sutter [Wed, 14 Jun 2023 13:32:04 +0000 (15:32 +0200)] 
evaluate: Merge some cases in cmd_evaluate_list()

The code for set, map and meter were almost identical apart from the
specific last check. Fold them together and make the distinction in that
spot only.

Signed-off-by: Phil Sutter <phil@nwl.cc>
2 years agotests: shell: cover old scanner bug
Pablo Neira Ayuso [Tue, 11 Jul 2023 15:00:51 +0000 (17:00 +0200)] 
tests: shell: cover old scanner bug

Add a test to cover 423abaa40ec4 ("scanner: don't rely on fseek for
input stream repositioning") that fixes the bug described in
https://bugs.gentoo.org/675188.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agolibnftables: drop check for nf_sock in nft_ctx_free()
Thomas Haller [Mon, 10 Jul 2023 08:45:19 +0000 (10:45 +0200)] 
libnftables: drop check for nf_sock in nft_ctx_free()

The "nft_ctx" API does not provide a way to change or reconnect the
netlink socket. And none of the users would rely on that.

Also note that nft_ctx_new() initializes nf_sock via
nft_mnl_socket_open(), which panics of the socket could not be
initialized.

This means, the check is unnecessary and needlessly confusing. Drop it.

Signed-off-by: Thomas Haller <thaller@redhat.com>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agolibnftables: inline creation of nf_sock in nft_ctx_new()
Thomas Haller [Mon, 10 Jul 2023 08:45:18 +0000 (10:45 +0200)] 
libnftables: inline creation of nf_sock in nft_ctx_new()

The function only has one caller. It's not clear how to extend this in a
useful way, so that it makes sense to keep the initialization in a
separate function.

Simplify the code, by inlining and dropping the static function
nft_ctx_netlink_init(). There was only one caller.

Signed-off-by: Thomas Haller <thaller@redhat.com>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agolibnftables: drop unused argument nf_sock from nft_netlink()
Thomas Haller [Mon, 10 Jul 2023 08:45:17 +0000 (10:45 +0200)] 
libnftables: drop unused argument nf_sock from nft_netlink()

Signed-off-by: Thomas Haller <thaller@redhat.com>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agolibnftables: always initialize netlink socket in nft_ctx_new()
Thomas Haller [Mon, 10 Jul 2023 08:45:16 +0000 (10:45 +0200)] 
libnftables: always initialize netlink socket in nft_ctx_new()

nft_ctx_new() has a flags argument, but currently no flags are
supported. The documentation suggests to pass 0 (NFT_CTX_DEFAULT).

Initializing the netlink socket happens by default already, we should do
it for all flags. Also because  nft_ctx_netlink_init() is not public
API so it's not clear how the user gets a functioning context instance
otherwise.

If we ever want to not initialize the netlink socket for a context
instance, then there should be a dedicated flag for doing that (and
additional API for making that mode of operation usable).

Signed-off-by: Thomas Haller <thaller@redhat.com>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agoevaluate: place byteorder conversion before rshift in payload statement
Pablo Neira Ayuso [Fri, 7 Jul 2023 21:40:19 +0000 (23:40 +0200)] 
evaluate: place byteorder conversion before rshift in payload statement

For bitfield that spans more than one byte, such as ip6 dscp, byteorder
conversion needs to be done before rshift. Add unary expression for this
conversion only in the case of meta and ct statements.

Before this patch:

 # nft --debug=netlink add rule ip6 x y 'meta mark set ip6 dscp'
 ip6 x y
  [ payload load 2b @ network header + 0 => reg 1 ]
  [ bitwise reg 1 = ( reg 1 & 0x0000c00f ) ^ 0x00000000 ]
  [ bitwise reg 1 = ( reg 1 >> 0x00000006 ) ]
  [ byteorder reg 1 = ntoh(reg 1, 2, 2) ] <--------- incorrect
  [ meta set mark with reg 1 ]

After this patch:

 # nft --debug=netlink add rule ip6 x y 'meta mark set ip6 dscp'
 ip6 x y
  [ payload load 2b @ network header + 0 => reg 1 ]
  [ bitwise reg 1 = ( reg 1 & 0x0000c00f ) ^ 0x00000000 ]
  [ byteorder reg 1 = ntoh(reg 1, 2, 2) ] <-------- correct
  [ bitwise reg 1 = ( reg 1 >> 0x00000006 ) ]
  [ meta set mark with reg 1 ]

For the matching case, binary transfer already deals with the rshift to
adjust left and right hand side of the expression, the unary conversion
is not needed in such case.

Fixes: 8221d86e616b ("tests: py: add test-cases for ct and packet mark payload expressions")
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agonetlink_linearize: use div_round_up in byteorder length
Pablo Neira Ayuso [Thu, 6 Jul 2023 08:26:39 +0000 (10:26 +0200)] 
netlink_linearize: use div_round_up in byteorder length

Use div_round_up() to calculate the byteorder length, otherwise fields
that take % BITS_PER_BYTE != 0 are not considered by the byteorder
expression.

Reported-by: Florian Westphal <fw@strlen.de>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agotests: shell: Introduce valgrind mode
Phil Sutter [Wed, 14 Jun 2023 18:01:46 +0000 (20:01 +0200)] 
tests: shell: Introduce valgrind mode

Pass flag '-V' to run-tests.sh to run all 'nft' invocations in valgrind
leak checking environment. Code copied from iptables' shell-testsuite
where it proved to be useful already.

Signed-off-by: Phil Sutter <phil@nwl.cc>
2 years agocli: Make cli_init() return to caller
Phil Sutter [Wed, 21 Jun 2023 23:10:59 +0000 (01:10 +0200)] 
cli: Make cli_init() return to caller

Avoid direct exit() calls as that leaves the caller-allocated nft_ctx
object in place. Making sure it is freed helps with valgrind-analyses at
least.

To signal desired exit from CLI, introduce global cli_quit boolean and
make all cli_exit() implementations also set cli_rc variable to the
appropriate return code.

The logic is to finish CLI only if cli_quit is true which asserts proper
cleanup as it is set only by the respective cli_exit() function.

Signed-off-by: Phil Sutter <phil@nwl.cc>
2 years agomain: Call nft_ctx_free() before exiting
Phil Sutter [Wed, 21 Jun 2023 22:51:40 +0000 (00:51 +0200)] 
main: Call nft_ctx_free() before exiting

Introduce labels for failure and regular exit so all direct exit() calls
after nft_ctx allocation may be replaced by a single goto statement.

Simply drop that return call in interactive branch, code will continue
at 'out' label naturally.

Signed-off-by: Phil Sutter <phil@nwl.cc>
2 years agomain: Make 'buf' variable branch-local
Phil Sutter [Wed, 21 Jun 2023 22:46:53 +0000 (00:46 +0200)] 
main: Make 'buf' variable branch-local

It is used only to linearize non-option argv for passing to
nft_run_cmd_from_buffer(), reduce its scope. Allows to safely move the
free() call there, too.

Signed-off-by: Phil Sutter <phil@nwl.cc>
2 years agotests: shell: refcount memleak in map rhs with timeouts
Pablo Neira Ayuso [Mon, 3 Jul 2023 22:50:34 +0000 (00:50 +0200)] 
tests: shell: refcount memleak in map rhs with timeouts

Extend coverage for refcount leaks on map element expiration.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agoexpression: define .clone for catchall set element
Pablo Neira Ayuso [Fri, 30 Jun 2023 07:42:11 +0000 (09:42 +0200)] 
expression: define .clone for catchall set element

Otherwise reuse of catchall set element expression in variable triggers
a null-pointer dereference.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agotests: py: Document JSON mode in README
Phil Sutter [Tue, 27 Jun 2023 15:50:07 +0000 (17:50 +0200)] 
tests: py: Document JSON mode in README

Mostly identify the various files that (may) appear or exist already and
how to deal with them.

Signed-off-by: Phil Sutter <phil@nwl.cc>
2 years agotests: shell: cover refcount leak of mapping rhs
Pablo Neira Ayuso [Tue, 27 Jun 2023 12:12:53 +0000 (14:12 +0200)] 
tests: shell: cover refcount leak of mapping rhs

Add a test to cover reference count leak in maps by adding twice
same element, then flush.

Reported-by: Florian Westphal <fw@strlen.de>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agotests: shell: coverage for simple port knocking ruleset
Pablo Neira Ayuso [Mon, 26 Jun 2023 06:15:29 +0000 (08:15 +0200)] 
tests: shell: coverage for simple port knocking ruleset

Add a test to cover port knocking simple ruleset.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agotests: json: add missing/expected json output
Florian Westphal [Sat, 24 Jun 2023 17:14:35 +0000 (19:14 +0200)] 
tests: json: add missing/expected json output

nft-test.py generates following warning:
any/last.t: WARNING: line 12: '{"nftables": [{"add": {"rule": {"family": "ip", "table": "test-ip4", "chain": "input", "expr": [{"last": {"used": 300000}}]}}}]}': '[{"last": {"used": 300000}}]' mismatches '[{"last": null}]'

This is because "last" expression is stateful; but nft-test.py
explicitly asks for stateless output.

Thus we need to provide a json.output file, without it,
nft-test.py uses last.json as the expected output file.

Fixes: ae8786756b0c ("src: add json support for last statement")
Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agosrc: avoid IPPROTO_MAX for array definitions
Florian Westphal [Tue, 20 Jun 2023 19:52:13 +0000 (21:52 +0200)] 
src: avoid IPPROTO_MAX for array definitions

ip header can only accomodate 8but value, but IPPROTO_MAX has been bumped
due to uapi reasons to support MPTCP (262, which is used to toggle on
multipath support in tcp).

This results in:
exthdr.c:349:11: warning: result of comparison of constant 263 with expression of type 'uint8_t' (aka 'unsigned char') is always true [-Wtautological-constant-out-of-range-compare]
if (type < array_size(exthdr_protocols))
            ~~~~ ^ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~

redude array sizes back to what can be used on-wire.

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agoct timeout: fix 'list object x' vs. 'list objects in table' confusion
Florian Westphal [Mon, 19 Jun 2023 20:43:06 +0000 (22:43 +0200)] 
ct timeout: fix 'list object x' vs. 'list objects in table' confusion

<empty ruleset>
$ nft list ct timeout table t
Error: No such file or directory
list ct timeout table t
                      ^
This is expected to list all 'ct timeout' objects.
The failure is correct, the table 't' does not exist.

But now lets add one:
$ nft add table t
$ nft list ct timeout  table t
Segmentation fault (core dumped)

... and thats not expected, nothing should be shown
and nft should exit normally.

Because of missing TIMEOUTS command enum, the backend thinks
it should do an object lookup, but as frontend asked for
'list of objects' rather than 'show this object',
handle.obj.name is NULL, which then results in this crash.

Update the command enums so that backend knows what the
frontend asked for.

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agoparser: reject zero-length interface names in flowtables
Florian Westphal [Mon, 19 Jun 2023 20:43:05 +0000 (22:43 +0200)] 
parser: reject zero-length interface names in flowtables

Previous patch wasn't enough, also disable this for flowtable device lists.

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agoparser: reject zero-length interface names
Florian Westphal [Mon, 19 Jun 2023 20:43:04 +0000 (22:43 +0200)] 
parser: reject zero-length interface names

device "" results in an assertion during evaluation.
Before:
nft: expression.c:426: constant_expr_alloc: Assertion `(((len) + (8) - 1) / (8)) > 0' failed.
After:
zero_length_devicename_assert:3:42-49: Error: you cannot set an empty interface name
type filter hook ingress device""lo" priority -1
                         ^^^^^^^^
Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agoparser: don't assert on scope underflows
Florian Westphal [Mon, 19 Jun 2023 20:43:03 +0000 (22:43 +0200)] 
parser: don't assert on scope underflows

close_scope() gets called from the object destructors;
imbalance can cause us to hit assert().

Before:
nft: parser_bison.y:88: close_scope: Assertion `state->scope > 0' failed.
After:
assertion3:4:7-7: Error: too many levels of nesting jump {
assertion3:5:8-8: Error: too many levels of nesting jump
assertion3:5:9-9: Error: syntax error, unexpected newline, expecting '{'
assertion3:7:1-1: Error: syntax error, unexpected end of file

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agoevaluate: do not abort when prefix map has non-map element
Florian Westphal [Mon, 19 Jun 2023 20:43:02 +0000 (22:43 +0200)] 
evaluate: do not abort when prefix map has non-map element

Before:
nft: evaluate.c:1849: __mapping_expr_expand: Assertion `i->etype == EXPR_MAPPING' failed.

after:
Error: expected mapping, not set element
   snat ip prefix to ip saddr map { 10.141.11.0/24 : 192.168.2.0/24, 10.141.12.1 }

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agojson: dccp: remove erroneous const qualifier
Florian Westphal [Mon, 19 Jun 2023 20:43:01 +0000 (22:43 +0200)] 
json: dccp: remove erroneous const qualifier

This causes a clang warning:

parser_json.c:767:6: warning: variable 'opt_type' is uninitialized when used here [-Wuninitialized]
if (opt_type < DCCPOPT_TYPE_MIN || opt_type > DCCPOPT_TYPE_MAX) {
            ^~~~~~~~
... because it deduces the object is readonly.

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agojson: add inner payload support
Pablo Neira Ayuso [Tue, 20 Jun 2023 10:57:56 +0000 (12:57 +0200)] 
json: add inner payload support

Add support for vxlan, geneve, gre and gretap.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agosrc: add json support for last statement
Pablo Neira Ayuso [Tue, 20 Jun 2023 09:45:53 +0000 (11:45 +0200)] 
src: add json support for last statement

This patch adds json support for the last statement, it works for me here.

However, tests/py still displays a warning:

any/last.t: WARNING: line 12: '{"nftables": [{"add": {"rule": {"family": "ip", "table": "test-ip4", "chain": "input", "expr": [{"last": {"used": 300000}}]}}}]}': '[{"last": {"used": 300000}}]' mismatches '[{"last": null}]'

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agocache: include set elements in "nft set list"
Florian Westphal [Sun, 18 Jun 2023 16:39:45 +0000 (18:39 +0200)] 
cache: include set elements in "nft set list"

Make "nft list sets" include set elements in listing by default.
In nftables 1.0.0, "nft list sets" did not include the set elements,
but with "--json" they were included.

1.0.1 and newer never include them.
This causes a problem for people updating from 1.0.0 and relying
on the presence of the set elements.

Change nftables to always include the set elements.
The "--terse" option is honored to get the "no elements" behaviour.

Fixes: a1a6b0a5c3c4 ("cache: finer grain cache population for list commands")
Link: https://marc.info/?l=netfilter&m=168704941828372&w=2
Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agotests: shell: bogus EBUSY errors in transactions
Pablo Neira Ayuso [Wed, 14 Jun 2023 08:38:08 +0000 (10:38 +0200)] 
tests: shell: bogus EBUSY errors in transactions

Make sure reference tracking during transaction update is correct by
checking for bogus EBUSY error. For example, when deleting map with
chain reference X, followed by a delete chain X command.

This test is covering the following paths:

- prepare + abort (via -c/--check option)
- prepare + commit
- release (when netns is destroyed)

Reported-by: Florian Westphal <fw@strlen.de>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agotests: shell: add test case for chain-in-use-splat
Florian Westphal [Mon, 12 Jun 2023 10:33:43 +0000 (12:33 +0200)] 
tests: shell: add test case for chain-in-use-splat

WARNING [.]: at net/netfilter/nf_tables_api.c:1885
6.3.4-201.fc38.x86_64 #1
nft_immediate_destroy+0xc1/0xd0 [nf_tables]
__nf_tables_abort+0x4b9/0xb20 [nf_tables]
nf_tables_abort+0x39/0x50 [nf_tables]
nfnetlink_rcv_batch+0x47c/0x8e0 [nfnetlink]
nfnetlink_rcv+0x179/0x1a0 [nfnetlink]
netlink_unicast+0x19e/0x290

This is because of chain->use underflow, at time destroy
function is called, ->use has wrapped back to -1.

Fixed via
"netfilter: nf_tables: fix chain binding transaction logic".

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agotests: shell: fix spurious errors in terse listing in json
Pablo Neira Ayuso [Sun, 11 Jun 2023 19:13:38 +0000 (21:13 +0200)] 
tests: shell: fix spurious errors in terse listing in json

Sometimes table handle becomes 192, which makes this test fail. Check
for 192.168 instead to make sure terse listing works fine instead.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agoexthdr: add boolean DCCP option matching
Jeremy Sowden [Tue, 11 Apr 2023 20:45:34 +0000 (21:45 +0100)] 
exthdr: add boolean DCCP option matching

Iptables supports the matching of DCCP packets based on the presence
or absence of DCCP options.  Extend exthdr expressions to add this
functionality to nftables.

Link: https://bugzilla.netfilter.org/show_bug.cgi?id=930
Signed-off-by: Jeremy Sowden <jeremy@azazel.net>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agotests: extend tests for destroy command
Fernando Fernandez Mancera [Sat, 27 May 2023 16:24:24 +0000 (18:24 +0200)] 
tests: extend tests for destroy command

Extend tests to cover destroy command for chains, flowtables, sets,
maps. In addition rename a destroy command test for rules with a
duplicated number.

Signed-off-by: Fernando Fernandez Mancera <ffmancera@riseup.net>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agosrc: permit use of constant values in set lookup keys
Florian Westphal [Wed, 24 May 2023 11:25:22 +0000 (13:25 +0200)] 
src: permit use of constant values in set lookup keys

Something like:

Given: set s { type ipv4_addr . ipv4_addr . inet_service .. } something
like
   add rule ip saddr . 1.2.3.4 . 80 @s goto c1

fails with: "Error: Can't parse symbolic invalid expressions".

This fails because the relational expression first evaluates
the left hand side, so when concat evaluation sees '1.2.3.4'
no key context is available.

Check if the RHS is a set reference, and, if so, evaluate
the right hand side.

This sets a pointer to the set key in the evaluation context
structure which then makes the concat evaluation step parse
1.2.3.4 and 80 as ipv4 address and 16bit port number.

On delinearization, extend relop postprocessing to
copy the datatype from the rhs (set reference, has
proper datatype according to set->key) to the lhs (concat
expression).

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agomnl: support bpf id decode in nft list hooks
Florian Westphal [Tue, 16 May 2023 16:24:29 +0000 (18:24 +0200)] 
mnl: support bpf id decode in nft list hooks

This allows 'nft list hooks' to also display the bpf program id
attached.  Example:

hook input {
  -0000000128 nf_hook_run_bpf id 6
  ..

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agoevaluate: set NFT_SET_EVAL flag if dynamic set already exists
Pablo Neira Ayuso [Thu, 18 May 2023 12:40:38 +0000 (14:40 +0200)] 
evaluate: set NFT_SET_EVAL flag if dynamic set already exists

nft reports EEXIST when reading an existing set whose NFT_SET_EVAL has
been previously inferred from the ruleset.

 # cat test.nft
 table ip test {
        set dlist {
                type ipv4_addr
                size 65535
        }

        chain output {
                type filter hook output priority filter; policy accept;
                udp dport 1234 update @dlist { ip daddr } counter packets 0 bytes 0
        }
 }
 # nft -f test.nft
 # nft -f test.nft
 test.nft:2:6-10: Error: Could not process rule: File exists
         set dlist {
             ^^^^^

Phil Sutter says:

In the first call, the set lacking 'dynamic' flag does not exist
and is therefore added to the cache. Consequently, both the 'add set'
command and the set statement point at the same set object. In the
second call, a set with same name exists already, so the object created
for 'add set' command is not added to cache and consequently not updated
with the missing flag. The kernel thus rejects the NEWSET request as the
existing set differs from the new one.

Set on the NFT_SET_EVAL flag if the existing set sets it on.

Fixes: 8d443adfcc8c1 ("evaluate: attempt to set_eval flag if dynamic updates requested")
Tested-by: Eric Garver <eric@garver.life>
Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agodatatype: add hint error handler
Pablo Neira Ayuso [Tue, 9 May 2023 15:46:54 +0000 (17:46 +0200)] 
datatype: add hint error handler

If user provides a symbol that cannot be parsed and the datatype provides
an error handler, provide a hint through the misspell infrastructure.

For instance:

 # cat test.nft
 table ip x {
        map y {
                typeof ip saddr : verdict
                elements = { 1.2.3.4 : filter_server1 }
        }
 }
 # nft -f test.nft
 test.nft:4:26-39: Error: Could not parse netfilter verdict; did you mean `jump filter_server1'?
                 elements = { 1.2.3.4 : filter_server1 }
                                        ^^^^^^^^^^^^^^

While at it, normalize error to "Could not parse symbolic %s expression".

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agodatatype: misspell support with symbol table parser for error reporting
Pablo Neira Ayuso [Tue, 9 May 2023 15:46:52 +0000 (17:46 +0200)] 
datatype: misspell support with symbol table parser for error reporting

Some datatypes provide a symbol table that is parsed as an integer.
Improve error reporting by using the misspell infrastructure, to provide
a hint to the user, whenever possible.

If base datatype, usually the integer datatype, fails to parse the
symbol, then try a fuzzy match on the symbol table to provide a hint
in case the user has mistype it.

For instance:

 test.nft:3:11-14: Error: Could not parse Differentiated Services Code Point expression; did you you mean `cs0`?
                 ip dscp ccs0
                         ^^^^

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agooptimize: do not remove counter in verdict maps
Pablo Neira Ayuso [Sun, 7 May 2023 17:54:30 +0000 (19:54 +0200)] 
optimize: do not remove counter in verdict maps

Add counter to set element instead of dropping it:

 # nft -c -o -f test.nft
 Merging:
 test.nft:6:3-50:              ip saddr 1.1.1.1 ip daddr 2.2.2.2 counter accept
 test.nft:7:3-48:              ip saddr 1.1.1.2 ip daddr 3.3.3.3 counter drop
 into:
       ip daddr . ip saddr vmap { 2.2.2.2 . 1.1.1.1 counter : accept, 3.3.3.3 . 1.1.1.2 counter : drop }

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agoevaluate: skip optimization if anonymous set uses stateful statement
Pablo Neira Ayuso [Sun, 7 May 2023 17:34:19 +0000 (19:34 +0200)] 
evaluate: skip optimization if anonymous set uses stateful statement

fee6bda06403 ("evaluate: remove anon sets with exactly one element")
introduces an optimization to remove use of sets with single element.
Skip this optimization if set element contains stateful statements.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agoevaluate: allow stateful statements with anonymous verdict maps
Pablo Neira Ayuso [Sun, 7 May 2023 17:30:46 +0000 (19:30 +0200)] 
evaluate: allow stateful statements with anonymous verdict maps

Evaluation fails to accept stateful statements in verdict maps, relax
the following check for anonymous sets:

test.nft:4:29-35: Error: missing statement in map declaration
                ip saddr vmap { 127.0.0.1 counter : drop, * counter : accept }
                                          ^^^^^^^

The existing code generates correctly the counter in the anonymous
verdict map.

Signed-off-by: Pablo Neira Ayuso <pablo@netfilter.org>
2 years agonetlink: restore typeof interval map data type
Florian Westphal [Mon, 1 May 2023 16:51:19 +0000 (18:51 +0200)] 
netlink: restore typeof interval map data type

When "typeof ... : interval ..." gets used, existing logic
failed to validate the expressions.

"interval" means that kernel reserves twice the size,
so consider this when validating and restoring.

Also fix up the dump file of the existing test
case to be symmetrical.

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agodoc: add nat examples
Florian Westphal [Mon, 1 May 2023 10:10:09 +0000 (12:10 +0200)] 
doc: add nat examples

nftables nat is much more capable than what the existing
documentation describes.

In particular, nftables can fully emulate iptables
NETMAP target and can perform n:m address mapping.

Add a new example section extracted from commit log
messages when those features got added.

Cc: Pablo Neira Ayuso <pablo@netfilter.org>
Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agodoc: list set/map flag keywords in a table
Florian Westphal [Mon, 1 May 2023 10:09:44 +0000 (12:09 +0200)] 
doc: list set/map flag keywords in a table

add descriptions of the set/map flags.

Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agometa: introduce meta broute support
Sriram Yagnaraman [Sun, 26 Feb 2023 09:52:04 +0000 (10:52 +0100)] 
meta: introduce meta broute support

Can be used in bridge prerouting hook to divert a packet
to the ip stack for routing.

This is a replacement for "ebtables -t broute" functionality.

Link: https://patchwork.ozlabs.org/project/netfilter-devel/patch/20230224095251.11249-1-sriram.yagnaraman@est.tech/
Signed-off-by: Sriram Yagnaraman <sriram.yagnaraman@est.tech>
Signed-off-by: Florian Westphal <fw@strlen.de>
2 years agodoc: correct NAT statement description
Jeremy Sowden [Sun, 5 Mar 2023 10:14:16 +0000 (10:14 +0000)] 
doc: correct NAT statement description

Specifying a port specifies that a port, not an address, should be
modified.

Signed-off-by: Jeremy Sowden <jeremy@azazel.net>
Signed-off-by: Florian Westphal <fw@strlen.de>