gh-151461: Fix encoding-related exception handling in file tokenizer (GH-151462)

author Bartosz Sławecki <bartosz@ilikepython.com>

Sun, 14 Jun 2026 12:33:03 +0000 (14:33 +0200)

committer GitHub <noreply@github.com>

Sun, 14 Jun 2026 12:33:03 +0000 (12:33 +0000)
author Bartosz Sławecki <bartosz@ilikepython.com>
Sun, 14 Jun 2026 12:33:03 +0000 (14:33 +0200)
committer GitHub <noreply@github.com>
Sun, 14 Jun 2026 12:33:03 +0000 (12:33 +0000)
diff --git a/Lib/test/test_source_encoding.py b/Lib/test/test_source_encoding.py

index 8ac64b3105708f768a371048e979b39ef09efe5b..53fffe7cfb56d090686199bdf1ec1822d1a6f1d4 100644 (file)
--- a/Lib/test/test_source_encoding.py
+++ b/Lib/test/test_source_encoding.py
@@ -387,8 +387,7 @@ class AbstractSourceEncodingTest:
                 b'#third\xa4\n'
                 b'raise RuntimeError\n')
          self.check_script_error(src,
-                br"'utf-8' codec can't decode byte|"
-                br"encoding problem: utf8")
+                br"'utf-8' codec can't decode byte")
  
      def test_crlf(self):
          src = (b'print(ascii("""\r\n"""))\n')
@@ -540,6 +539,20 @@ class FileSourceEncodingTest(AbstractSourceEncodingTest, unittest.TestCase):
                  line = line.removeprefix('\ufeff')
              self.assertIn(line.encode(), err)
  
+    def test_coding_spec_unknown_encoding(self):
+        src = (b'# coding: c1252\n'
+               b'print("Hi!")\n')
+        self.check_script_error(src, br"unknown encoding: c1252")
+
+    def test_coding_spec_decode_error(self):
+        src = (b'# coding: shift-jis\n'
+               b'print("\xc4\x85")\n')
+        self.check_script_error(src, br"'shift_jis' codec can't decode byte")
+
+    def test_coding_spec_non_text_encoding(self):
+        src = (b'# coding: hex_codec\n'
+               b'print("eggs")\n')
+        self.check_script_error(src, br"'hex_codec' is not a text encoding")
  
  
  if __name__ == "__main__":
diff --git a/Misc/NEWS.d/next/Core_and_Builtins/2026-06-14-05-05-15.gh-issue-151461.5q0s88.rst b/Misc/NEWS.d/next/Core_and_Builtins/2026-06-14-05-05-15.gh-issue-151461.5q0s88.rst

new file mode 100644 (file)

index 0000000..d76a9bc
--- /dev/null
+++ b/Misc/NEWS.d/next/Core_and_Builtins/2026-06-14-05-05-15.gh-issue-151461.5q0s88.rst
@@ -0,0 +1,3 @@
+Fix direct execution of files with invalid source encodings to report the
+underlying codec lookup or decoding error instead of the generic
+``SyntaxError: encoding problem`` message. Patch by Bartosz Sławecki.
diff --git a/Parser/pegen.c b/Parser/pegen.c

index 569f5afb3120085e6ba7ded981baffc0102232ab..bb222b50fc095f20b8cc96b605c6c7d7a575dca6 100644 (file)
--- a/Parser/pegen.c
+++ b/Parser/pegen.c
@@ -9,6 +9,7 @@
  
  #include "lexer/lexer.h"
  #include "tokenizer/tokenizer.h"
+#include "tokenizer/helpers.h"
  #include "pegen.h"
  
  // Internal parser functions
@@ -993,7 +994,7 @@ _PyPegen_run_parser_from_file_pointer(FILE *fp, int start_rule, PyObject *filena
      struct tok_state *tok = _PyTokenizer_FromFile(fp, enc, ps1, ps2);
      if (tok == NULL) {
          if (PyErr_Occurred()) {
-            _PyPegen_raise_tokenizer_init_error(filename_ob);
+            _PyTokenizer_raise_init_error(filename_ob);
              return NULL;
          }
          return NULL;
@@ -1051,7 +1052,7 @@ _PyPegen_run_parser_from_string(const char *str, int start_rule, PyObject *filen
      }
      if (tok == NULL) {
          if (PyErr_Occurred()) {
-            _PyPegen_raise_tokenizer_init_error(filename_ob);
+            _PyTokenizer_raise_init_error(filename_ob);
          }
          return NULL;
      }
diff --git a/Parser/pegen.h b/Parser/pegen.h

index 85c9ada765d9bd4e3b4fbea0aa547a5a83f355a4..5c461e82a7f0fa7b8df1c725ac42e26be2594092 100644 (file)
--- a/Parser/pegen.h
+++ b/Parser/pegen.h
@@ -174,7 +174,6 @@ typedef enum {
  } TARGETS_TYPE;
  
  int _Pypegen_raise_decode_error(Parser *p);
-void _PyPegen_raise_tokenizer_init_error(PyObject *filename);
  int _Pypegen_tokenizer_error(Parser *p);
  void *_PyPegen_raise_error(Parser *p, PyObject *errtype, int use_mark, const char *errmsg, ...);
  void *_PyPegen_raise_error_known_location(Parser *p, PyObject *errtype,
diff --git a/Parser/pegen_errors.c b/Parser/pegen_errors.c

index 312699415efd9af0ecbf7b8ab3f4cf472f4a8774..b13e1c079220a9273082ab2d0b6ec287425897ae 100644 (file)
--- a/Parser/pegen_errors.c
+++ b/Parser/pegen_errors.c
@@ -10,53 +10,6 @@
  
  // TOKENIZER ERRORS
  
-void
-_PyPegen_raise_tokenizer_init_error(PyObject *filename)
-{
-    if (!(PyErr_ExceptionMatches(PyExc_LookupError)
-          || PyErr_ExceptionMatches(PyExc_SyntaxError)
-          || PyErr_ExceptionMatches(PyExc_ValueError)
-          || PyErr_ExceptionMatches(PyExc_UnicodeDecodeError))) {
-        return;
-    }
-    PyObject *errstr = NULL;
-    PyObject *tuple = NULL;
-    PyObject *type;
-    PyObject *value;
-    PyObject *tback;
-    PyErr_Fetch(&type, &value, &tback);
-    if (PyErr_GivenExceptionMatches(value, PyExc_SyntaxError)) {
-        if (PyObject_SetAttr(value, &_Py_ID(filename), filename)) {
-            goto error;
-        }
-        PyErr_Restore(type, value, tback);
-        return;
-    }
-    errstr = PyObject_Str(value);
-    if (!errstr) {
-        goto error;
-    }
-
-    PyObject *tmp = Py_BuildValue("(OiiO)", filename, 0, -1, Py_None);
-    if (!tmp) {
-        goto error;
-    }
-
-    tuple = _PyTuple_FromPair(errstr, tmp);
-    Py_DECREF(tmp);
-    if (!tuple) {
-        goto error;
-    }
-    PyErr_SetObject(PyExc_SyntaxError, tuple);
-
-error:
-    Py_XDECREF(type);
-    Py_XDECREF(value);
-    Py_XDECREF(tback);
-    Py_XDECREF(errstr);
-    Py_XDECREF(tuple);
-}
-
  static inline void
  raise_unclosed_parentheses_error(Parser *p) {
         int error_lineno = p->tok->parenlinenostack[p->tok->level-1];
diff --git a/Parser/tokenizer/helpers.c b/Parser/tokenizer/helpers.c

index c69e66d0ab9b7a8cad838d156b93478f29f5fb0e..62b0971d418c396c5b9c92fd821e75cc23cb0066 100644 (file)
--- a/Parser/tokenizer/helpers.c
+++ b/Parser/tokenizer/helpers.c
@@ -1,6 +1,8 @@
  #include "Python.h"
  #include "errcode.h"
+#include "pycore_runtime.h"       // _Py_ID()
  #include "pycore_token.h"
+#include "pycore_tuple.h"         // _PyTuple_FromPair
  
  #include "../lexer/state.h"
  
@@ -149,6 +151,53 @@ _PyTokenizer_warn_invalid_escape_sequence(struct tok_state *tok, int first_inval
      return 0;
  }
  
+void
+_PyTokenizer_raise_init_error(PyObject *filename)
+{
+    if (!(PyErr_ExceptionMatches(PyExc_LookupError)
+          || PyErr_ExceptionMatches(PyExc_SyntaxError)
+          || PyErr_ExceptionMatches(PyExc_ValueError)
+          || PyErr_ExceptionMatches(PyExc_UnicodeDecodeError))) {
+        return;
+    }
+    PyObject *errstr = NULL;
+    PyObject *tuple = NULL;
+    PyObject *type;
+    PyObject *value;
+    PyObject *tback;
+    PyErr_Fetch(&type, &value, &tback);
+    if (PyErr_GivenExceptionMatches(value, PyExc_SyntaxError)) {
+        if (PyObject_SetAttr(value, &_Py_ID(filename), filename)) {
+            goto error;
+        }
+        PyErr_Restore(type, value, tback);
+        return;
+    }
+    errstr = PyObject_Str(value);
+    if (!errstr) {
+        goto error;
+    }
+
+    PyObject *tmp = Py_BuildValue("(OiiO)", filename, 0, -1, Py_None);
+    if (!tmp) {
+        goto error;
+    }
+
+    tuple = _PyTuple_FromPair(errstr, tmp);
+    Py_DECREF(tmp);
+    if (!tuple) {
+        goto error;
+    }
+    PyErr_SetObject(PyExc_SyntaxError, tuple);
+
+error:
+    Py_XDECREF(type);
+    Py_XDECREF(value);
+    Py_XDECREF(tback);
+    Py_XDECREF(errstr);
+    Py_XDECREF(tuple);
+}
+
  int
  _PyTokenizer_parser_warn(struct tok_state *tok, PyObject *category, const char *format, ...)
  {
@@ -418,8 +467,8 @@ _PyTokenizer_check_coding_spec(const char* line, Py_ssize_t size, struct tok_sta
      if (tok->encoding == NULL) {
          assert(tok->decoding_readline == NULL);
          if (strcmp(cs, "utf-8") != 0 && !set_readline(tok, cs)) {
+            _PyTokenizer_raise_init_error(tok->filename);
              _PyTokenizer_error_ret(tok);
-            PyErr_Format(PyExc_SyntaxError, "encoding problem: %s", cs);
              PyMem_Free(cs);
              return 0;
          }
diff --git a/Parser/tokenizer/helpers.h b/Parser/tokenizer/helpers.h

index 98f6445d5a3b40ef716f561cee728a5b6e609a88..34303999a60aff7138a7f845cca1d95ccee83327 100644 (file)
--- a/Parser/tokenizer/helpers.h
+++ b/Parser/tokenizer/helpers.h
@@ -15,6 +15,7 @@ int _PyTokenizer_indenterror(struct tok_state *tok);
  int _PyTokenizer_warn_invalid_escape_sequence(struct tok_state *tok, int first_invalid_escape_char);
  int _PyTokenizer_parser_warn(struct tok_state *tok, PyObject *category, const char *format, ...);
  char *_PyTokenizer_error_ret(struct tok_state *tok);
+void _PyTokenizer_raise_init_error(PyObject *filename);
  
  char *_PyTokenizer_new_string(const char *s, Py_ssize_t len, struct tok_state *tok);
  char *_PyTokenizer_translate_newlines(const char *s, int exec_input, int preserve_crlf, struct tok_state *tok);
author	Bartosz Sławecki <bartosz@ilikepython.com>
	Sun, 14 Jun 2026 12:33:03 +0000 (14:33 +0200)
committer	GitHub <noreply@github.com>
	Sun, 14 Jun 2026 12:33:03 +0000 (12:33 +0000)
Lib/test/test_source_encoding.py		patch \| blob \| blame \| history
Misc/NEWS.d/next/Core_and_Builtins/2026-06-14-05-05-15.gh-issue-151461.5q0s88.rst	[new file with mode: 0644]	patch \| blob
Parser/pegen.c		patch \| blob \| blame \| history
Parser/pegen.h		patch \| blob \| blame \| history
Parser/pegen_errors.c		patch \| blob \| blame \| history
Parser/tokenizer/helpers.c		patch \| blob \| blame \| history
Parser/tokenizer/helpers.h		patch \| blob \| blame \| history