From: Simon Cozens <simon@simon-cozens.org>
Date: Thu, 17 Oct 2024 13:25:35 +0000 (+0100)
Subject: fix marks in base (#172)
X-Git-Url: http://git.ipfire.org/cgi-bin/gitweb.cgi?a=commitdiff_plain;h=51880d3ea86d15388c3379c9409757041de115ef;p=thirdparty%2Fgoogle%2Ffonts.git

fix marks in base (#172)

* Add Todhri description

* Update family/description for Duployan

* Fix scripts with marks in base exemplars

* Script for fixing the above

* Test for marks in bases

* Tibetan needed a bit of extra help
---

diff --git a/Lib/gflanguages/data/languages/as_Beng.textproto b/Lib/gflanguages/data/languages/as_Beng.textproto
index 0bafd88c58..6efd717752 100644
--- a/Lib/gflanguages/data/languages/as_Beng.textproto
+++ b/Lib/gflanguages/data/languages/as_Beng.textproto
@@ -6,9 +6,9 @@ autonym: "à¦à¦¸à¦®à§à¦¯à¦¼à¦¾"
 population: 17239170
 region: "IN"
 exemplar_chars {
-  base: "à¦¼ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦  à¦¡ {à¦¡à¦¼} à¦¢ {à¦¢à¦¼} à¦£ à¦¤ à¦¥ à¦¦ à¦§ à¦¨ à¦ª à¦« à¦¬ à¦­ à¦® à¦¯ {à¦¯à¦¼} à§° à¦² à§± à¦¶ à¦· à¦¸ à¦¹ {à¦à§à¦·} à¦¾ à¦¿ à§ à§ à§ à§ à§ à§ à§ à§ à§"
+  base: "à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦  à¦¡ {à¦¡à¦¼} à¦¢ {à¦¢à¦¼} à¦£ à¦¤ à¦¥ à¦¦ à¦§ à¦¨ à¦ª à¦« à¦¬ à¦­ à¦® à¦¯ {à¦¯à¦¼} à§° à¦² à§± à¦¶ à¦· à¦¸ à¦¹ {à¦à§à¦·}"
   auxiliary: "ââ à§² à§ à¦°"
-  marks: "âà¦ âà¦ âà¦ âà¦¼ âà¦¾ âà¦¿ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§¢ âà§£"
+  marks: "âà¦ âà¦ âà¦ âà¦¼ âà¦¾ âà¦¿ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§¢ âà§£ âà§ âà§"
   numerals: "- , . % + 0à§¦ 1à§§ 2à§¨ 3à§© 4à§ª 5à§« 6à§¬ 7à§­ 8à§® 9à§¯"
   punctuation: "- â â , ; : ! ? . â¦ à¥¤ \' â â \" â â ( ) [ ] @ * / & #"
   index: "à¦¼ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦  à¦¡ à¦¢ à¦£ à§ à¦¤ à¦¥ à¦¦ à¦§ à¦¨ à¦ª à¦« à¦¬ à¦­ à¦® à¦¯ à§° à¦² à§± à¦¶ à¦· à¦¸ à¦¹ à§"
diff --git a/Lib/gflanguages/data/languages/bn_Beng.textproto b/Lib/gflanguages/data/languages/bn_Beng.textproto
index 15b609a907..01ed417281 100644
--- a/Lib/gflanguages/data/languages/bn_Beng.textproto
+++ b/Lib/gflanguages/data/languages/bn_Beng.textproto
@@ -9,9 +9,9 @@ region: "GB"
 region: "IN"
 region: "NP"
 exemplar_chars {
-  base: "à¦¼ à§º à¦ à¦ à¦ à¦ à¦ à¦ à¦ à§  à¦ à§¡ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ {à¦à§à¦·} à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦  à¦¡ {à¦¡à¦¼} à¦¢ {à¦¢à¦¼} à¦£ à¦¤ à§ à¦¥ à¦¦ à¦§ à¦¨ à¦ª à¦« à¦¬ à¦­ à¦® à¦¯ {à¦¯à¦¼} à¦° à¦² à¦¶ à¦· à¦¸ à¦¹ à¦½ à¦¾ à¦¿ à§ à§ à§ à§ à§ à§¢ à§£ à§ à§ à§ à§ à§ à§"
+  base: "à§º à¦ à¦ à¦ à¦ à¦ à¦ à¦ à§  à¦ à§¡ à¦ à¦ à¦ à¦ à¦ {à¦à§à¦·} à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦  à¦¡ {à¦¡à¦¼} à¦¢ {à¦¢à¦¼} à¦£ à¦¤ à§ à¦¥ à¦¦ à¦§ à¦¨ à¦ª à¦« à¦¬ à¦­ à¦® à¦¯ {à¦¯à¦¼} à¦° à¦² à¦¶ à¦· à¦¸ à¦¹ à¦½"
   auxiliary: "ââ à§² à§³ à§´ à§µ à§¶ à§· à§¸ à§¹ à§° à§±"
-  marks: "âà¦ âà¦ âà¦ âà¦¼ âà¦¾ âà¦¿ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§¢ âà§£"
+  marks: "âà¦ âà¦ âà¦ âà¦¼ âà¦¾ âà¦¿ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§¢ âà§£ âà§ âà§"
   numerals: "- , . % + 0à§¦ 1à§§ 2à§¨ 3à§© 4à§ª 5à§« 6à§¬ 7à§­ 8à§® 9à§¯"
   punctuation: "- â â , ; : ! ? . â¦ \' â â \" â â ( ) [ ] @ * / & #"
   index: "à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ {à¦à§à¦·} à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦  à¦¡ à¦¢ à¦£ à¦¤ à¦¥ à¦¦ à¦§ à¦¨ à¦ª à¦« à¦¬ à¦­ à¦® à¦¯ à¦° à¦² à¦¶ à¦· à¦¸ à¦¹"
diff --git a/Lib/gflanguages/data/languages/bo_Tibt.textproto b/Lib/gflanguages/data/languages/bo_Tibt.textproto
index 7efe51ea1b..c46864bd1b 100644
--- a/Lib/gflanguages/data/languages/bo_Tibt.textproto
+++ b/Lib/gflanguages/data/languages/bo_Tibt.textproto
@@ -8,9 +8,9 @@ region: "CN"
 region: "IN"
 region: "NP"
 exemplar_chars {
-  base: "à½¾ à½¿ à½ {à½à¾µ} à¾ {à¾à¾µ} à½ à¾ à½ {à½à¾·} à¾ {à¾à¾·} à½ à¾ à½ à¾ à½ à¾ à½ à¾ à½ à¾ à½ à¾ à½ à¾ à½ {à½à¾·} à¾ {à¾à¾·} à½ à¾ à½ à¾ à½ à¾  à½ {à½à¾·} à¾¡ {à¾¡à¾·} à½ à¾£ à½ à¾¤ à½ à¾¥ à½ {à½à¾·} à¾¦ {à¾¦à¾·} à½ à¾¨ à½ à¾© à½ à¾ª à½ {à½à¾·} à¾« {à¾«à¾·} à½ à¾­ à¾º à½ à¾® à½ à¾¯ à½  à¾° à½¡ à¾± à¾» à½¢ à½ª à¾² à¾¼ à½£ à¾³ à½¤ à¾´ à½¥ à¾µ à½¦ à¾¶ à½§ à¾· à½¨ à¾¸ à½² {à½±à½²} à¾ {à½±à¾} à½´ {à½±à½´} {à¾²à¾} à½· {à¾³à¾} à½¹ à½º à½» à½¼ à½½ à¾"
+  base: "à½ {à½à¾µ} à½ à½ {à½à¾·} à½ à½ à½ à½ à½ à½ à½ à½ {à½à¾·} à½ à½ à½ à½ {à½à¾·} à½ à½ à½ à½ {à½à¾·} à½ à½ à½ à½ {à½à¾·} à½ à½ à½ à½  à½¡ à½¢ à½ª à½£ à½¤ à½¥ à½¦ à½§ à½¨ "
   auxiliary: "à¼"
-  marks: "âà½² âà½´ âà½º âà½¼"
+  marks: "âà½² âà½´ âà½º âà½¼ âà½¾ âà½¿ âà¾ âà¾ âà¾ âà¾ âà¾ âà¾ âà¾ âà¾ âà¾ âà¾ âà¾ âà¾ âà¾ âà¾  âà¾¡ âà¾£ âà¾¤ âà¾¥ âà¾¦ âà¾¨ âà¾© âà¾ª âà¾« âà¾­ âà¾º âà¾® âà¾¯ âà¾° âà¾± âà¾» âà¾² âà¾¼ âà¾³ âà¾´ âà¾µ âà¾¶ âà¾· âà¾¸ âà¾ âà½· âà½¹ âà½» âà½½ âà¾ {à¾à¾µ} {à¾à¾·} {à¾à¾·} {à¾¡à¾·} {à¾¦à¾·} {à¾«à¾·} {à½±à½²} {à½±à¾} {à½±à½´} {à¾²à¾} {à¾³à¾}"
   numerals: "- , . % + 0à¼  1à¼¡ 2à¼¢ 3à¼£ 4à¼¤ 5à¼¥ 6à¼¦ 7à¼§ 8à¼¨ 9à¼©"
   punctuation: ": à¼ à¼"
   index: "à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½  à½¡ à½¢ à½£ à½¤ à½¦ à½§ à½¨"
diff --git a/Lib/gflanguages/data/languages/brx_Deva.textproto b/Lib/gflanguages/data/languages/brx_Deva.textproto
index 6e9b439598..e8c8124d35 100644
--- a/Lib/gflanguages/data/languages/brx_Deva.textproto
+++ b/Lib/gflanguages/data/languages/brx_Deva.textproto
@@ -6,9 +6,9 @@ autonym: "à¤¬à¤°Ê¼"
 population: 1856526
 region: "IN"
 exemplar_chars {
-  base: "à¤¼ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ {à¤¡à¤¼} à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤³ à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤¾ à¤¿ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥"
+  base: "à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ {à¤¡à¤¼} à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤³ à¤µ à¤¶ à¤· à¤¸ à¤¹"
   auxiliary: "ââ"
-  marks: "âà¤ âà¤ âà¤ âà¤¼ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥"
+  marks: "âà¤ âà¤ âà¤ âà¤¼ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥"
   numerals: "- , . % + 0 1 2 3 4 5 6 7 8 9"
   punctuation: "à¥¤ à¥¥ à¥°"
   index: "à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ {à¤¡à¤¼} à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤³ à¤µ à¤¶ à¤· à¤¸ à¤¹"
diff --git a/Lib/gflanguages/data/languages/doi_Deva.textproto b/Lib/gflanguages/data/languages/doi_Deva.textproto
index a8b825af33..3fc00966ed 100644
--- a/Lib/gflanguages/data/languages/doi_Deva.textproto
+++ b/Lib/gflanguages/data/languages/doi_Deva.textproto
@@ -6,8 +6,9 @@ autonym: "ð ð µð ð ¤ð ®"
 population: 2652180
 region: "IN"
 exemplar_chars {
-  base: "à¥ à¥ à¤¼ à¤ à¤ à¤ à¥ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¥  à¤ à¥¡ à¤ à¤ à¤ à¤ à¤ {à¤à¥à¤·} à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ {à¤¡à¤¼} à¤¢ {à¤¢à¤¼} à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤³ à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤½ à¤¾ à¤¿ à¥ à¥ à¥ à¥ à¥ à¥¢ à¥£ à¥ à¥ à¥ à¥ à¥"
+  base: "à¥ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¥  à¤ à¥¡ à¤ à¤ à¤ à¤ à¤ {à¤à¥à¤·} à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ {à¤¡à¤¼} à¤¢ {à¤¢à¤¼} à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤³ à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤½"
   auxiliary: "ââ à¤ à¤ à¥"
+  marks: "âà¥ âà¥ âà¤¼ âà¤ âà¤ âà¤ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥¢ âà¥£ âà¥ âà¥ âà¥ âà¥ âà¥"
   numerals: "- , . % + 0 1 2 3 4 5 6 7 8 9"
   punctuation: "_ â â , ; : ! ? . â¦ \' â â \" â â ( ) @ * / & #"
   index: "à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¥  à¤ à¥¡ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤³ à¤µ à¤¶ à¤· à¤¸ à¤¹"
diff --git a/Lib/gflanguages/data/languages/dz_Tibt.textproto b/Lib/gflanguages/data/languages/dz_Tibt.textproto
index 15d5fa0519..c2448d6618 100644
--- a/Lib/gflanguages/data/languages/dz_Tibt.textproto
+++ b/Lib/gflanguages/data/languages/dz_Tibt.textproto
@@ -7,9 +7,9 @@ population: 370341
 region: "BT"
 region: "IN"
 exemplar_chars {
-  base: "à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½  à½¡ à½¢ à½£ à½¤ à½¦ à½§ à½¨ à½² à½´ à½º à½¼ à¾ à¾ à¾ à¾ à¾ à¾ à¾ à¾  à¾¡ à¾£ à¾¤ à¾¥ à¾¦ à¾¨ à¾© à¾ª à¾« à¾­ à¾± à¾² à¾³ à¾µ à¾¶ à¾·"
+  base: "à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½  à½¡ à½¢ à½£ à½¤ à½¦ à½§ à½¨"
   auxiliary: "à¾ à½ à½ à½ à½ à½¾ à½¥ à¾ à½» à½½ à¾ à¾ à¾ à¾ à¾º à¾» à¾¼"
-  marks: "âà½² âà½´ âà½º âà½¼ âà¾µ"
+  marks: "âà½² âà½´ âà½º âà½¼ âà¾µ âà¾ âà¾ âà¾ âà¾ âà¾ âà¾ âà¾ âà¾  âà¾¡ âà¾£ âà¾¤ âà¾¥ âà¾¦ âà¾¨ âà¾© âà¾ª âà¾« âà¾­ âà¾± âà¾² âà¾³ âà¾¶ âà¾·"
   numerals: "- , . % + 0à¼  1à¼¡ 2à¼¢ 3à¼£ 4à¼¤ 5à¼¥ 6à¼¦ 7à¼§ 8à¼¨ 9à¼©"
   punctuation: "- â â , ; : ! ? . â¦ \' â â \" â â ( ) [ ] à¼¼ à¼½ @ * / & # à¼ à¼ à¼ à¼ à¼ à¼ à¿ à¿ à¼ à¿ à¿ à¿ à¼¶ à¾¾ à¾¿ à¼ à¼ à¼ à¼ à¼ à¼ à¼ à¼´"
   index: "à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½ à½  à½¡ à½¢ à½£ à½¤ à½¦ à½§ à½¨"
diff --git a/Lib/gflanguages/data/languages/ff_Adlm.textproto b/Lib/gflanguages/data/languages/ff_Adlm.textproto
index 188d95f79d..f482d46315 100644
--- a/Lib/gflanguages/data/languages/ff_Adlm.textproto
+++ b/Lib/gflanguages/data/languages/ff_Adlm.textproto
@@ -16,7 +16,8 @@ region: "NG"
 region: "SL"
 region: "SN"
 exemplar_chars {
-  base: "ð¥ð¥ð¥ ð¤¢ ð¤£ ð¤¤ ð¤¥ ð¤¦ ð¤§ ð¤¨ ð¤© ð¤ª ð¤« ð¤¬ ð¤­ ð¤® ð¤¯ ð¤° ð¤± ð¤² ð¤³ ð¤´ ð¤µ ð¤¶ ð¤· ð¤¸ ð¤¹ ð¤º ð¤» ð¤¼ ð¤½ ð¥"
+  base: "ð¤¢ ð¤£ ð¤¤ ð¤¥ ð¤¦ ð¤§ ð¤¨ ð¤© ð¤ª ð¤« ð¤¬ ð¤­ ð¤® ð¤¯ ð¤° ð¤± ð¤² ð¤³ ð¤´ ð¤µ ð¤¶ ð¤· ð¤¸ ð¤¹ ð¤º ð¤» ð¤¼ ð¤½"
+  marks: "ð¥ ð¥ ð¥ ð¥"
   auxiliary: "ð¤¾ ð¤¿ ð¥ ð¥ ð¥ ð¥"
   numerals: "ð¥ ð¥ ð¥ ð¥ ð¥ ð¥ ð¥ ð¥ ð¥ ð¥"
   punctuation: "- ð¥ ð¥ . % "
diff --git a/Lib/gflanguages/data/languages/hi_Deva.textproto b/Lib/gflanguages/data/languages/hi_Deva.textproto
index fb5c6e6c30..af9bd7cae8 100644
--- a/Lib/gflanguages/data/languages/hi_Deva.textproto
+++ b/Lib/gflanguages/data/languages/hi_Deva.textproto
@@ -10,9 +10,9 @@ region: "NP"
 region: "UG"
 region: "ZA"
 exemplar_chars {
-  base: "à¤¼ à¥ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤³ à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤½ à¤¾ à¤¿ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥"
+  base: "à¥ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤³ à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤½"
   auxiliary: "ââ"
-  marks: "âà¤ âà¤ âà¤ âà¤¼ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥"
+  marks: "âà¤ âà¤ âà¤ âà¤¼ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥"
   numerals: "- , . % + 0à¥¦ 1à¥§ 2à¥¨ 3à¥© 4à¥ª 5à¥« 6à¥¬ 7à¥­ 8à¥® 9à¥¯"
   punctuation: "- , ; : ! ? . â â â â ( ) [ ] { } à¥°"
   index: "à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤µ à¤¶ à¤· à¤¸ à¤¹"
diff --git a/Lib/gflanguages/data/languages/km_Khmr.textproto b/Lib/gflanguages/data/languages/km_Khmr.textproto
index 286f9f9a33..c4ec49e955 100644
--- a/Lib/gflanguages/data/languages/km_Khmr.textproto
+++ b/Lib/gflanguages/data/languages/km_Khmr.textproto
@@ -6,7 +6,7 @@ autonym: "áá¶áá¶ááááá"
 population: 15065030
 region: "KH"
 exemplar_chars {
-  base: "á á á á á á á á á á á á á á á á á á á á á á á á á á á á á á á á á á« á¬ á á­ á® á á á  á¡ á¢ {á¢á¶} á¥ á¦ á§ {á§á} á© áª á¯ á° á± á² á³ á¶ á· á¸ á¹ áº á» á¼ á½ á¾ á¿ á á á á á á á á á"
+  base: "á á á á á á á á á á á á á á á á á á á á á á á á á á á á« á¬ á á­ á® á á á  á¡ á¢ {á¢á¶} á¥ á¦ á§ {á§á} á© áª á¯ á° á± á² á³"
   auxiliary: "á´áµâ á á á á á á"
   marks: "âá´ âáµ âá¶ âá· âá¸ âá¹ âáº âá» âá¼ âá½ âá¾ âá¿ âá âá âá âá âá âá âá âá âá âá âá âá âá âá âá"
   numerals: "- , . % + 0 1 2 3 4 5 6 7 8 9"
diff --git a/Lib/gflanguages/data/languages/kn_Knda.textproto b/Lib/gflanguages/data/languages/kn_Knda.textproto
index ddf13ffd2f..17d738208e 100644
--- a/Lib/gflanguages/data/languages/kn_Knda.textproto
+++ b/Lib/gflanguages/data/languages/kn_Knda.textproto
@@ -6,9 +6,9 @@ autonym: "à²à²¨à³à²¨à²¡"
 population: 49065330
 region: "IN"
 exemplar_chars {
-  base: "à²¼ à³¦ à³§ à³¨ à³© à³ª à³« à³¬ à³­ à³® à³¯ à² à² à² à² à² à² à² à³  à² à³¡ à² à² à² à² à² à² à² à² à² à² à² à² à² à² à² à² à² à² à² à²  à²¡ à²¢ à²£ à²¤ à²¥ à²¦ à²§ à²¨ à²ª à²« à²¬ à²­ à²® à²¯ à²° à²± à²² à²µ à²¶ à²· à²¸ à²¹ à²³ à²½ à²¾ à²¿ à³ à³ à³ à³ à³ à³ à³ à³ à³ à³ à³ à³ à³ à³"
+  base: "à³¦ à³§ à³¨ à³© à³ª à³« à³¬ à³­ à³® à³¯ à² à² à² à² à² à² à² à³  à² à³¡ à² à² à² à² à² à² à² à² à² à² à² à² à² à² à² à² à² à²  à²¡ à²¢ à²£ à²¤ à²¥ à²¦ à²§ à²¨ à²ª à²« à²¬ à²­ à²® à²¯ à²° à²± à²² à²µ à²¶ à²· à²¸ à²¹ à²³ à²½"
   auxiliary: "ââ à³"
-  marks: "âà² âà² âà²¾ âà²¿ âà³ âà³ âà³ âà³ âà³ âà³ âà³ âà³ âà³"
+  marks: "âà² âà² âà²¾ âà²¿ âà³ âà³ âà³ âà³ âà³ âà³ âà³ âà³ âà³ âà²¼ âà³ âà³ âà³ âà³ âà³"
   numerals: "- , . % + 0à³¦ 1à³§ 2à³¨ 3à³© 4à³ª 5à³« 6à³¬ 7à³­ 8à³® 9à³¯"
   punctuation: "- â â , ; : ! ? . â¦ \' â â \" â â ( ) [ ] @ * / & #"
   index: "à² à² à² à² à² à² à² à³  à² à³¡ à² à² à² à² à² à² à² à² à² à² à² à² à² à² à² à² à² à²  à²¡ à²¢ à²£ à²¤ à²¥ à²¦ à²§ à²¨ à²ª à²« à²¬ à²­ à²® à²¯ à²° à²± à²² à²µ à²¶ à²· à²¸ à²¹ à²³ à³"
diff --git a/Lib/gflanguages/data/languages/kok_Deva.textproto b/Lib/gflanguages/data/languages/kok_Deva.textproto
index d8d5862ad8..cb3c63bdfc 100644
--- a/Lib/gflanguages/data/languages/kok_Deva.textproto
+++ b/Lib/gflanguages/data/languages/kok_Deva.textproto
@@ -5,8 +5,9 @@ name: "Konkani"
 population: 4906533
 region: "IN"
 exemplar_chars {
-  base: "à¤¼ à¥¦ à¥§ à¥¨ à¥© à¥ª à¥« à¥¬ à¥­ à¥® à¥¯ à¥ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ {à¤à¤¼} à¤ {à¤à¤¼} à¤ {à¤à¤¼} à¤ à¤ à¤ à¤ à¤ {à¤à¤¼} à¤ à¤ à¤ à¤  à¤¡ {à¤¡à¤¼} à¤¢ {à¤¢à¤¼} à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« {à¤«à¤¼} à¤¬ à¤­ à¤® à¤¯ {à¤¯à¤¼} à¤° à¤² à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤³ à¤½ à¤¾ à¤¿ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥"
+  base: "à¥¦ à¥§ à¥¨ à¥© à¥ª à¥« à¥¬ à¥­ à¥® à¥¯ à¥ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ {à¤à¤¼} à¤ {à¤à¤¼} à¤ {à¤à¤¼} à¤ à¤ à¤ à¤ à¤ {à¤à¤¼} à¤ à¤ à¤ à¤  à¤¡ {à¤¡à¤¼} à¤¢ {à¤¢à¤¼} à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« {à¤«à¤¼} à¤¬ à¤­ à¤® à¤¯ {à¤¯à¤¼} à¤° à¤² à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤³ à¤½"
   auxiliary: "ââ"
+  marks: "âà¤¼ âà¤ âà¤ âà¤ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥"
   numerals: "- , . % + 0à¥¦ 1à¥§ 2à¥¨ 3à¥© 4à¥ª 5à¥« 6à¥¬ 7à¥­ 8à¥® 9à¥¯"
   punctuation: "- â â , ; : ! ? . â¦ \' â â \" â â ( ) [ ] @ * / & #"
   index: "à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤³"
diff --git a/Lib/gflanguages/data/languages/lo_Laoo.textproto b/Lib/gflanguages/data/languages/lo_Laoo.textproto
index 7a89007c4d..ca4d057f02 100644
--- a/Lib/gflanguages/data/languages/lo_Laoo.textproto
+++ b/Lib/gflanguages/data/languages/lo_Laoo.textproto
@@ -6,7 +6,7 @@ autonym: "àºàº²àºªàº²àº¥àº²àº§"
 population: 5138706
 region: "LA"
 exemplar_chars {
-  base: "à» à» à» à» à» à» à» àº àº àº àº àº àºª àº àº àº àº àº àº àº àº àº àº àº àº àº àº¡ àº¢ àº£ àº¥ àº§ àº« à» à» àº­ àº® àº¯ àº° àº± àº² àº³ àº´ àºµ àº¶ àº· àº¸ àº¹ àº» àº¼ àº½ à» à» à» à» à»"
+  base: "à» àº àº àº àº àº àºª àº àº àº àº àº àº àº àº àº àº àº àº àº àº¡ àº¢ àº£ àº¥ àº§ àº« à» à» àº­ àº® àº¯ àº° àº² àº³ àº½ à» à» à» à» à»"
   auxiliary: "â à» à» à» à» à» à» à» à» à» à»"
   marks: "âàº± âàº´ âàºµ âàº¶ âàº· âàº¸ âàº¹ âàº» âàº¼ âà» âà» âà» âà» âà» âà»"
   numerals: "- , . % + 0 1 2 3 4 5 6 7 8 9"
diff --git a/Lib/gflanguages/data/languages/mai_Deva.textproto b/Lib/gflanguages/data/languages/mai_Deva.textproto
index c46274c1b4..a92af4a9c6 100644
--- a/Lib/gflanguages/data/languages/mai_Deva.textproto
+++ b/Lib/gflanguages/data/languages/mai_Deva.textproto
@@ -7,7 +7,7 @@ population: 19249149
 region: "IN"
 region: "NP"
 exemplar_chars {
-  base: "à¤¼ à¤ à¤ à¤ {à¤à¥à¤·} à¤ à¤ à¤ à¤ à¤ à¤ {à¤à¥à¤} à¤ à¤ à¤ à¤  à¤¡ {à¤¡à¤} à¤¢ à¤£ à¤¤ {à¤¤à¥à¤°} à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤µ à¤¶ {à¤¶à¥à¤°} à¤· à¤¸ à¤¹ à¤¾ à¤¿ à¥ à¥ à¥ à¥ à¥ à¥ à¥"
+  base: "à¤ {à¤à¥à¤·} à¤ à¤ à¤ à¤ à¤ à¤ {à¤à¥à¤} à¤ à¤ à¤ à¤  à¤¡ {à¤¡à¤} à¤¢ à¤£ à¤¤ {à¤¤à¥à¤°} à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤µ à¤¶ {à¤¶à¥à¤°} à¤· à¤¸ à¤¹"
   auxiliary: "à¤ {à¤à¤} {à¤à¤} à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¥¡ à¤ à¤ à¤ à¤"
   marks: "âà¤ âà¤ âà¤ âà¤º âà¤» âà¤¼ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥"
   numerals: "à¥¦ à¥§ à¥¨ à¥© à¥ª à¥« à¥¬ à¥­ à¥® à¥¯ 0 1 2 3 4 5 6 7 8 9"
diff --git a/Lib/gflanguages/data/languages/ml_Mlym.textproto b/Lib/gflanguages/data/languages/ml_Mlym.textproto
index 6b7e35675e..2cca78678a 100644
--- a/Lib/gflanguages/data/languages/ml_Mlym.textproto
+++ b/Lib/gflanguages/data/languages/ml_Mlym.textproto
@@ -13,7 +13,7 @@ region: "MY"
 region: "QA"
 region: "SG"
 exemplar_chars {
-  base: "ââ à´ à´ à´ à´ à´ à´ à´ à´ àµ  à´ àµ¡ à´ à´ à´ à´ à´ à´ à´ àµ¿ à´ à´ à´ à´ à´ à´ à´ à´ à´ à´ à´  à´¡ à´¢ à´£ àµº à´¤ à´¥ à´¦ à´§ à´¨ àµ» à´ª à´« à´¬ à´­ à´® à´ à´¯ à´° àµ¼ à´² àµ½ à´µ à´¶ à´· à´¸ à´¹ à´³ àµ¾ à´´ à´± à´¾ à´¿ àµ àµ àµ àµ àµ àµ àµ àµ àµ àµ àµ àµ"
+  base: "ââ à´ à´ à´ à´ à´ à´ à´ à´ àµ  à´ àµ¡ à´ à´ à´ à´ à´ à´ à´ àµ¿ à´ à´ à´ à´ à´ à´ à´ à´ à´ à´ à´  à´¡ à´¢ à´£ àµº à´¤ à´¥ à´¦ à´§ à´¨ àµ» à´ª à´« à´¬ à´­ à´® à´ à´¯ à´° àµ¼ à´² àµ½ à´µ à´¶ à´· à´¸ à´¹ à´³ àµ¾ à´´ à´±"
   auxiliary: ""
   marks: "âà´ âà´ âà´¾ âà´¿ âàµ âàµ âàµ âàµ âàµ âàµ âàµ âàµ âàµ"
   numerals: "- , . % + 0àµ¦ 1àµ§ 2àµ¨ 3àµ© 4àµª 5àµ« 6àµ¬ 7àµ­ 8àµ® 9àµ¯"
diff --git a/Lib/gflanguages/data/languages/mni_Beng.textproto b/Lib/gflanguages/data/languages/mni_Beng.textproto
index 4bb9b29264..98861a91a1 100644
--- a/Lib/gflanguages/data/languages/mni_Beng.textproto
+++ b/Lib/gflanguages/data/languages/mni_Beng.textproto
@@ -7,9 +7,9 @@ population: 1476590
 region: "BD"
 region: "IN"
 exemplar_chars {
-  base: "à¦¼ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦  à¦¡ {à¦¡à¦¼} à¦¢ {à¦¢à¦¼} à¦£ à¦¤ à¦¥ à¦¦ à¦§ à¦¨ à¦ª à¦« à¦¬ à¦­ à¦® à¦¯ {à¦¯à¦¼} à¦° à¦² à§± à¦¶ à¦· à¦¸ à¦¹ à¦¾ à¦¿ à§ à§ à§ à§ à§ à§ à§ à§ à§"
+  base: "à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦ à¦  à¦¡ {à¦¡à¦¼} à¦¢ {à¦¢à¦¼} à¦£ à¦¤ à¦¥ à¦¦ à¦§ à¦¨ à¦ª à¦« à¦¬ à¦­ à¦® à¦¯ {à¦¯à¦¼} à¦° à¦² à§± à¦¶ à¦· à¦¸ à¦¹"
   auxiliary: "ââ"
-  marks: "âà¦ âà¦ âà¦ âà¦¼ âà¦¾ âà¦¿ âà§ âà§ âà§ âà§ âà§"
+  marks: "âà¦ âà¦ âà¦ âà¦¼ âà¦¾ âà¦¿ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§ âà§"
   numerals: "- , . % + 0à§¦ 1à§§ 2à§¨ 3à§© 4à§ª 5à§« 6à§¬ 7à§­ 8à§® 9à§¯"
   punctuation: "- â â , ; : ! ? . â¦ \' â â \" â â ( ) [ ] @ * / & #"
 }
diff --git a/Lib/gflanguages/data/languages/mr_Deva.textproto b/Lib/gflanguages/data/languages/mr_Deva.textproto
index 6d1401f829..9c9423cfcc 100644
--- a/Lib/gflanguages/data/languages/mr_Deva.textproto
+++ b/Lib/gflanguages/data/languages/mr_Deva.textproto
@@ -6,9 +6,9 @@ autonym: "à¤®à¤°à¤¾à¤ à¥"
 population: 92826300
 region: "IN"
 exemplar_chars {
-  base: "à¤¼ à¥ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤± à¤² à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤³ à¤½ à¤¾ à¤¿ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥"
+  base: "à¥ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤± à¤² à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤³ à¤½"
   auxiliary: "ââ"
-  marks: "âà¤ âà¤ âà¤ âà¤¼ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥"
+  marks: "âà¤ âà¤ âà¤ âà¤¼ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥"
   numerals: "- , . % + 0à¥¦ 1à¥§ 2à¥¨ 3à¥© 4à¥ª 5à¥« 6à¥¬ 7à¥­ 8à¥® 9à¥¯"
   punctuation: "- â â , ; : ! ? . â¦ \' â â \" â â ( ) [ ] @ * / & #"
   index: "â à¥ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤³ à¤½ à¥ à¥"
diff --git a/Lib/gflanguages/data/languages/my_Mymr.textproto b/Lib/gflanguages/data/languages/my_Mymr.textproto
index f142839ef0..ff75fa35fe 100644
--- a/Lib/gflanguages/data/languages/my_Mymr.textproto
+++ b/Lib/gflanguages/data/languages/my_Mymr.textproto
@@ -7,7 +7,8 @@ population: 36559231
 region: "BD"
 region: "MM"
 exemplar_chars {
-  base: "á á á á á á á á á á á á á á á á á á á á á á á á á á á á á á á á á  á¡ á£ á á¤ á¥ á¦ á§ á© áª á¬ á« á­ á® á¯ á° á± á² á¶ á¿ á» á¼ á½ á¾ á¹ áº á· á¸"
+  base: "á á á á á á á á á á á á á á á á á á á á á á á á á á á á á á á á á  á¡ á£ á á¤ á¥ á¦ á§ á© áª á¬ á«  á± á¿"
+  marks: "'âá­ âá® âá¯ âá° âá² âá¶ âá½  á± á² á¶ á» á¼ á½ á¾ á¹ áº á· á¸"
   auxiliary: "áá áá áá áá áá áá áá áá áá áá áµ á á½ á¾ á á á¥ á¨ á¢ á á á á á³ á á á á á´ á¢ á á¤ á á á"
   numerals: "- , . % + 0á 1á 2á 3á 4á 5á 6á 7á 8á 9á"
   punctuation: "á á â â â â"
diff --git a/Lib/gflanguages/data/languages/ne_Deva.textproto b/Lib/gflanguages/data/languages/ne_Deva.textproto
index c5a655dcc3..bc30c6f05a 100644
--- a/Lib/gflanguages/data/languages/ne_Deva.textproto
+++ b/Lib/gflanguages/data/languages/ne_Deva.textproto
@@ -8,9 +8,9 @@ region: "BT"
 region: "IN"
 region: "NP"
 exemplar_chars {
-  base: "à¤¼ à¤ à¤ à¤ à¥ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤³ à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤½ à¤¾ à¤¿ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥"
+  base: "à¥ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤³ à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤½"
   auxiliary: "ââ"
-  marks: "âà¤ âà¤ âà¤ âà¤¼ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥"
+  marks: "âà¤ âà¤ âà¤ âà¤¼ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥"
   numerals: "- , . % + 0à¥¦ 1à¥§ 2à¥¨ 3à¥© 4à¥ª 5à¥« 6à¥¬ 7à¥­ 8à¥® 9à¥¯"
   punctuation: "- â , ; ! ? à¥¤ \' â â \" â â ( ) [ ] { }"
   index: "à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤µ à¤¶ à¤· à¤¸ à¤¹"
diff --git a/Lib/gflanguages/data/languages/or_Orya.textproto b/Lib/gflanguages/data/languages/or_Orya.textproto
index 2d7d7e2d8b..cf5ebeee90 100644
--- a/Lib/gflanguages/data/languages/or_Orya.textproto
+++ b/Lib/gflanguages/data/languages/or_Orya.textproto
@@ -6,8 +6,9 @@ autonym: "à¬à¬¡à¬¼à¬¿à¬"
 population: 42434880
 region: "IN"
 exemplar_chars {
-  base: "à¬¼ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬  à¬¡ {à¬¡à¬¼} à¬¢ {à¬¢à¬¼} à¬£ à¬¤ à¬¥ à¬¦ à¬§ à¬¨ à¬ª à¬« à¬¬ à¬­ à¬® à¬¯ à­ à¬° à¬² à¬³ à¬µ à­± à¬¶ à¬· à¬¸ à¬¹ à¬¾ à¬¿ à­ à­ à­ à­ à­ à­ à­ à­ à­"
+  base: "à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬  à¬¡ {à¬¡à¬¼} à¬¢ {à¬¢à¬¼} à¬£ à¬¤ à¬¥ à¬¦ à¬§ à¬¨ à¬ª à¬« à¬¬ à¬­ à¬® à¬¯ à­ à¬° à¬² à¬³ à¬µ à­± à¬¶ à¬· à¬¸ à¬¹"
   auxiliary: "ââ"
+  marks: "âà¬¼ âà¬ âà¬ âà¬ âà¬¾ âà¬¿ âà­ âà­ âà­ âà­ âà­ âà­ âà­ âà­ âà­"
   numerals: "- , . % + 0à­¦ 1à­§ 2à­¨ 3à­© 4à­ª 5à­« 6à­¬ 7à­­ 8à­® 9à­¯"
   punctuation: "- â â , ; : ! ? . â¦ \' â â \" â â ( ) [ ] @ * / & #"
   index: "à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬ à¬  à¬¡ à¬¢ à¬£ à¬¤ à¬¥ à¬¦ à¬§ à¬¨ à¬ª à¬« à¬¬ à¬­ à¬® à¬¯ à¬° à¬² à¬³ à¬¶ à¬· à¬¸ à¬¹ {à¬à­à¬·}"
diff --git a/Lib/gflanguages/data/languages/pa_Guru.textproto b/Lib/gflanguages/data/languages/pa_Guru.textproto
index 234716d05c..d59c44d4ca 100644
--- a/Lib/gflanguages/data/languages/pa_Guru.textproto
+++ b/Lib/gflanguages/data/languages/pa_Guru.textproto
@@ -9,9 +9,9 @@ region: "IN"
 region: "KE"
 region: "SG"
 exemplar_chars {
-  base: "à©± à©° à¨¼ à©¦ à©§ à©¨ à©© à©ª à©« à©¬ à©­ à©® à©¯ à©´ à©³ à¨ à¨ à¨ à¨ à¨ à¨ à¨ à©² à¨ à¨ à¨ à¨¸ {à¨¸à¨¼} à¨¹ à¨ à¨ {à¨à¨¼} à¨ {à¨à¨¼} à¨ à¨ à¨ à¨ à¨ {à¨à¨¼} à¨ à¨ à¨ à¨  à¨¡ à¨¢ à¨£ à¨¤ à¨¥ à¨¦ à¨§ à¨¨ à¨ª à¨« {à¨«à¨¼} à¨¬ à¨­ à¨® à¨¯ à¨° à¨² à¨µ à© à© à¨¾ à¨¿ à© à© à© à© à© à© à©"
+  base: "à©¦ à©§ à©¨ à©© à©ª à©« à©¬ à©­ à©® à©¯ à©´ à©³ à¨ à¨ à¨ à¨ à¨ à¨ à¨ à©² à¨ à¨ à¨ à¨¸ {à¨¸à¨¼} à¨¹ à¨ à¨ {à¨à¨¼} à¨ {à¨à¨¼} à¨ à¨ à¨ à¨ à¨ {à¨à¨¼} à¨ à¨ à¨ à¨  à¨¡ à¨¢ à¨£ à¨¤ à¨¥ à¨¦ à¨§ à¨¨ à¨ª à¨« {à¨«à¨¼} à¨¬ à¨­ à¨® à¨¯ à¨° à¨² à¨µ à©"
   auxiliary: "ââ à¨ à¨ à¨ {à¨²à¨¼}"
-  marks: "âà¨¼ âà¨¾ âà¨¿ âà© âà© âà© âà© âà© âà© âà©"
+  marks: "âà¨¼ âà¨¾ âà¨¿ âà© âà© âà© âà© âà© âà© âà© à©± à©° à¨¼  à© à¨¾ à¨¿ à© à© à© à© à© à© à©"
   numerals: "- , . % + 0à©¦ 1à©§ 2à©¨ 3à©© 4à©ª 5à©« 6à©¬ 7à©­ 8à©® 9à©¯"
   punctuation: "- â â , ; : ! ? . \' â â \" â â ( ) [ ] / &"
   index: "à©³ à¨ à©² à¨¸ à¨¹ à¨ à¨ à¨ à¨ à¨ à¨ à¨ à¨ à¨ à¨ à¨ à¨  à¨¡ à¨¢ à¨£ à¨¤ à¨¥ à¨¦ à¨§ à¨¨ à¨ª à¨« à¨¬ à¨­ à¨® à¨¯ à¨° à¨² à¨µ à©"
diff --git a/Lib/gflanguages/data/languages/sa_Deva.textproto b/Lib/gflanguages/data/languages/sa_Deva.textproto
index e95875cdc5..9b7309fad2 100644
--- a/Lib/gflanguages/data/languages/sa_Deva.textproto
+++ b/Lib/gflanguages/data/languages/sa_Deva.textproto
@@ -6,9 +6,9 @@ autonym: "à¤¸à¤à¤¸à¥à¤à¥à¤¤à¤®à¥"
 population: 15913
 region: "IN"
 exemplar_chars {
-  base: "à¥ à¥ à¤¼ à¤ à¤ à¤ à¥ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¥  à¤ à¥¡ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤³ à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤½ à¤¾ à¤¿ à¥ à¥ à¥ à¥ à¥ à¥¢ à¥£ à¥ à¥ à¥ à¥ à¥"
+  base: "à¥ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¥  à¤ à¥¡ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤³ à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤½"
   auxiliary: "ââ à¤ à¤ à¥ à¥"
-  marks: "âà¤ âà¤ âà¤ âà¤¼ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥"
+  marks: "âà¤ âà¤ âà¤ âà¤¼ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥¢ âà¥£"
   numerals: "- , . % + 0à¥¦ 1à¥§ 2à¥¨ 3à¥© 4à¥ª 5à¥« 6à¥¬ 7à¥­ 8à¥® 9à¥¯"
   punctuation: "_ - â â , ; : ! ? . â¦ \' â â \" â â ( ) [ ] { } @ * / \\ & #` + | ~"
   index: "à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¥  à¤ à¥¡ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤  à¤¡ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¤­ à¤® à¤¯ à¤° à¤² à¤³ à¤µ à¤¶ à¤· à¤¸ à¤¹"
diff --git a/Lib/gflanguages/data/languages/sd_Deva.textproto b/Lib/gflanguages/data/languages/sd_Deva.textproto
index 619932d82c..6accca24f6 100644
--- a/Lib/gflanguages/data/languages/sd_Deva.textproto
+++ b/Lib/gflanguages/data/languages/sd_Deva.textproto
@@ -6,9 +6,9 @@ autonym: "à¤¸à¤¿à¤¨à¥à¤§à¥"
 population: 344783
 region: "IN"
 exemplar_chars {
-  base: "à¤¼ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¥» à¤ à¤ à¤ à¤ à¤ à¥¼ à¤ à¤ à¤ à¤  à¤¡ à¥¾ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¥¿ à¤­ à¤® à¤¯ à¤° à¤² à¤µ à¤¶ à¤· à¤¸ à¤¹ à¤¾ à¤¿ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥ à¥"
+  base: "à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¤ à¥» à¤ à¤ à¤ à¤ à¤ à¥¼ à¤ à¤ à¤ à¤  à¤¡ à¥¾ à¤¢ à¤£ à¤¤ à¤¥ à¤¦ à¤§ à¤¨ à¤ª à¤« à¤¬ à¥¿ à¤­ à¤® à¤¯ à¤° à¤² à¤µ à¤¶ à¤· à¤¸ à¤¹"
   auxiliary: "ââ"
-  marks: "âà¤ âà¤ âà¤ âà¤¼ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥"
+  marks: "âà¤ âà¤ âà¤ âà¤¼ âà¤¾ âà¤¿ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥ âà¥"
   numerals: "- , . % + 0 1 2 3 4 5 6 7 8 9"
   punctuation: "- â â , ; : ! ? . â¦ \' â â \" â â ( ) [ ] @ * / & #"
 }
diff --git a/Lib/gflanguages/data/languages/si_Sinh.textproto b/Lib/gflanguages/data/languages/si_Sinh.textproto
index b9019069f3..9cc0295ee3 100644
--- a/Lib/gflanguages/data/languages/si_Sinh.textproto
+++ b/Lib/gflanguages/data/languages/si_Sinh.textproto
@@ -6,7 +6,8 @@ autonym: "à·à·à¶à·à¶½"
 population: 15564656
 region: "LK"
 exemplar_chars {
-  base: "à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶  à¶¡ à¶¢ à¶£ à¶¥ à¶¤ à¶§ à¶¨ à¶© à¶ª à¶« à¶¬ à¶­ à¶® à¶¯ à¶° à¶± à¶³ à¶´ à¶µ à¶¶ à¶· à¶¸ à¶¹ à¶º à¶» à¶½ à· à· à· à· à· à· à· à· à· à· à· à· à· à· à· à·² à· à· à· à· à· à· à· à·"
+  base: "à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶ à¶  à¶¡ à¶¢ à¶£ à¶¥ à¶¤ à¶§ à¶¨ à¶© à¶ª à¶« à¶¬ à¶­ à¶® à¶¯ à¶° à¶± à¶³ à¶´ à¶µ à¶¶ à¶· à¶¸ à¶¹ à¶º à¶» à¶½ à· à· à· à· à· à· à·"
+  marks: " à· à· à· à· à· à· à· à· à·² à· à· à· à· à· à· à· à·"
   auxiliary: "âââ à¶ à¶ à¶ à¶¦ à·³"
   numerals: "- , . % + 0 1 2 3 4 5 6 7 8 9"
   punctuation: "- â â , ; : ! ? . â¦ \' â â \" â â ( ) [ ] @ * / & #"
diff --git a/Lib/gflanguages/data/languages/ta_Taml.textproto b/Lib/gflanguages/data/languages/ta_Taml.textproto
index a64d44b96a..a12cce18cb 100644
--- a/Lib/gflanguages/data/languages/ta_Taml.textproto
+++ b/Lib/gflanguages/data/languages/ta_Taml.textproto
@@ -11,7 +11,7 @@ region: "MY"
 region: "RE"
 region: "SG"
 exemplar_chars {
-  base: "à® à® à® à® à® à® à® à® à® à® à® à® à® à® à® à® à® à® à®£ à®¤ à®¨ à®ª à®® à®¯ à®° à®² à®µ à®´ à®³ à®± à®© à® à®· à®¸ à®¹ à®¾ à®¿ à¯ à¯ à¯ à¯ à¯ à¯ à¯ à¯ à¯ à¯"
+  base: "à® à® à® à® à® à® à® à® à® à® à® à® à® à® à® à® à® à® à®£ à®¤ à®¨ à®ª à®® à®¯ à®° à®² à®µ à®´ à®³ à®± à®© à® à®· à®¸ à®¹ à®¾ à®¿  à¯ à¯ à¯ à¯ à¯ à¯ à¯ à¯ "
   auxiliary: "ââ"
   marks: "âà®¾ âà®¿ âà¯ âà¯ âà¯ âà¯ âà¯ âà¯ âà¯ âà¯"
   numerals: "- , . % + 0à¯¦ 1à¯§ 2à¯¨ 3à¯© 4à¯ª 5à¯« 6à¯¬ 7à¯­ 8à¯® 9à¯¯"
diff --git a/Lib/gflanguages/data/languages/te_Telu.textproto b/Lib/gflanguages/data/languages/te_Telu.textproto
index e1e401f023..cd1575da19 100644
--- a/Lib/gflanguages/data/languages/te_Telu.textproto
+++ b/Lib/gflanguages/data/languages/te_Telu.textproto
@@ -6,9 +6,9 @@ autonym: "à°¤à±à°²à±à°à±"
 population: 95478480
 region: "IN"
 exemplar_chars {
-  base: "à° à° à° à° à° à° à° à±  à° à±¡ à° à° à° à° à° à° à° à° à° à° à° à° à° à° à° à° à° à° à° à° à°  à°¡ à°¢ à°£ à°¤ à°¥ à°¦ à°§ à°¨ à°ª à°« à°¬ à°­ à°® à°¯ à°° à°± à°² à°µ à°¶ à°· à°¸ à°¹ à°³ à°¾ à°¿ à± à± à± à± à± à± à± à± à± à± à± à± à± à±"
+  base: "à° à° à° à° à° à° à° à±  à° à±¡ à° à° à° à° à° à° à° à° à° à° à° à° à° à° à° à° à° à°  à°¡ à°¢ à°£ à°¤ à°¥ à°¦ à°§ à°¨ à°ª à°« à°¬ à°­ à°® à°¯ à°° à°± à°² à°µ à°¶ à°· à°¸ à°¹ à°³"
   auxiliary: "ââ à±¦ à±§ à±¨ à±© à±ª à±« à±¬ à±­ à±® à±¯"
-  marks: "âà° âà° âà° âà°¾ âà°¿ âà± âà± âà± âà± âà± âà± âà± âà± âà± âà± âà± âà± âà±¢ âà±£"
+  marks: "âà° âà° âà° âà°¾ âà°¿ âà± âà± âà± âà± âà± âà± âà± âà± âà± âà± âà± âà± âà±¢ âà±£ âà± âà±"
   numerals: "- , . % + 0à±¦ 1à±§ 2à±¨ 3à±© 4à±ª 5à±« 6à±¬ 7à±­ 8à±® 9à±¯"
   punctuation: "- , ; : ! ? . \' â â \" â â ( ) [ ] { }"
   index: "à° à° à° à° à° à° à° à±  à° à° à° à° à° à° à° à° à° à° à° à° à° à° à° à° à° à°  à°¡ à°¢ à°£ à°¤ à°¥ à°¦ à°§ à°¨ à°ª à°« à°¬ à°­ à°® à°¯ à°° à°± à°² à°µ à°¶ à°· à°¸ à°¹ à°³"
diff --git a/Lib/gflanguages/data/languages/th_Thai.textproto b/Lib/gflanguages/data/languages/th_Thai.textproto
index e7e569aafb..99ac6288bc 100644
--- a/Lib/gflanguages/data/languages/th_Thai.textproto
+++ b/Lib/gflanguages/data/languages/th_Thai.textproto
@@ -6,9 +6,9 @@ autonym: "à¸ à¸²à¸©à¸²à¹à¸à¸¢"
 population: 55181920
 region: "TH"
 exemplar_chars {
-  base: "à¸¯ à¹ à¹ à¹ à¹ à¹ à¹ à¹ à¹ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸  à¸¡ à¸¢ à¸£ à¸¤ à¸¥ à¸¦ à¸§ à¸¨ à¸© à¸ª à¸« à¸¬ à¸­ à¸® à¹ à¸° à¸± à¸² à¹ à¸³ à¸´ à¸µ à¸¶ à¸· à¸¸ à¸¹ à¹ à¹ à¹ à¹ à¹ à¸º"
+  base: "à¸¯ à¹ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸  à¸¡ à¸¢ à¸£ à¸¤ à¸¥ à¸¦ à¸§ à¸¨ à¸© à¸ª à¸« à¸¬ à¸­ à¸® à¸° à¸² à¹ à¸³ à¹ à¹ à¹ à¹ à¹"
   auxiliary: "â"
-  marks: "âà¸± âà¸´ âà¸¸ âà¸¹ âà¹ âà¹"
+  marks: "âà¸± âà¸´ âà¸¸ âà¸¹ âà¹ âà¹ âà¹ âà¹ âà¹ âà¹ âà¹ âà¹ âà¸µ âà¸¶ âà¸· âà¸º"
   numerals: "% , - . + 0 1 2 3 4 5 6 7 8 9"
   punctuation: "! \" # \' ( ) * , - . / : @ [ ] â â â â â â â¦"
   index: "à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸ à¸  à¸¡ à¸¢ à¸£ à¸¤ à¸¥ à¸¦ à¸§ à¸¨ à¸© à¸ª à¸« à¸¬ à¸­ à¸®"
diff --git a/Lib/gflanguages/data/languages/ti_Ethi.textproto b/Lib/gflanguages/data/languages/ti_Ethi.textproto
index 8f55c0080e..0a4761cb59 100644
--- a/Lib/gflanguages/data/languages/ti_Ethi.textproto
+++ b/Lib/gflanguages/data/languages/ti_Ethi.textproto
@@ -8,7 +8,8 @@ region: "ER"
 region: "ET"
 region: "IL"
 exemplar_chars {
-  base: "á á-á á-á á á-á á-á á á-á á -á á á-á á-á® á° á²-áµ á¸-á¾ á á-á á-á á-á á-á® á°-á· á-á á á-á á -á"
+  base: "á-á á-á á á-á á-á á á-á á -á á á-á á-á® á° á²-áµ á¸-á¾ á á-á á-á á-á á-á® á°-á· á-á á á-á á -á"
+  marks: "á"
   auxiliary: "á á á á á á á á á á á â¶ á á á á â¶ â¶ â¶ â¶ á á á á á â¶ â¶ â¶ á â¶ â¶ â¶ á¯ á â¶ á¯ â¶ á¸ á¹ áº á» á¼ á½ á¾ á¿ â¶ â¶ á á á á á á á á á â¶ â¶ â¶ â¶ â¶ â¶ â¶ á á á á á á á á â¶ á á á â¶  â¶¡ â¶¢ â¶£ â¶¤ â¶¥ â¶¦ â¶¨ â¶© â¶ª â¶« â¶¬ â¶­ â¶® â¶° â¶± â¶² â¶³ â¶´ â¶µ â¶¶ â¶¸ â¶¹ â¶º â¶» â¶¼ â¶½ â¶¾ â· â· â· â· â· â· â· â· â· â· â· â· â· â· â· â· â· â· â· â· â· â· â· â· â· â· â· â·"
   numerals: "- , . % + 0 1 2 3 4 5 6 7 8 9"
   index: "á á á á á  á¨ á° á¸ á á á á á  á¨ á° á¸ á á á á á  á¨ á° á¸ á á á á á  á¨ á° á á á á  á¨ á° á¸ á á á"
diff --git a/Lib/gflanguages/data/scripts/Dupl.textproto b/Lib/gflanguages/data/scripts/Dupl.textproto
index 870ef699f7..5db3999139 100644
--- a/Lib/gflanguages/data/scripts/Dupl.textproto
+++ b/Lib/gflanguages/data/scripts/Dupl.textproto
@@ -1,4 +1,4 @@
 id: "Dupl"
 name: "Duployan shorthand"
-family: "American"
-summary: "Duployan shorthand (Sloan-Duployan shorthand, Duployan stenography) is an European alphabet, written left-to-right. Geometric stenography script created in 1860 by Father Ãmile DuployÃ© for writing French, later expanded and adapted for writing English, Chinook Jargon and many others. Heavily cursive (connected), allows words to be written in a single stroke. Praised for simplicity and speed of writing. Needs software support for complex text layout (shaping)."
+family: "European"
+summary: "Duployan shorthand (Sloan-Duployan shorthand, Duployan stenography) is a European alphabet, written left-to-right. Geometric stenography script created in 1860 by Father Ãmile DuployÃ© for writing French, later expanded and adapted for writing English, Chinook Jargon and many others. Heavily cursive (connected), allows words to be written in a single stroke. Praised for simplicity and speed of writing. Needs software support for complex text layout (shaping)."
diff --git a/Lib/gflanguages/data/scripts/Todr.textproto b/Lib/gflanguages/data/scripts/Todr.textproto
index 4b2d440554..54c4215db5 100644
--- a/Lib/gflanguages/data/scripts/Todr.textproto
+++ b/Lib/gflanguages/data/scripts/Todr.textproto
@@ -1,3 +1,6 @@
 id: "Todr"
 name: "Todhri"
+historical: true
+family: "European"
+summary: "Todhri is a historical European bicameral alphabet, written left-to-right. Created in the late 18th century by Theodor Haxhifilipi for the Albanian language."
 
diff --git a/snippets/fix-exemplars-bases.py b/snippets/fix-exemplars-bases.py
new file mode 100644
index 0000000000..8623a5fd03
--- /dev/null
+++ b/snippets/fix-exemplars-bases.py
@@ -0,0 +1,56 @@
+from collections import Counter
+import unicodedata
+from google.protobuf import text_format
+from gflanguages import languages_public_pb2
+
+ATTRIBUTES = "base auxiliary marks punctuation index".split(" ")
+
+
+def main(args=None):
+    for path in args:
+        with open(path, encoding="utf-8") as fp:
+            language = text_format.Parse(
+                fp.read(), languages_public_pb2.LanguageProto()
+            )
+        changed = False
+        exemplar_values = {}
+        bases = language.exemplar_chars.base.split(" ")
+        marks = language.exemplar_chars.marks.split(" ")
+        if not len(bases) or bases == [""]:
+            continue
+        new_marks = []
+        new_bases = []
+        for chars in marks:
+            if not chars:
+                continue
+            if chars[0] != "\u25CC":
+                chars = "\u25CC" + chars
+            if chars not in new_marks:
+                new_marks.append(chars)
+
+        for chars in bases:
+            if not chars:
+                continue
+            if chars[0] == "\u25CC":
+                chars = chars[1:]
+            cat = unicodedata.category(chars[0])
+            if cat in ["Mn", "Mc"]:
+                if chars[0] != "\u25CC":
+                    chars = "\u25CC" + chars
+                if chars not in new_marks:
+                    new_marks.append(chars)
+            else:
+                new_bases.append(chars)
+
+        language.exemplar_chars.base = " ".join(new_bases)
+        language.exemplar_chars.marks = " ".join(new_marks)
+
+        with open(path, "w", encoding="utf-8") as fp:
+            fp.write(text_format.MessageToString(language, as_utf8=True))
+            fp.close()
+
+
+if __name__ == "__main__":
+    import sys
+
+    main(args=sys.argv[1:])
diff --git a/tests/test_data_languages.py b/tests/test_data_languages.py
index 823a5791dd..9b9ef8c84d 100644
--- a/tests/test_data_languages.py
+++ b/tests/test_data_languages.py
@@ -83,7 +83,9 @@ SKIP_REGION = {
     "tlh_Latn": "Klingon is an artifical language.",
 }
 
-LANGUAGE_NAME_REGEX = regex.compile(r"^[-'âÊ¼\p{L} ]+(, [-'âÊ¼\p{L}/ ]+)?( [(][-'âÊ¼\p{L} ]+[)])?$")
+LANGUAGE_NAME_REGEX = regex.compile(
+    r"^[-'âÊ¼\p{L} ]+(, [-'âÊ¼\p{L}/ ]+)?( [(][-'âÊ¼\p{L} ]+[)])?$"
+)
 # Some scripts have abbreviated names for reference in language names that are
 # sufficient in context. If an alternate is listed here, it should be used
 # universally and consistently across all language names.
@@ -96,8 +98,7 @@ ALTERNATE_SCRIPT_NAMES = {
 
 @pytest.mark.parametrize("lang_code", LANGUAGES)
 @pytest.mark.parametrize(
-    "exemplar_name", ["base", "auxiliary", "marks",
-                      "numerals", "punctuation", "index"]
+    "exemplar_name", ["base", "auxiliary", "marks", "numerals", "punctuation", "index"]
 )
 def test_languages_exemplars_canonical_duplicates(lang_code, exemplar_name):
     lang = LANGUAGES[lang_code]
@@ -116,15 +117,13 @@ def test_languages_exemplars_canonical_duplicates(lang_code, exemplar_name):
 
 @pytest.mark.parametrize("lang_code", LANGUAGES)
 @pytest.mark.parametrize(
-    "exemplar_name", ["base", "auxiliary", "marks",
-                      "numerals", "punctuation", "index"]
+    "exemplar_name", ["base", "auxiliary", "marks", "numerals", "punctuation", "index"]
 )
 def test_languages_exemplars_duplicates(lang_code, exemplar_name):
     lang = LANGUAGES[lang_code]
     exemplar = getattr(lang.exemplar_chars, exemplar_name).split()
     counter = Counter(exemplar)
-    counts = sorted(counter.most_common(),
-                    key=lambda pair: exemplar.index(pair[0]))
+    counts = sorted(counter.most_common(), key=lambda pair: exemplar.index(pair[0]))
     assert counts == [(v, 1) for v in exemplar]
 
 
@@ -143,6 +142,21 @@ def test_exemplars_bracketed_sequences(lang_code, exemplar_name):
             assert len(chars[1:-1]) > 1
 
 
+@pytest.mark.parametrize("lang_code", LANGUAGES)
+def test_languages_exemplars_marks_in_base(lang_code):
+    lang = LANGUAGES[lang_code]
+    bases = lang.exemplar_chars.base
+    problems = []
+    for chars in bases.split():
+        if len(chars) > 1:
+            chars = chars.lstrip("{").rstrip("}")
+        if unicodedata.category(chars[0]) == "Mn":
+            problems.append("\u25CC" + chars)
+        if "\u25CC" in chars:
+            problems.append(chars)
+    assert not problems, f"Found marks in base: {problems}"
+
+
 SampleText = languages_public_pb2.SampleTextProto().DESCRIPTOR
 ExemplarChars = languages_public_pb2.ExemplarCharsProto().DESCRIPTOR
 
@@ -224,8 +238,7 @@ def test_sample_texts_are_in_script(lang_code):
         "idu_Latn",
         "ban_Bali",
     ]:
-        pytest.xfail(
-            "These languages have known issues with their sample text")
+        pytest.xfail("These languages have known issues with their sample text")
         return
     lang = LANGUAGES[lang_code]
     script_name = SCRIPTS[lang.script].name
@@ -244,8 +257,7 @@ def test_sample_texts_are_in_script(lang_code):
         chars = set(samples)
         for char in chars:
             char_script = (
-                youseedee.ucd_data(ord(char)).get(
-                    "Script", "").replace("_", " ")
+                youseedee.ucd_data(ord(char)).get("Script", "").replace("_", " ")
             )
             if char_script == "Common" or char_script == "Inherited":
                 continue
@@ -290,29 +302,37 @@ def test_language_uniqueness():
         else:
             names[lang.name] += 1
     if any(count > 1 for count in names.values()):
-        duplicates = {name: count for name,
-                      count in names.items() if count > 1}
+        duplicates = {name: count for name, count in names.items() if count > 1}
         pytest.fail(f"Duplicate language names: {duplicates}")
 
 
 def test_language_name_structure():
     languages_with_bad_name_structure = {}
     for lang in LANGUAGES.values():
-        script_name = SCRIPTS[lang.script].name if lang.script not in ALTERNATE_SCRIPT_NAMES else ALTERNATE_SCRIPT_NAMES[lang.script]
+        script_name = (
+            SCRIPTS[lang.script].name
+            if lang.script not in ALTERNATE_SCRIPT_NAMES
+            else ALTERNATE_SCRIPT_NAMES[lang.script]
+        )
         names = [["name", lang.name]]
         if lang.preferred_name:
             names += [["preferred_name", lang.preferred_name]]
         bad_names = []
         for type, name in names:
             bad_structure = not regex.match(LANGUAGE_NAME_REGEX, name)
-            bad_script_suffix = name.endswith(
-                ")") and not name.endswith(f"({script_name})")
+            bad_script_suffix = name.endswith(")") and not name.endswith(
+                f"({script_name})"
+            )
             if bad_structure or bad_script_suffix:
                 bad_names.append(type)
         if len(bad_names) > 0:
             languages_with_bad_name_structure[lang.id] = bad_names
     if len(languages_with_bad_name_structure) > 0:
-        misstructured_language_names = [f"{language_id}" if len(
-            types) == 1 else f"{language_id}: {types}" for language_id, types in languages_with_bad_name_structure.items() if len(types) > 0]
+        misstructured_language_names = [
+            f"{language_id}" if len(types) == 1 else f"{language_id}: {types}"
+            for language_id, types in languages_with_bad_name_structure.items()
+            if len(types) > 0
+        ]
         pytest.fail(
-            f"Languages names without expected structure (\"LANGUAGE, MODIFIER (SCRIPT)\"): {misstructured_language_names}")
+            f'Languages names without expected structure ("LANGUAGE, MODIFIER (SCRIPT)"): {misstructured_language_names}'
+        )