Bug 13064 - Indexing problem with ICU on control characters

author Fridolin Somers <fridolin.somers@biblibre.com>

Fri, 10 Oct 2014 13:06:45 +0000 (15:06 +0200)

committer Tomas Cohen Arazi <tomascohen@gmail.com>

Fri, 14 Nov 2014 15:03:12 +0000 (12:03 -0300)
author Fridolin Somers <fridolin.somers@biblibre.com>
Fri, 10 Oct 2014 13:06:45 +0000 (15:06 +0200)
committer Tomas Cohen Arazi <tomascohen@gmail.com>
Fri, 14 Nov 2014 15:03:12 +0000 (12:03 -0300)
diff --git a/etc/zebradb/etc/phrases-icu.xml b/etc/zebradb/etc/phrases-icu.xml

index b27b06a..076c5ac 100644 (file)
--- a/etc/zebradb/etc/phrases-icu.xml
+++ b/etc/zebradb/etc/phrases-icu.xml
@@ -1,5 +1,6 @@
 <icu_chain locale="">
-  <transform rule="[:Control:] Any-Remove"/>
+  <!-- Remove control characters except \t\n\r -->
+  <transform rule="[\x00-\x08\x0B\x0C\x0E-\x1F\x7F] Any-Remove"/>
   <tokenize rule="l"/>
   <transform rule="[:Punctuation:] Remove"/>
   <transform rule="NFD"/>
diff --git a/etc/zebradb/etc/words-icu.xml b/etc/zebradb/etc/words-icu.xml

index 38af51f..57498cb 100644 (file)
--- a/etc/zebradb/etc/words-icu.xml
+++ b/etc/zebradb/etc/words-icu.xml
@@ -1,7 +1,8 @@
 <icu_chain locale="">
   <transliterate rule="\'>\ "/>
   <transliterate rule="[:Number:] { '-' > '' "/>
-  <transform rule="[:Control:] Any-Remove"/>
+  <!-- Remove control characters except \t\n\r -->
+  <transform rule="[\x00-\x08\x0B\x0C\x0E-\x1F\x7F] Any-Remove"/>
   <tokenize rule="l"/>
   <transform rule="[[:WhiteSpace:][:Punctuation:]] Remove"/>
   <transform rule="NFD"/>
author	Fridolin Somers <fridolin.somers@biblibre.com>
	Fri, 10 Oct 2014 13:06:45 +0000 (15:06 +0200)
committer	Tomas Cohen Arazi <tomascohen@gmail.com>
	Fri, 14 Nov 2014 15:03:12 +0000 (12:03 -0300)
etc/zebradb/etc/phrases-icu.xml		patch \| blob \| history
etc/zebradb/etc/words-icu.xml		patch \| blob \| history