Introduce a better query and document lexer

2024-11-25 19:45:05 +08:00 · 2020-08-15 20:37:13 +02:00 · 2020-08-15 20:37:13 +02:00 · 8806fcd545
commit 8806fcd545
parent 1e358e3ae8
7 changed files with 117 additions and 13 deletions
--- a/Cargo.lock
+++ b/Cargo.lock
@ -6,6 +6,15 @@ version = "0.2.2"
 source = "registry+https://github.com/rust-lang/crates.io-index"
 checksum = "ccc9a9dd069569f212bc4330af9f17c4afb5e8ce185e83dbb14f1349dda18b10"

+[[package]]
+name = "aho-corasick"
+version = "0.7.13"
+source = "registry+https://github.com/rust-lang/crates.io-index"
+checksum = "043164d8ba5c4c3035fec9bbee8647c0261d788f3474306f93bb65901cae0e86"
+dependencies = [
+ "memchr",
+]
+
 [[package]]
 name = "anyhow"
 version = "1.0.31"
@ -1002,6 +1011,7 @@ dependencies = [
 "askama_warp",
 "astar-iter",
 "bitpacking",
+ "bstr",
 "byteorder",
 "cow-utils",
 "criterion",
@ -1028,6 +1038,7 @@ dependencies = [
 "structopt",
 "tempfile",
 "tokio",
+ "unicode-linebreak",
 "warp",
 ]

@ -1631,7 +1642,10 @@ version = "1.3.9"
 source = "registry+https://github.com/rust-lang/crates.io-index"
 checksum = "9c3780fcf44b193bc4d09f36d2a3c87b251da4a046c87795a0d35f4f927ad8e6"
 dependencies = [
+ "aho-corasick",
+ "memchr",
 "regex-syntax",
+ "thread_local 1.0.1",
 ]

 [[package]]
@ -1849,7 +1863,7 @@ dependencies = [
 "chrono",
 "log 0.4.8",
 "termcolor",
- "thread_local",
+ "thread_local 0.3.4",
 ]

 [[package]]
@ -1964,6 +1978,15 @@ dependencies = [
 "unreachable",
 ]

+[[package]]
+name = "thread_local"
+version = "1.0.1"
+source = "registry+https://github.com/rust-lang/crates.io-index"
+checksum = "d40c6d1b69745a6ec6fb1ca717914848da4b44ae29d9b3080cbee91d72a69b14"
+dependencies = [
+ "lazy_static 1.4.0",
+]
+
 [[package]]
 name = "time"
 version = "0.1.43"
@ -2128,6 +2151,15 @@ dependencies = [
 "matches",
 ]

+[[package]]
+name = "unicode-linebreak"
+version = "0.1.0"
+source = "registry+https://github.com/rust-lang/crates.io-index"
+checksum = "4e30c7c3c3fa01e2c0da7008b57c2e5414b132a27fdf797e49e5ecbfe4f4b150"
+dependencies = [
+ "regex",
+]
+
 [[package]]
 name = "unicode-normalization"
 version = "0.1.12"
--- a/Cargo.toml
+++ b/Cargo.toml
@ -10,6 +10,7 @@ anyhow = "1.0.28"
 arc-cache = { git = "https://github.com/Kerollmops/rust-arc-cache.git", rev = "56530f2" }
 astar-iter = { git = "https://github.com/Kerollmops/astar-iter" }
 bitpacking = "0.8.2"
+bstr = "0.2.13"
 byteorder = "1.3.4"
 cow-utils = "0.1.2"
 csv = "1.1.3"
@ -29,6 +30,7 @@ smallstr = "0.2.0"
 smallvec = "1.4.0"
 structopt = { version = "0.3.14", default-features = false }
 tempfile = "3.1.0"
+unicode-linebreak = "0.1.0"

 # logging
 log = "0.4.8"
--- a/src/bin/indexer.rs
+++ b/src/bin/indexer.rs
@ -9,6 +9,7 @@ use std::time::Instant;

 use anyhow::Context;
 use arc_cache::ArcCache;
+use bstr::ByteSlice as _;
 use cow_utils::CowUtils;
 use fst::IntoStreamer;
 use heed::EnvOpenOptions;
@ -18,12 +19,11 @@ use memmap::Mmap;
 use oxidized_mtbl::{Reader, Writer, Merger, Sorter, CompressionType};
 use rayon::prelude::*;
 use roaring::RoaringBitmap;
-use slice_group_by::StrGroupBy;
 use structopt::StructOpt;

-use milli::{SmallVec32, Index, DocumentId, Position, Attribute};
+use milli::{lexer, SmallVec32, Index, DocumentId, Position, Attribute};

-const LMDB_MAX_KEY_LENGTH: usize = 512;
+const LMDB_MAX_KEY_LENGTH: usize = 511;
 const ONE_MILLION: usize = 1_000_000;

 const MAX_POSITION: usize = 1000;
@ -39,11 +39,6 @@ const WORD_ATTRIBUTE_DOCIDS_BYTE: u8 = 3;
 #[global_allocator]
 static ALLOC: jemallocator::Jemalloc = jemallocator::Jemalloc;

-pub fn simple_alphanumeric_tokens(string: &str) -> impl Iterator<Item = &str> {
-    let is_alphanumeric = |s: &&str| s.chars().next().map_or(false, char::is_alphanumeric);
-    string.linear_group_by_key(|c| c.is_alphanumeric()).filter(is_alphanumeric)
-}
-
 #[derive(Debug, StructOpt)]
 #[structopt(name = "milli-indexer", about = "The indexer binary of the milli project.")]
 struct Opt {
@ -345,7 +340,7 @@ where F: FnMut(&[u8], &[u8]) -> anyhow::Result<()>
    let mut iter = merger.into_merge_iter()?;
    while let Some(result) = iter.next() {
        let (k, v) = result?;
-        (f)(&k, &v)?;
+        (f)(&k, &v).with_context(|| format!("writing {:?} {:?} into LMDB", k.as_bstr(), k.as_bstr()))?;
    }

    debug!("MTBL stores merged in {:.02?}!", before.elapsed());
@ -389,7 +384,7 @@ fn index_csv(
        }

        for (attr, content) in document.iter().enumerate().take(MAX_ATTRIBUTES) {
-            for (pos, word) in simple_alphanumeric_tokens(&content).enumerate().take(MAX_POSITION) {
+            for (pos, word) in lexer::break_string(&content).enumerate().take(MAX_POSITION) {
                let word = word.cow_to_lowercase();
                let position = (attr * MAX_POSITION + pos) as u32;
                store.insert_word_position(&word, position)?;
--- a/src/lexer.rs
+++ b/src/lexer.rs
@ -0,0 +1,44 @@
+use unicode_linebreak::{linebreaks, BreakClass, break_property};
+
+fn can_be_broken(c: char) -> bool {
+    use BreakClass::*;
+
+    match break_property(c as u32) {
+          Ideographic
+        | Alphabetic
+        | Numeric
+        | CombiningMark
+        | WordJoiner
+        | NonBreakingGlue
+        | OpenPunctuation
+        | Symbol
+        | EmojiBase
+        | EmojiModifier
+        | HangulLJamo
+        | HangulVJamo
+        | HangulTJamo
+        | RegionalIndicator
+        | Quotation => false,
+        _ => true,
+    }
+}
+
+fn extract_token(s: &str) -> &str {
+    let end = s.char_indices().rev()
+        .take_while(|(_, c)| can_be_broken(*c))
+        .last()
+        .map(|(i, _)| i)
+        .unwrap_or(s.len());
+
+    &s[..end]
+}
+
+pub fn break_string(s: &str) -> impl Iterator<Item = &str> {
+    let mut prev = 0;
+    linebreaks(&s).map(move |(i, _)| {
+        let s = &s[prev..i];
+        prev = i;
+        extract_token(s)
+    })
+    .filter(|s| !s.is_empty())
+}
--- a/src/lib.rs
+++ b/src/lib.rs
@ -4,6 +4,7 @@ mod node;
 mod query_tokens;
 mod search;
 mod transitive_arc;
+pub mod lexer;

 use std::collections::HashMap;
 use std::fs::{File, OpenOptions};
--- a/src/query_tokens.rs
+++ b/src/query_tokens.rs
@ -1,4 +1,5 @@
 use std::{mem, str};
+use unicode_linebreak::{break_property, BreakClass};

 use QueryToken::{Quoted, Free};

@ -8,6 +9,7 @@ pub enum QueryToken<'a> {
    Quoted(&'a str),
 }

+#[derive(Debug)]
 enum State {
    Free(usize),
    Quoted(usize),
@ -67,8 +69,13 @@ impl<'a> Iterator for QueryTokens<'a> {
                    },
                    State::Fused => return None,
                }
-            }
-            else if !self.state.is_quoted() && !c.is_alphanumeric() {
+            } else if break_property(c as u32) == BreakClass::Ideographic {
+                match self.state.replace_by(State::Free(afteri)) {
+                    State::Quoted(s) => return Some(Quoted(&self.string[s..afteri])),
+                    State::Free(s) => return Some(Free(&self.string[s..afteri])),
+                    _ => self.state = State::Free(afteri),
+                }
+            } else if !self.state.is_quoted() && !c.is_alphanumeric() {
                match self.state.replace_by(State::Free(afteri)) {
                    State::Free(s) if i > s => return Some(Free(&self.string[s..i])),
                    _ => self.state = State::Free(afteri),
@ -83,6 +90,15 @@ mod tests {
    use super::*;
    use QueryToken::{Quoted, Free};

+    #[test]
+    fn empty() {
+        let mut iter = QueryTokens::new("");
+        assert_eq!(iter.next(), None);
+
+        let mut iter = QueryTokens::new(" ");
+        assert_eq!(iter.next(), None);
+    }
+
    #[test]
    fn one_quoted_string() {
        let mut iter = QueryTokens::new("\"hello\"");
@ -154,4 +170,14 @@ mod tests {
        assert_eq!(iter.next(), Some(Quoted("monde est beau")));
        assert_eq!(iter.next(), None);
    }
+
+    #[test]
+    fn chinese() {
+        let mut iter = QueryTokens::new("汽车男生");
+        assert_eq!(iter.next(), Some(Free("汽")));
+        assert_eq!(iter.next(), Some(Free("车")));
+        assert_eq!(iter.next(), Some(Free("男")));
+        assert_eq!(iter.next(), Some(Free("生")));
+        assert_eq!(iter.next(), None);
+    }
 }
--- a/src/search.rs
+++ b/src/search.rs
@ -217,6 +217,10 @@ impl<'a> Search<'a> {
            None => return Ok(Default::default()),
        };

+        if dfas.is_empty() {
+            return Ok(Default::default());
+        }
+
        let (derived_words, union_positions) = Self::fetch_words_positions(rtxn, index, &fst, dfas)?;
        let candidates = Self::compute_candidates(rtxn, index, &derived_words)?;