meilisearch/raptor-indexer/src/main.rs

// TODO make the raptor binary expose multiple subcommand
//      make only one binary

extern crate raptor;
extern crate serde_json;
#[macro_use] extern crate serde_derive;
extern crate unidecode;

use std::path::Path;
use std::collections::HashSet;
use std::fs::{self, File};
use std::io::{self, BufReader, BufRead};
use std::iter;

use raptor::{DocIndexMapBuilder, DocIndexMap, DocIndex};
use serde_json::from_str;
use unidecode::unidecode;

#[derive(Debug, Deserialize)]
struct Product {
    title: String,
    product_id: u64,
    ft: String,
}

fn set_readonly<P>(path: P, readonly: bool) -> io::Result<()>
where P: AsRef<Path>
{
    let mut perms = fs::metadata(&path)?.permissions();
    perms.set_readonly(readonly);
    fs::set_permissions(&path, perms)
}

fn main() {
    let data = File::open("products.json_lines").unwrap();
    let data = BufReader::new(data);

    let common_words = {
        match File::open("fr.stopwords.txt") {
            Ok(file) => {
                let file = BufReader::new(file);
                let mut set = HashSet::new();
                for line in file.lines().filter_map(|l| l.ok()) {
                    for word in line.split_whitespace() {
                        set.insert(word.to_owned());
                    }
                }
                set
            },
            Err(e) => {
                eprintln!("{:?}", e);
                HashSet::new()
            },
        }
    };

    let mut builder = DocIndexMapBuilder::new();
    for line in data.lines() {
        let line = line.unwrap();

        let product: Product = from_str(&line).unwrap();

        let title = iter::repeat(0).zip(product.title.split_whitespace()).filter(|&(_, w)| !common_words.contains(w)).enumerate();
        let description = iter::repeat(1).zip(product.ft.split_whitespace()).filter(|&(_, w)| !common_words.contains(w)).enumerate();

        let words = title.chain(description);
        for (i, (attr, word)) in words {
            let doc_index = DocIndex {
                document: product.product_id,
                attribute: attr,
                attribute_index: i as u32,
            };
            // insert the exact representation
            let word_lower = word.to_lowercase();

            // and the unidecoded lowercased version
            let word_unidecoded = unidecode(word).to_lowercase();
            if word_lower != word_unidecoded {
                builder.insert(word_unidecoded, doc_index);
            }

            builder.insert(word_lower, doc_index);
        }
    }

    let map = File::create("map.fst").unwrap();
    let values = File::create("values.vecs").unwrap();

    let (map, values) = builder.build(map, values).unwrap();

    set_readonly("map.fst", true).unwrap();
    set_readonly("values.vecs", true).unwrap();

    println!("Checking the dump consistency...");
    unsafe { DocIndexMap::from_paths("map.fst", "values.vecs").unwrap() };
}
cli: Make work to index json lines 2018-04-22 23:34:41 +08:00			`// TODO make the raptor binary expose multiple subcommand`
			`// make only one binary`

			`extern crate raptor;`
			`extern crate serde_json;`
chore: Rename bin into indexer 2018-06-24 07:28:27 +08:00			`#[macro_use] extern crate serde_derive;`
			`extern crate unidecode;`
cli: Make work to index json lines 2018-04-22 23:34:41 +08:00
chore: Rename bin into indexer 2018-06-24 07:28:27 +08:00			`use std::path::Path;`
map: Filter words a little bit 2018-04-23 00:10:01 +08:00			`use std::collections::HashSet;`
chore: Rename bin into indexer 2018-06-24 07:28:27 +08:00			`use std::fs::{self, File};`
			`use std::io::{self, BufReader, BufRead};`
feat: Make the parsing more generic over json 2018-05-13 21:12:15 +08:00			`use std::iter;`
cli: Make work to index json lines 2018-04-22 23:34:41 +08:00
feat: Define a `DocIndex` struct 2018-05-27 17:15:05 +08:00			`use raptor::{DocIndexMapBuilder, DocIndexMap, DocIndex};`
cli: Make work to index json lines 2018-04-22 23:34:41 +08:00			`use serde_json::from_str;`
chore: Rename bin into indexer 2018-06-24 07:28:27 +08:00			`use unidecode::unidecode;`

			`#[derive(Debug, Deserialize)]`
			`struct Product {`
			`title: String,`
			`product_id: u64,`
			`ft: String,`
			`}`

			`fn set_readonly<P>(path: P, readonly: bool) -> io::Result<()>`
			`where P: AsRef<Path>`
			`{`
			`let mut perms = fs::metadata(&path)?.permissions();`
			`perms.set_readonly(readonly);`
			`fs::set_permissions(&path, perms)`
			`}`
cli: Make work to index json lines 2018-04-22 23:34:41 +08:00
			`fn main() {`
			`let data = File::open("products.json_lines").unwrap();`
			`let data = BufReader::new(data);`

map: Filter words a little bit 2018-04-23 00:10:01 +08:00			`let common_words = {`
feat: Make the parsing more generic over json 2018-05-13 21:12:15 +08:00			`match File::open("fr.stopwords.txt") {`
			`Ok(file) => {`
			`let file = BufReader::new(file);`
			`let mut set = HashSet::new();`
			`for line in file.lines().filter_map(\|l\| l.ok()) {`
			`for word in line.split_whitespace() {`
			`set.insert(word.to_owned());`
			`}`
			`}`
			`set`
			`},`
			`Err(e) => {`
			`eprintln!("{:?}", e);`
			`HashSet::new()`
			`},`
map: Filter words a little bit 2018-04-23 00:10:01 +08:00			`}`
			`};`

feat: Define a `DocIndex` struct 2018-05-27 17:15:05 +08:00			`let mut builder = DocIndexMapBuilder::new();`
cli: Make work to index json lines 2018-04-22 23:34:41 +08:00			`for line in data.lines() {`
			`let line = line.unwrap();`

chore: Rename bin into indexer 2018-06-24 07:28:27 +08:00			`let product: Product = from_str(&line).unwrap();`
cli: Make work to index json lines 2018-04-22 23:34:41 +08:00
fix: Make sure to compute the right word index 2018-06-25 01:27:07 +08:00			`let title = iter::repeat(0).zip(product.title.split_whitespace()).filter(\|&(_, w)\| !common_words.contains(w)).enumerate();`
			`let description = iter::repeat(1).zip(product.ft.split_whitespace()).filter(\|&(_, w)\| !common_words.contains(w)).enumerate();`
cli: Make work to index json lines 2018-04-22 23:34:41 +08:00
feat: Make the parsing more generic over json 2018-05-13 21:12:15 +08:00			`let words = title.chain(description);`
			`for (i, (attr, word)) in words {`
feat: Define a `DocIndex` struct 2018-05-27 17:15:05 +08:00			`let doc_index = DocIndex {`
chore: Rename bin into indexer 2018-06-24 07:28:27 +08:00			`document: product.product_id,`
feat: Define a `DocIndex` struct 2018-05-27 17:15:05 +08:00			`attribute: attr,`
			`attribute_index: i as u32,`
feat: Make the parsing more generic over json 2018-05-13 21:12:15 +08:00			`};`
chore: Rename bin into indexer 2018-06-24 07:28:27 +08:00			`// insert the exact representation`
			`let word_lower = word.to_lowercase();`

			`// and the unidecoded lowercased version`
			`let word_unidecoded = unidecode(word).to_lowercase();`
			`if word_lower != word_unidecoded {`
			`builder.insert(word_unidecoded, doc_index);`
			`}`

			`builder.insert(word_lower, doc_index);`
cli: Make work to index json lines 2018-04-22 23:34:41 +08:00			`}`
			`}`

			`let map = File::create("map.fst").unwrap();`
			`let values = File::create("values.vecs").unwrap();`
chore: Rename bin into indexer 2018-06-24 07:28:27 +08:00
cli: Make work to index json lines 2018-04-22 23:34:41 +08:00			`let (map, values) = builder.build(map, values).unwrap();`

chore: Rename bin into indexer 2018-06-24 07:28:27 +08:00			`set_readonly("map.fst", true).unwrap();`
			`set_readonly("values.vecs", true).unwrap();`

feat: Define a `DocIndex` struct 2018-05-27 17:15:05 +08:00			`println!("Checking the dump consistency...");`
			`unsafe { DocIndexMap::from_paths("map.fst", "values.vecs").unwrap() };`
cli: Make work to index json lines 2018-04-22 23:34:41 +08:00			`}`