chore: Clippy pass

2024-11-23 02:27:40 +08:00 · 2018-12-31 23:20:18 +01:00 · 2018-12-31 23:20:18 +01:00 · 7845292ea8
commit 7845292ea8
parent 521df85c0d
10 changed files with 654 additions and 710 deletions
--- a/examples/create-database.rs
+++ b/examples/create-database.rs
@ -32,7 +32,7 @@ struct Document<'a> (
 );
 fn index(schema: Schema, database_path: &Path, csv_data_path: &Path) -> Result<Database, Box<Error>> {
-    let database = Database::create(database_path, schema.clone())?;
+    let database = Database::create(database_path, &schema)?;
    println!("start indexing...");
--- a/src/automaton.rs
+++ b/src/automaton.rs
@ -50,6 +50,7 @@ impl AutomatonExt for DfaExt {
    }
 }
 #[derive(Copy, Clone)]
 enum PrefixSetting {
    Prefix,
    NoPrefix,
--- a/src/database/database.rs
+++ b/src/database/database.rs
@ -1,638 +0,0 @@
 use std::sync::{Arc, Mutex};
 use std::error::Error;
 use std::path::Path;
 use rocksdb::rocksdb_options::{DBOptions, IngestExternalFileOptions, ColumnFamilyOptions};
 use rocksdb::rocksdb::{Writable, Snapshot};
 use rocksdb::{DB, DBVector, MergeOperands};
 use crossbeam::atomic::ArcCell;
 use crate::database::index::Index;
 use crate::database::{DatabaseView, Update, Schema};
 use crate::database::{DATA_INDEX, DATA_SCHEMA};
 pub struct Database {
    // DB is under a Mutex to sync update ingestions and separate DB update locking
    // and DatabaseView acquiring locking in other words:
    // "Block readers the minimum possible amount of time"
    db: Mutex<Arc<DB>>,
    // This view is updated each time the DB ingests an update
    view: ArcCell<DatabaseView<Arc<DB>>>,
 }
 impl Database {
    pub fn create<P: AsRef<Path>>(path: P, schema: Schema) -> Result<Database, Box<Error>> {
        let path = path.as_ref();
        if path.exists() {
            return Err(format!("File already exists at path: {}, cannot create database.",
                                path.display()).into())
        }
        let path = path.to_string_lossy();
        let mut opts = DBOptions::new();
        opts.create_if_missing(true);
        // opts.error_if_exists(true); // FIXME pull request that
        let mut cf_opts = ColumnFamilyOptions::new();
        cf_opts.add_merge_operator("data-index merge operator", merge_indexes);
        let db = DB::open_cf(opts, &path, vec![("default", cf_opts)])?;
        let mut schema_bytes = Vec::new();
        schema.write_to_bin(&mut schema_bytes)?;
        db.put(DATA_SCHEMA, &schema_bytes)?;
        let db = Arc::new(db);
        let snapshot = Snapshot::new(db.clone());
        let view = ArcCell::new(Arc::new(DatabaseView::new(snapshot)?));
        Ok(Database { db: Mutex::new(db), view })
    }
    pub fn open<P: AsRef<Path>>(path: P) -> Result<Database, Box<Error>> {
        let path = path.as_ref().to_string_lossy();
        let mut opts = DBOptions::new();
        opts.create_if_missing(false);
        let mut cf_opts = ColumnFamilyOptions::new();
        cf_opts.add_merge_operator("data-index merge operator", merge_indexes);
        let db = DB::open_cf(opts, &path, vec![("default", cf_opts)])?;
        // FIXME create a generic function to do that !
        let _schema = match db.get(DATA_SCHEMA)? {
            Some(value) => Schema::read_from_bin(&*value)?,
            None => return Err(String::from("Database does not contain a schema").into()),
        };
        let db = Arc::new(db);
        let snapshot = Snapshot::new(db.clone());
        let view = ArcCell::new(Arc::new(DatabaseView::new(snapshot)?));
        Ok(Database { db: Mutex::new(db), view })
    }
    pub fn ingest_update_file(&self, update: Update) -> Result<Arc<DatabaseView<Arc<DB>>>, Box<Error>> {
        let snapshot = {
            // We must have a mutex here to ensure that update ingestions and compactions
            // are done atomatically and in the right order.
            // This way update ingestions will block other update ingestions without blocking view
            // creations while doing the "data-index" compaction
            let db = match self.db.lock() {
                Ok(db) => db,
                Err(e) => return Err(e.to_string().into()),
            };
            let path = update.path().to_string_lossy();
            let options = IngestExternalFileOptions::new();
            // options.move_files(move_update);
            let cf_handle = db.cf_handle("default").expect("\"default\" column family not found");
            db.ingest_external_file_optimized(&cf_handle, &options, &[&path])?;
            // Compacting to trigger the merge operator only one time
            // while ingesting the update and not each time searching
            db.compact_range(Some(DATA_INDEX), Some(DATA_INDEX));
            Snapshot::new(db.clone())
        };
        let view = Arc::new(DatabaseView::new(snapshot)?);
        self.view.set(view.clone());
        Ok(view)
    }
    pub fn get(&self, key: &[u8]) -> Result<Option<DBVector>, Box<Error>> {
        self.view().get(key)
    }
    pub fn flush(&self) -> Result<(), Box<Error>> {
        match self.db.lock() {
            Ok(db) => Ok(db.flush(true)?),
            Err(e) => Err(e.to_string().into()),
        }
    }
    pub fn view(&self) -> Arc<DatabaseView<Arc<DB>>> {
        self.view.get()
    }
 }
 fn merge_indexes(key: &[u8], existing: Option<&[u8]>, operands: &mut MergeOperands) -> Vec<u8> {
    assert_eq!(key, DATA_INDEX, "The merge operator only supports \"data-index\" merging");
    let mut index: Option<Index> = None;
    for bytes in existing.into_iter().chain(operands) {
        let bytes_len = bytes.len();
        let bytes = Arc::new(bytes.to_vec());
        let operand = Index::from_shared_bytes(bytes, 0, bytes_len);
        let operand = operand.expect("BUG: could not deserialize index");
        let merged = match index {
            Some(ref index) => index.merge(&operand).expect("BUG: could not merge index"),
            None            => operand,
        };
        index.replace(merged);
    }
    let index = index.unwrap_or_default();
    let mut bytes = Vec::new();
    index.write_to_bytes(&mut bytes);
    bytes
 }
 #[cfg(test)]
 mod tests {
    use super::*;
    use std::error::Error;
    use serde_derive::{Serialize, Deserialize};
    use tempfile::tempdir;
    use crate::database::schema::{SchemaBuilder, STORED, INDEXED};
    use crate::database::update::UpdateBuilder;
    use crate::tokenizer::DefaultBuilder;
    #[test]
    fn ingest_one_update_file() -> Result<(), Box<Error>> {
        let dir = tempdir()?;
        let rocksdb_path = dir.path().join("rocksdb.rdb");
        #[derive(Serialize, Deserialize, Debug, Clone, PartialEq, Eq)]
        struct SimpleDoc {
            id: u64,
            title: String,
            description: String,
            timestamp: u64,
        }
        let schema = {
            let mut builder = SchemaBuilder::with_identifier("id");
            builder.new_attribute("id", STORED);
            builder.new_attribute("title", STORED | INDEXED);
            builder.new_attribute("description", STORED | INDEXED);
            builder.new_attribute("timestamp", STORED);
            builder.build()
        };
        let database = Database::create(&rocksdb_path, schema.clone())?;
        let update_path = dir.path().join("update.sst");
        let doc0 = SimpleDoc {
            id: 0,
            title: String::from("I am a title"),
            description: String::from("I am a description"),
            timestamp: 1234567,
        };
        let doc1 = SimpleDoc {
            id: 1,
            title: String::from("I am the second title"),
            description: String::from("I am the second description"),
            timestamp: 7654321,
        };
        let docid0;
        let docid1;
        let update = {
            let tokenizer_builder = DefaultBuilder::new();
            let mut builder = UpdateBuilder::new(update_path, schema);
            docid0 = builder.update_document(&doc0, &tokenizer_builder)?;
            docid1 = builder.update_document(&doc1, &tokenizer_builder)?;
            builder.build()?
        };
        database.ingest_update_file(update)?;
        let view = database.view();
        let de_doc0: SimpleDoc = view.document_by_id(docid0)?;
        let de_doc1: SimpleDoc = view.document_by_id(docid1)?;
        assert_eq!(doc0, de_doc0);
        assert_eq!(doc1, de_doc1);
        Ok(dir.close()?)
    }
    #[test]
    fn ingest_two_update_files() -> Result<(), Box<Error>> {
        let dir = tempdir()?;
        let rocksdb_path = dir.path().join("rocksdb.rdb");
        #[derive(Serialize, Deserialize, Debug, Clone, PartialEq, Eq)]
        struct SimpleDoc {
            id: u64,
            title: String,
            description: String,
            timestamp: u64,
        }
        let schema = {
            let mut builder = SchemaBuilder::with_identifier("id");
            builder.new_attribute("id", STORED);
            builder.new_attribute("title", STORED | INDEXED);
            builder.new_attribute("description", STORED | INDEXED);
            builder.new_attribute("timestamp", STORED);
            builder.build()
        };
        let database = Database::create(&rocksdb_path, schema.clone())?;
        let doc0 = SimpleDoc {
            id: 0,
            title: String::from("I am a title"),
            description: String::from("I am a description"),
            timestamp: 1234567,
        };
        let doc1 = SimpleDoc {
            id: 1,
            title: String::from("I am the second title"),
            description: String::from("I am the second description"),
            timestamp: 7654321,
        };
        let doc2 = SimpleDoc {
            id: 2,
            title: String::from("I am the third title"),
            description: String::from("I am the third description"),
            timestamp: 7654321,
        };
        let doc3 = SimpleDoc {
            id: 3,
            title: String::from("I am the fourth title"),
            description: String::from("I am the fourth description"),
            timestamp: 7654321,
        };
        let docid0;
        let docid1;
        let update1 = {
            let tokenizer_builder = DefaultBuilder::new();
            let update_path = dir.path().join("update-000.sst");
            let mut builder = UpdateBuilder::new(update_path, schema.clone());
            docid0 = builder.update_document(&doc0, &tokenizer_builder)?;
            docid1 = builder.update_document(&doc1, &tokenizer_builder)?;
            builder.build()?
        };
        let docid2;
        let docid3;
        let update2 = {
            let tokenizer_builder = DefaultBuilder::new();
            let update_path = dir.path().join("update-001.sst");
            let mut builder = UpdateBuilder::new(update_path, schema);
            docid2 = builder.update_document(&doc2, &tokenizer_builder)?;
            docid3 = builder.update_document(&doc3, &tokenizer_builder)?;
            builder.build()?
        };
        database.ingest_update_file(update1)?;
        database.ingest_update_file(update2)?;
        let view = database.view();
        let de_doc0: SimpleDoc = view.document_by_id(docid0)?;
        let de_doc1: SimpleDoc = view.document_by_id(docid1)?;
        assert_eq!(doc0, de_doc0);
        assert_eq!(doc1, de_doc1);
        let de_doc2: SimpleDoc = view.document_by_id(docid2)?;
        let de_doc3: SimpleDoc = view.document_by_id(docid3)?;
        assert_eq!(doc2, de_doc2);
        assert_eq!(doc3, de_doc3);
        Ok(dir.close()?)
    }
 }
 #[cfg(all(feature = "nightly", test))]
 mod bench {
    extern crate test;
    use super::*;
    use std::error::Error;
    use std::iter::repeat_with;
    use self::test::Bencher;
    use rand::distributions::Alphanumeric;
    use rand_xorshift::XorShiftRng;
    use rand::{Rng, SeedableRng};
    use rand::seq::SliceRandom;
    use serde_derive::Serialize;
    use crate::tokenizer::DefaultBuilder;
    use crate::database::update::UpdateBuilder;
    use crate::database::schema::*;
    fn random_sentences<R: Rng>(number: usize, rng: &mut R) -> String {
        let mut words = String::new();
        for i in 0..number {
            let word_len = rng.gen_range(1, 12);
            let iter = repeat_with(|| rng.sample(Alphanumeric)).take(word_len);
            words.extend(iter);
            if i == number - 1 { // last word
                let final_ = [".", "?", "!", "..."].choose(rng).cloned();
                words.extend(final_);
            } else {
                let middle = [",", ", "].choose(rng).cloned();
                words.extend(middle);
            }
        }
        words
    }
    #[bench]
    fn open_little_database(bench: &mut Bencher) -> Result<(), Box<Error>> {
        let dir = tempfile::tempdir()?;
        let mut builder = SchemaBuilder::with_identifier("id");
        builder.new_attribute("title", STORED | INDEXED);
        builder.new_attribute("description", STORED | INDEXED);
        let schema = builder.build();
        let db_path = dir.path().join("bench.mdb");
        let database = Database::create(db_path.clone(), schema.clone())?;
        #[derive(Serialize)]
        struct Document {
            id: u64,
            title: String,
            description: String,
        }
        let path = dir.path().join("update-000.sst");
        let tokenizer_builder = DefaultBuilder;
        let mut builder = UpdateBuilder::new(path, schema.clone());
        let mut rng = XorShiftRng::seed_from_u64(42);
        for i in 0..300 {
            let document = Document {
                id: i,
                title: random_sentences(rng.gen_range(1, 8), &mut rng),
                description: random_sentences(rng.gen_range(20, 200), &mut rng),
            };
            builder.update_document(&document, &tokenizer_builder)?;
        }
        let update = builder.build()?;
        database.ingest_update_file(update)?;
        drop(database);
        bench.iter(|| {
            let database = Database::open(db_path.clone()).unwrap();
            test::black_box(|| database);
        });
        Ok(())
    }
    #[bench]
    fn open_medium_database(bench: &mut Bencher) -> Result<(), Box<Error>> {
        let dir = tempfile::tempdir()?;
        let mut builder = SchemaBuilder::with_identifier("id");
        builder.new_attribute("title", STORED | INDEXED);
        builder.new_attribute("description", STORED | INDEXED);
        let schema = builder.build();
        let db_path = dir.path().join("bench.mdb");
        let database = Database::create(db_path.clone(), schema.clone())?;
        #[derive(Serialize)]
        struct Document {
            id: u64,
            title: String,
            description: String,
        }
        let path = dir.path().join("update-000.sst");
        let tokenizer_builder = DefaultBuilder;
        let mut builder = UpdateBuilder::new(path, schema.clone());
        let mut rng = XorShiftRng::seed_from_u64(42);
        for i in 0..3000 {
            let document = Document {
                id: i,
                title: random_sentences(rng.gen_range(1, 8), &mut rng),
                description: random_sentences(rng.gen_range(20, 200), &mut rng),
            };
            builder.update_document(&document, &tokenizer_builder)?;
        }
        let update = builder.build()?;
        database.ingest_update_file(update)?;
        drop(database);
        bench.iter(|| {
            let database = Database::open(db_path.clone()).unwrap();
            test::black_box(|| database);
        });
        Ok(())
    }
    #[bench]
    #[ignore]
    fn open_big_database(bench: &mut Bencher) -> Result<(), Box<Error>> {
        let dir = tempfile::tempdir()?;
        let mut builder = SchemaBuilder::with_identifier("id");
        builder.new_attribute("title", STORED | INDEXED);
        builder.new_attribute("description", STORED | INDEXED);
        let schema = builder.build();
        let db_path = dir.path().join("bench.mdb");
        let database = Database::create(db_path.clone(), schema.clone())?;
        #[derive(Serialize)]
        struct Document {
            id: u64,
            title: String,
            description: String,
        }
        let path = dir.path().join("update-000.sst");
        let tokenizer_builder = DefaultBuilder;
        let mut builder = UpdateBuilder::new(path, schema.clone());
        let mut rng = XorShiftRng::seed_from_u64(42);
        for i in 0..30_000 {
            let document = Document {
                id: i,
                title: random_sentences(rng.gen_range(1, 8), &mut rng),
                description: random_sentences(rng.gen_range(20, 200), &mut rng),
            };
            builder.update_document(&document, &tokenizer_builder)?;
        }
        let update = builder.build()?;
        database.ingest_update_file(update)?;
        drop(database);
        bench.iter(|| {
            let database = Database::open(db_path.clone()).unwrap();
            test::black_box(|| database);
        });
        Ok(())
    }
    #[bench]
    fn search_oneletter_little_database(bench: &mut Bencher) -> Result<(), Box<Error>> {
        let dir = tempfile::tempdir()?;
        let mut builder = SchemaBuilder::with_identifier("id");
        builder.new_attribute("title", STORED | INDEXED);
        builder.new_attribute("description", STORED | INDEXED);
        let schema = builder.build();
        let db_path = dir.path().join("bench.mdb");
        let database = Database::create(db_path.clone(), schema.clone())?;
        #[derive(Serialize)]
        struct Document {
            id: u64,
            title: String,
            description: String,
        }
        let path = dir.path().join("update-000.sst");
        let tokenizer_builder = DefaultBuilder;
        let mut builder = UpdateBuilder::new(path, schema.clone());
        let mut rng = XorShiftRng::seed_from_u64(42);
        for i in 0..300 {
            let document = Document {
                id: i,
                title: random_sentences(rng.gen_range(1, 8), &mut rng),
                description: random_sentences(rng.gen_range(20, 200), &mut rng),
            };
            builder.update_document(&document, &tokenizer_builder)?;
        }
        let update = builder.build()?;
        let view = database.ingest_update_file(update)?;
        bench.iter(|| {
            for q in &["a", "b", "c", "d", "e"] {
                let documents = view.query_builder().unwrap().query(q, 0..20);
                test::black_box(|| documents);
            }
        });
        Ok(())
    }
    #[bench]
    fn search_oneletter_medium_database(bench: &mut Bencher) -> Result<(), Box<Error>> {
        let dir = tempfile::tempdir()?;
        let mut builder = SchemaBuilder::with_identifier("id");
        builder.new_attribute("title", STORED | INDEXED);
        builder.new_attribute("description", STORED | INDEXED);
        let schema = builder.build();
        let db_path = dir.path().join("bench.mdb");
        let database = Database::create(db_path.clone(), schema.clone())?;
        #[derive(Serialize)]
        struct Document {
            id: u64,
            title: String,
            description: String,
        }
        let path = dir.path().join("update-000.sst");
        let tokenizer_builder = DefaultBuilder;
        let mut builder = UpdateBuilder::new(path, schema.clone());
        let mut rng = XorShiftRng::seed_from_u64(42);
        for i in 0..3000 {
            let document = Document {
                id: i,
                title: random_sentences(rng.gen_range(1, 8), &mut rng),
                description: random_sentences(rng.gen_range(20, 200), &mut rng),
            };
            builder.update_document(&document, &tokenizer_builder)?;
        }
        let update = builder.build()?;
        let view = database.ingest_update_file(update)?;
        bench.iter(|| {
            for q in &["a", "b", "c", "d", "e"] {
                let documents = view.query_builder().unwrap().query(q, 0..20);
                test::black_box(|| documents);
            }
        });
        Ok(())
    }
    #[bench]
    #[ignore]
    fn search_oneletter_big_database(bench: &mut Bencher) -> Result<(), Box<Error>> {
        let dir = tempfile::tempdir()?;
        let mut builder = SchemaBuilder::with_identifier("id");
        builder.new_attribute("title", STORED | INDEXED);
        builder.new_attribute("description", STORED | INDEXED);
        let schema = builder.build();
        let db_path = dir.path().join("bench.mdb");
        let database = Database::create(db_path.clone(), schema.clone())?;
        #[derive(Serialize)]
        struct Document {
            id: u64,
            title: String,
            description: String,
        }
        let path = dir.path().join("update-000.sst");
        let tokenizer_builder = DefaultBuilder;
        let mut builder = UpdateBuilder::new(path, schema.clone());
        let mut rng = XorShiftRng::seed_from_u64(42);
        for i in 0..30_000 {
            let document = Document {
                id: i,
                title: random_sentences(rng.gen_range(1, 8), &mut rng),
                description: random_sentences(rng.gen_range(20, 200), &mut rng),
            };
            builder.update_document(&document, &tokenizer_builder)?;
        }
        let update = builder.build()?;
        let view = database.ingest_update_file(update)?;
        bench.iter(|| {
            for q in &["a", "b", "c", "d", "e"] {
                let documents = view.query_builder().unwrap().query(q, 0..20);
                test::black_box(|| documents);
            }
        });
        Ok(())
    }
 }
--- a/src/database/mod.rs
+++ b/src/database/mod.rs
@ -1,14 +1,17 @@
 use std::sync::{Arc, Mutex};
 use std::error::Error;
 use std::ops::Deref;
-use std::sync::Arc;
+use std::path::Path;
-use rocksdb::rocksdb::{DB, Snapshot};
+use rocksdb::rocksdb_options::{DBOptions, IngestExternalFileOptions, ColumnFamilyOptions};
 use rocksdb::rocksdb::{Writable, Snapshot};
 use rocksdb::{DB, DBVector, MergeOperands};
 use crossbeam::atomic::ArcCell;
 pub use self::document_key::{DocumentKey, DocumentKeyAttr};
-pub use self::database_view::{DatabaseView, DocumentIter};
+pub use self::view::{DatabaseView, DocumentIter};
 pub use self::update::{Update, UpdateBuilder};
 pub use self::serde::SerializerError;
 pub use self::database::Database;
 pub use self::schema::Schema;
 pub use self::index::Index;
@ -17,12 +20,11 @@ const DATA_SCHEMA: &[u8] = b"data-schema";
 pub mod schema;
 pub(crate) mod index;
 mod update;
 mod serde;
 mod database;
 mod document_key;
 mod database_view;
 mod deserializer;
 mod document_key;
 mod serde;
 mod update;
 mod view;
 fn retrieve_data_schema<D>(snapshot: &Snapshot<D>) -> Result<Schema, Box<Error>>
 where D: Deref<Target=DB>
@ -45,3 +47,629 @@ where D: Deref<Target=DB>
        None => Ok(Index::default()),
    }
 }
 fn merge_indexes(key: &[u8], existing: Option<&[u8]>, operands: &mut MergeOperands) -> Vec<u8> {
    assert_eq!(key, DATA_INDEX, "The merge operator only supports \"data-index\" merging");
    let mut index: Option<Index> = None;
    for bytes in existing.into_iter().chain(operands) {
        let bytes_len = bytes.len();
        let bytes = Arc::new(bytes.to_vec());
        let operand = Index::from_shared_bytes(bytes, 0, bytes_len);
        let operand = operand.expect("BUG: could not deserialize index");
        let merged = match index {
            Some(ref index) => index.merge(&operand).expect("BUG: could not merge index"),
            None            => operand,
        };
        index.replace(merged);
    }
    let index = index.unwrap_or_default();
    let mut bytes = Vec::new();
    index.write_to_bytes(&mut bytes);
    bytes
 }
 pub struct Database {
    // DB is under a Mutex to sync update ingestions and separate DB update locking
    // and DatabaseView acquiring locking in other words:
    // "Block readers the minimum possible amount of time"
    db: Mutex<Arc<DB>>,
    // This view is updated each time the DB ingests an update
    view: ArcCell<DatabaseView<Arc<DB>>>,
 }
 impl Database {
    pub fn create<P: AsRef<Path>>(path: P, schema: &Schema) -> Result<Database, Box<Error>> {
        let path = path.as_ref();
        if path.exists() {
            return Err(format!("File already exists at path: {}, cannot create database.",
                                path.display()).into())
        }
        let path = path.to_string_lossy();
        let mut opts = DBOptions::new();
        opts.create_if_missing(true);
        // opts.error_if_exists(true); // FIXME pull request that
        let mut cf_opts = ColumnFamilyOptions::new();
        cf_opts.add_merge_operator("data-index merge operator", merge_indexes);
        let db = DB::open_cf(opts, &path, vec![("default", cf_opts)])?;
        let mut schema_bytes = Vec::new();
        schema.write_to_bin(&mut schema_bytes)?;
        db.put(DATA_SCHEMA, &schema_bytes)?;
        let db = Arc::new(db);
        let snapshot = Snapshot::new(db.clone());
        let view = ArcCell::new(Arc::new(DatabaseView::new(snapshot)?));
        Ok(Database { db: Mutex::new(db), view })
    }
    pub fn open<P: AsRef<Path>>(path: P) -> Result<Database, Box<Error>> {
        let path = path.as_ref().to_string_lossy();
        let mut opts = DBOptions::new();
        opts.create_if_missing(false);
        let mut cf_opts = ColumnFamilyOptions::new();
        cf_opts.add_merge_operator("data-index merge operator", merge_indexes);
        let db = DB::open_cf(opts, &path, vec![("default", cf_opts)])?;
        // FIXME create a generic function to do that !
        let _schema = match db.get(DATA_SCHEMA)? {
            Some(value) => Schema::read_from_bin(&*value)?,
            None => return Err(String::from("Database does not contain a schema").into()),
        };
        let db = Arc::new(db);
        let snapshot = Snapshot::new(db.clone());
        let view = ArcCell::new(Arc::new(DatabaseView::new(snapshot)?));
        Ok(Database { db: Mutex::new(db), view })
    }
    pub fn ingest_update_file(&self, update: Update) -> Result<Arc<DatabaseView<Arc<DB>>>, Box<Error>> {
        let snapshot = {
            // We must have a mutex here to ensure that update ingestions and compactions
            // are done atomatically and in the right order.
            // This way update ingestions will block other update ingestions without blocking view
            // creations while doing the "data-index" compaction
            let db = match self.db.lock() {
                Ok(db) => db,
                Err(e) => return Err(e.to_string().into()),
            };
            let path = update.path().to_string_lossy();
            let options = IngestExternalFileOptions::new();
            // options.move_files(move_update);
            let cf_handle = db.cf_handle("default").expect("\"default\" column family not found");
            db.ingest_external_file_optimized(&cf_handle, &options, &[&path])?;
            // Compacting to trigger the merge operator only one time
            // while ingesting the update and not each time searching
            db.compact_range(Some(DATA_INDEX), Some(DATA_INDEX));
            Snapshot::new(db.clone())
        };
        let view = Arc::new(DatabaseView::new(snapshot)?);
        self.view.set(view.clone());
        Ok(view)
    }
    pub fn get(&self, key: &[u8]) -> Result<Option<DBVector>, Box<Error>> {
        self.view().get(key)
    }
    pub fn flush(&self) -> Result<(), Box<Error>> {
        match self.db.lock() {
            Ok(db) => Ok(db.flush(true)?),
            Err(e) => Err(e.to_string().into()),
        }
    }
    pub fn view(&self) -> Arc<DatabaseView<Arc<DB>>> {
        self.view.get()
    }
 }
 #[cfg(test)]
 mod tests {
    use super::*;
    use std::error::Error;
    use serde_derive::{Serialize, Deserialize};
    use tempfile::tempdir;
    use crate::database::schema::{SchemaBuilder, STORED, INDEXED};
    use crate::database::update::UpdateBuilder;
    use crate::tokenizer::DefaultBuilder;
    #[test]
    fn ingest_one_update_file() -> Result<(), Box<Error>> {
        let dir = tempdir()?;
        let rocksdb_path = dir.path().join("rocksdb.rdb");
        #[derive(Serialize, Deserialize, Debug, Clone, PartialEq, Eq)]
        struct SimpleDoc {
            id: u64,
            title: String,
            description: String,
            timestamp: u64,
        }
        let schema = {
            let mut builder = SchemaBuilder::with_identifier("id");
            builder.new_attribute("id", STORED);
            builder.new_attribute("title", STORED | INDEXED);
            builder.new_attribute("description", STORED | INDEXED);
            builder.new_attribute("timestamp", STORED);
            builder.build()
        };
        let database = Database::create(&rocksdb_path, &schema)?;
        let update_path = dir.path().join("update.sst");
        let doc0 = SimpleDoc {
            id: 0,
            title: String::from("I am a title"),
            description: String::from("I am a description"),
            timestamp: 1234567,
        };
        let doc1 = SimpleDoc {
            id: 1,
            title: String::from("I am the second title"),
            description: String::from("I am the second description"),
            timestamp: 7654321,
        };
        let docid0;
        let docid1;
        let update = {
            let tokenizer_builder = DefaultBuilder::new();
            let mut builder = UpdateBuilder::new(update_path, schema);
            docid0 = builder.update_document(&doc0, &tokenizer_builder)?;
            docid1 = builder.update_document(&doc1, &tokenizer_builder)?;
            builder.build()?
        };
        database.ingest_update_file(update)?;
        let view = database.view();
        let de_doc0: SimpleDoc = view.document_by_id(docid0)?;
        let de_doc1: SimpleDoc = view.document_by_id(docid1)?;
        assert_eq!(doc0, de_doc0);
        assert_eq!(doc1, de_doc1);
        Ok(dir.close()?)
    }
    #[test]
    fn ingest_two_update_files() -> Result<(), Box<Error>> {
        let dir = tempdir()?;
        let rocksdb_path = dir.path().join("rocksdb.rdb");
        #[derive(Serialize, Deserialize, Debug, Clone, PartialEq, Eq)]
        struct SimpleDoc {
            id: u64,
            title: String,
            description: String,
            timestamp: u64,
        }
        let schema = {
            let mut builder = SchemaBuilder::with_identifier("id");
            builder.new_attribute("id", STORED);
            builder.new_attribute("title", STORED | INDEXED);
            builder.new_attribute("description", STORED | INDEXED);
            builder.new_attribute("timestamp", STORED);
            builder.build()
        };
        let database = Database::create(&rocksdb_path, &schema)?;
        let doc0 = SimpleDoc {
            id: 0,
            title: String::from("I am a title"),
            description: String::from("I am a description"),
            timestamp: 1234567,
        };
        let doc1 = SimpleDoc {
            id: 1,
            title: String::from("I am the second title"),
            description: String::from("I am the second description"),
            timestamp: 7654321,
        };
        let doc2 = SimpleDoc {
            id: 2,
            title: String::from("I am the third title"),
            description: String::from("I am the third description"),
            timestamp: 7654321,
        };
        let doc3 = SimpleDoc {
            id: 3,
            title: String::from("I am the fourth title"),
            description: String::from("I am the fourth description"),
            timestamp: 7654321,
        };
        let docid0;
        let docid1;
        let update1 = {
            let tokenizer_builder = DefaultBuilder::new();
            let update_path = dir.path().join("update-000.sst");
            let mut builder = UpdateBuilder::new(update_path, schema.clone());
            docid0 = builder.update_document(&doc0, &tokenizer_builder)?;
            docid1 = builder.update_document(&doc1, &tokenizer_builder)?;
            builder.build()?
        };
        let docid2;
        let docid3;
        let update2 = {
            let tokenizer_builder = DefaultBuilder::new();
            let update_path = dir.path().join("update-001.sst");
            let mut builder = UpdateBuilder::new(update_path, schema);
            docid2 = builder.update_document(&doc2, &tokenizer_builder)?;
            docid3 = builder.update_document(&doc3, &tokenizer_builder)?;
            builder.build()?
        };
        database.ingest_update_file(update1)?;
        database.ingest_update_file(update2)?;
        let view = database.view();
        let de_doc0: SimpleDoc = view.document_by_id(docid0)?;
        let de_doc1: SimpleDoc = view.document_by_id(docid1)?;
        assert_eq!(doc0, de_doc0);
        assert_eq!(doc1, de_doc1);
        let de_doc2: SimpleDoc = view.document_by_id(docid2)?;
        let de_doc3: SimpleDoc = view.document_by_id(docid3)?;
        assert_eq!(doc2, de_doc2);
        assert_eq!(doc3, de_doc3);
        Ok(dir.close()?)
    }
 }
 #[cfg(all(feature = "nightly", test))]
 mod bench {
    extern crate test;
    use super::*;
    use std::error::Error;
    use std::iter::repeat_with;
    use self::test::Bencher;
    use rand::distributions::Alphanumeric;
    use rand_xorshift::XorShiftRng;
    use rand::{Rng, SeedableRng};
    use rand::seq::SliceRandom;
    use serde_derive::Serialize;
    use crate::tokenizer::DefaultBuilder;
    use crate::database::update::UpdateBuilder;
    use crate::database::schema::*;
    fn random_sentences<R: Rng>(number: usize, rng: &mut R) -> String {
        let mut words = String::new();
        for i in 0..number {
            let word_len = rng.gen_range(1, 12);
            let iter = repeat_with(|| rng.sample(Alphanumeric)).take(word_len);
            words.extend(iter);
            if i == number - 1 { // last word
                let final_ = [".", "?", "!", "..."].choose(rng).cloned();
                words.extend(final_);
            } else {
                let middle = [",", ", "].choose(rng).cloned();
                words.extend(middle);
            }
        }
        words
    }
    #[bench]
    fn open_little_database(bench: &mut Bencher) -> Result<(), Box<Error>> {
        let dir = tempfile::tempdir()?;
        let mut builder = SchemaBuilder::with_identifier("id");
        builder.new_attribute("title", STORED | INDEXED);
        builder.new_attribute("description", STORED | INDEXED);
        let schema = builder.build();
        let db_path = dir.path().join("bench.mdb");
        let database = Database::create(db_path.clone(), &schema)?;
        #[derive(Serialize)]
        struct Document {
            id: u64,
            title: String,
            description: String,
        }
        let path = dir.path().join("update-000.sst");
        let tokenizer_builder = DefaultBuilder;
        let mut builder = UpdateBuilder::new(path, schema);
        let mut rng = XorShiftRng::seed_from_u64(42);
        for i in 0..300 {
            let document = Document {
                id: i,
                title: random_sentences(rng.gen_range(1, 8), &mut rng),
                description: random_sentences(rng.gen_range(20, 200), &mut rng),
            };
            builder.update_document(&document, &tokenizer_builder)?;
        }
        let update = builder.build()?;
        database.ingest_update_file(update)?;
        drop(database);
        bench.iter(|| {
            let database = Database::open(db_path.clone()).unwrap();
            test::black_box(|| database);
        });
        Ok(())
    }
    #[bench]
    fn open_medium_database(bench: &mut Bencher) -> Result<(), Box<Error>> {
        let dir = tempfile::tempdir()?;
        let mut builder = SchemaBuilder::with_identifier("id");
        builder.new_attribute("title", STORED | INDEXED);
        builder.new_attribute("description", STORED | INDEXED);
        let schema = builder.build();
        let db_path = dir.path().join("bench.mdb");
        let database = Database::create(db_path.clone(), &schema)?;
        #[derive(Serialize)]
        struct Document {
            id: u64,
            title: String,
            description: String,
        }
        let path = dir.path().join("update-000.sst");
        let tokenizer_builder = DefaultBuilder;
        let mut builder = UpdateBuilder::new(path, schema);
        let mut rng = XorShiftRng::seed_from_u64(42);
        for i in 0..3000 {
            let document = Document {
                id: i,
                title: random_sentences(rng.gen_range(1, 8), &mut rng),
                description: random_sentences(rng.gen_range(20, 200), &mut rng),
            };
            builder.update_document(&document, &tokenizer_builder)?;
        }
        let update = builder.build()?;
        database.ingest_update_file(update)?;
        drop(database);
        bench.iter(|| {
            let database = Database::open(db_path.clone()).unwrap();
            test::black_box(|| database);
        });
        Ok(())
    }
    #[bench]
    #[ignore]
    fn open_big_database(bench: &mut Bencher) -> Result<(), Box<Error>> {
        let dir = tempfile::tempdir()?;
        let mut builder = SchemaBuilder::with_identifier("id");
        builder.new_attribute("title", STORED | INDEXED);
        builder.new_attribute("description", STORED | INDEXED);
        let schema = builder.build();
        let db_path = dir.path().join("bench.mdb");
        let database = Database::create(db_path.clone(), &schema)?;
        #[derive(Serialize)]
        struct Document {
            id: u64,
            title: String,
            description: String,
        }
        let path = dir.path().join("update-000.sst");
        let tokenizer_builder = DefaultBuilder;
        let mut builder = UpdateBuilder::new(path, schema);
        let mut rng = XorShiftRng::seed_from_u64(42);
        for i in 0..30_000 {
            let document = Document {
                id: i,
                title: random_sentences(rng.gen_range(1, 8), &mut rng),
                description: random_sentences(rng.gen_range(20, 200), &mut rng),
            };
            builder.update_document(&document, &tokenizer_builder)?;
        }
        let update = builder.build()?;
        database.ingest_update_file(update)?;
        drop(database);
        bench.iter(|| {
            let database = Database::open(db_path.clone()).unwrap();
            test::black_box(|| database);
        });
        Ok(())
    }
    #[bench]
    fn search_oneletter_little_database(bench: &mut Bencher) -> Result<(), Box<Error>> {
        let dir = tempfile::tempdir()?;
        let mut builder = SchemaBuilder::with_identifier("id");
        builder.new_attribute("title", STORED | INDEXED);
        builder.new_attribute("description", STORED | INDEXED);
        let schema = builder.build();
        let db_path = dir.path().join("bench.mdb");
        let database = Database::create(db_path.clone(), &schema)?;
        #[derive(Serialize)]
        struct Document {
            id: u64,
            title: String,
            description: String,
        }
        let path = dir.path().join("update-000.sst");
        let tokenizer_builder = DefaultBuilder;
        let mut builder = UpdateBuilder::new(path, schema);
        let mut rng = XorShiftRng::seed_from_u64(42);
        for i in 0..300 {
            let document = Document {
                id: i,
                title: random_sentences(rng.gen_range(1, 8), &mut rng),
                description: random_sentences(rng.gen_range(20, 200), &mut rng),
            };
            builder.update_document(&document, &tokenizer_builder)?;
        }
        let update = builder.build()?;
        let view = database.ingest_update_file(update)?;
        bench.iter(|| {
            for q in &["a", "b", "c", "d", "e"] {
                let documents = view.query_builder().unwrap().query(q, 0..20);
                test::black_box(|| documents);
            }
        });
        Ok(())
    }
    #[bench]
    fn search_oneletter_medium_database(bench: &mut Bencher) -> Result<(), Box<Error>> {
        let dir = tempfile::tempdir()?;
        let mut builder = SchemaBuilder::with_identifier("id");
        builder.new_attribute("title", STORED | INDEXED);
        builder.new_attribute("description", STORED | INDEXED);
        let schema = builder.build();
        let db_path = dir.path().join("bench.mdb");
        let database = Database::create(db_path.clone(), &schema)?;
        #[derive(Serialize)]
        struct Document {
            id: u64,
            title: String,
            description: String,
        }
        let path = dir.path().join("update-000.sst");
        let tokenizer_builder = DefaultBuilder;
        let mut builder = UpdateBuilder::new(path, schema);
        let mut rng = XorShiftRng::seed_from_u64(42);
        for i in 0..3000 {
            let document = Document {
                id: i,
                title: random_sentences(rng.gen_range(1, 8), &mut rng),
                description: random_sentences(rng.gen_range(20, 200), &mut rng),
            };
            builder.update_document(&document, &tokenizer_builder)?;
        }
        let update = builder.build()?;
        let view = database.ingest_update_file(update)?;
        bench.iter(|| {
            for q in &["a", "b", "c", "d", "e"] {
                let documents = view.query_builder().unwrap().query(q, 0..20);
                test::black_box(|| documents);
            }
        });
        Ok(())
    }
    #[bench]
    #[ignore]
    fn search_oneletter_big_database(bench: &mut Bencher) -> Result<(), Box<Error>> {
        let dir = tempfile::tempdir()?;
        let mut builder = SchemaBuilder::with_identifier("id");
        builder.new_attribute("title", STORED | INDEXED);
        builder.new_attribute("description", STORED | INDEXED);
        let schema = builder.build();
        let db_path = dir.path().join("bench.mdb");
        let database = Database::create(db_path.clone(), &schema)?;
        #[derive(Serialize)]
        struct Document {
            id: u64,
            title: String,
            description: String,
        }
        let path = dir.path().join("update-000.sst");
        let tokenizer_builder = DefaultBuilder;
        let mut builder = UpdateBuilder::new(path, schema);
        let mut rng = XorShiftRng::seed_from_u64(42);
        for i in 0..30_000 {
            let document = Document {
                id: i,
                title: random_sentences(rng.gen_range(1, 8), &mut rng),
                description: random_sentences(rng.gen_range(20, 200), &mut rng),
            };
            builder.update_document(&document, &tokenizer_builder)?;
        }
        let update = builder.build()?;
        let view = database.ingest_update_file(update)?;
        bench.iter(|| {
            for q in &["a", "b", "c", "d", "e"] {
                let documents = view.query_builder().unwrap().query(q, 0..20);
                test::black_box(|| documents);
            }
        });
        Ok(())
    }
 }
--- a/src/database/schema.rs
+++ b/src/database/schema.rs
@ -26,11 +26,11 @@ pub struct SchemaProps {
 }
 impl SchemaProps {
-    pub fn is_stored(&self) -> bool {
+    pub fn is_stored(self) -> bool {
        self.stored
    }
-    pub fn is_indexed(&self) -> bool {
+    pub fn is_indexed(self) -> bool {
        self.indexed
    }
 }
--- a/src/database/database_view.rs
+++ b/src/database/database_view.rs
--- a/src/lib.rs
+++ b/src/lib.rs
@ -5,7 +5,6 @@ pub mod database;
 pub mod data;
 pub mod rank;
 pub mod tokenizer;
 pub mod vec_read_only;
 mod common_words;
 use std::fmt;
@ -42,7 +41,7 @@ impl Attribute {
            return Err(AttributeError::IndexTooBig)
        }
-        let attribute = (attribute as u32) << 22;
+        let attribute = u32::from(attribute) << 22;
        Ok(Attribute(attribute | index))
    }
@ -66,12 +65,12 @@ impl Attribute {
    }
    #[inline]
-    pub fn attribute(&self) -> u16 {
+    pub fn attribute(self) -> u16 {
        (self.0 >> 22) as u16
    }
    #[inline]
-    pub fn word_index(&self) -> u32 {
+    pub fn word_index(self) -> u32 {
        self.0 & 0b0000_0000_0011_1111_1111_1111_1111
    }
 }
@ -118,7 +117,7 @@ impl WordArea {
        }
        let byte_index = byte_index << 10;
-        Ok(WordArea(byte_index | (length as u32)))
+        Ok(WordArea(byte_index | u32::from(length)))
    }
    fn new_faillible(byte_index: u32, length: u16) -> WordArea {
@ -134,12 +133,12 @@ impl WordArea {
    }
    #[inline]
-    pub fn byte_index(&self) -> u32 {
+    pub fn byte_index(self) -> u32 {
        self.0 >> 10
    }
    #[inline]
-    pub fn length(&self) -> u16 {
+    pub fn length(self) -> u16 {
        (self.0 & 0b0000_0000_0000_0000_0011_1111_1111) as u16
    }
 }
--- a/src/rank/criterion/mod.rs
+++ b/src/rank/criterion/mod.rs
@ -29,7 +29,6 @@ pub use self::{
 pub trait Criterion<D>
 where D: Deref<Target=DB>
 {
    #[inline]
    fn evaluate(&self, lhs: &Document, rhs: &Document, view: &DatabaseView<D>) -> Ordering;
    #[inline]
@ -62,6 +61,7 @@ where D: Deref<Target=DB>
    }
 }
 #[derive(Default)]
 pub struct CriteriaBuilder<D>
 where D: Deref<Target=DB>
 {
--- a/src/rank/criterion/sort_by.rs
+++ b/src/rank/criterion/sort_by.rs
@ -46,13 +46,18 @@ use crate::rank::Document;
 /// let criterion = builder.build();
 ///
 /// ```
 #[derive(Default)]
 pub struct SortBy<T> {
    _phantom: marker::PhantomData<T>,
 }
 impl<T> SortBy<T> {
    pub fn new() -> Self {
        SortBy::default()
    }
 }
 impl<T> Default for SortBy<T> {
    fn default() -> SortBy<T> {
        SortBy { _phantom: marker::PhantomData }
    }
 }
--- a/src/vec_read_only.rs
+++ b/src/vec_read_only.rs
@ -1,51 +0,0 @@
 use std::ops::Deref;
 use std::sync::Arc;
 use std::fmt;
 #[derive(Clone, PartialOrd, Ord, PartialEq, Eq, Hash)]
 pub struct VecReadOnly<T> {
    inner: Arc<Vec<T>>,
    offset: usize,
    len: usize,
 }
 impl<T> VecReadOnly<T> {
    pub fn new(vec: Vec<T>) -> Self {
        let len = vec.len();
        Self {
            inner: Arc::new(vec),
            offset: 0,
            len: len,
        }
    }
    pub fn len(&self) -> usize {
        self.len
    }
    pub fn range(&self, offset: usize, len: usize) -> Self {
        Self {
            inner: self.inner.clone(),
            offset: self.offset + offset,
            len: len,
        }
    }
    pub fn as_slice(&self) -> &[T] {
        &self.inner[self.offset..self.offset + self.len]
    }
 }
 impl<T> Deref for VecReadOnly<T> {
    type Target = [T];
    fn deref(&self) -> &Self::Target {
        self.as_slice()
    }
 }
 impl<T: fmt::Debug> fmt::Debug for VecReadOnly<T> {
    fn fmt(&self, f: &mut fmt::Formatter) -> fmt::Result {
        self.inner.fmt(f)
    }
 }