2、将原文档传给分词组件(Tokenizer)。
3、将得到的词元(Token)传给语言处理组件(Linguistic Processor)。
4、将得到的词(Term)传给索引组件(Indexer)。