Solr通过特殊字符分词实现自定义分词器详解

前言

我们在对英文句子分词的时候，一般采用采用的分词器是whitespacetokenizerfactory，有一次因业务要求，需要根据某一个特殊字符（以逗号分词，以竖线分词）分词。感觉这种需求可能与whitespacetokenizerfactory相像，于是自己根据solr源码自定义了分词策略。

业务场景

有一次，我拿到的数据都是以竖线“|”分隔，分词的时候，需要以竖线为分词单元。比如下面的这一堆数据：

有可能你拿到的是这样的数据，典型的例子就是来自csv文件的数据，格式和下面这种类似：

分词思路

在solr的schema.xml文件中，有这样的配置

<fieldtype name="text_ws" class="solr.textfield" positionincrementgap="100">

<analyzer>

<tokenizer class="solr.whitespacetokenizerfactory"/>

</analyzer>

</fieldtype>

对于字段类型text_ws，指定了一个分词器工厂whitespacetokenizerfactory，根据这个类，可以实现通过空格来分词，那么我通过竖线分词的代码应该与之类似。

修改源码

在java工程中引入如下jar包：

<dependency>

<groupid>org.apache.solr</groupid>

<artifactid>solr-core</artifactid>

<version>6.0.0</version>

</dependency>

参照whitespacetokenizerfactory的源码，写一个自己的myverticallinetokenizerfactory，内容基本不变：