Solr通过特殊字符分词实现自定义分词器详解

2025-05-29 0 101

前言

我们在对英文句子分词的时候,一般采用采用的分词器是whitespacetokenizerfactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与whitespacetokenizerfactory相像,于是自己根据solr源码自定义了分词策略。

业务场景

有一次,我拿到的数据都是以竖线“|”分隔,分词的时候,需要以竖线为分词单元。比如下面的这一堆数据:

Solr通过特殊字符分词实现自定义分词器详解

有可能你拿到的是这样的数据,典型的例子就是来自csv文件的数据,格式和下面这种类似:

Solr通过特殊字符分词实现自定义分词器详解

分词思路

solr的schema.xml文件中,有这样的配置

?

1

2

3

4

5
<fieldtype name="text_ws" class="solr.textfield" positionincrementgap="100">

<analyzer>

<tokenizer class="solr.whitespacetokenizerfactory"/>

</analyzer>

</fieldtype>

对于字段类型text_ws,指定了一个分词器工厂whitespacetokenizerfactory,根据这个类,可以实现通过空格来分词,那么我通过竖线分词的代码应该与之类似。

修改源码

在java工程中引入如下jar包:

?

1

2

3

4

5
<dependency>

<groupid>org.apache.solr</groupid>

<artifactid>solr-core</artifactid>

<version>6.0.0</version>

</dependency>

参照whitespacetokenizerfactory的源码,写一个自己的myverticallinetokenizerfactory,内容基本不变:

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45
package com.trainning.project.custom;

import java.util.arrays;

import java.util.collection;

import java.util.map;

import org.apache.lucene.analysis.tokenizer;

import org.apache.lucene.analysis.core.unicodewhitespacetokenizer;

import org.apache.lucene.analysis.util.tokenizerfactory;

import org.apache.lucene.util.attributefactory;

/**

* @author jiangchao

* @date 2017年4月2日下午3:41:13

*/

public class myverticallinetokenizerfactory extends tokenizerfactory{

public static final string rule_java = "java";

public static final string rule_unicode = "unicode";

private static final collection<string> rule_names = arrays.aslist(rule_java, rule_unicode);

private final string rule;

/** creates a new myverticallinetokenizerfactory */

public myverticallinetokenizerfactory(map<string,string> args) {

super(args);

rule = get(args, "rule", rule_names, rule_java);

if (!args.isempty()) {

throw new illegalargumentexception("unknown parameters: " + args);

}

}

@override

public tokenizer create(attributefactory factory) {

switch (rule) {

case rule_java:

return new myverticallinetokenizer(factory);

case rule_unicode:

return new unicodewhitespacetokenizer(factory);

default:

throw new assertionerror();

}

}

}

具体做分词的myverticallinetokenizer代码如下

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26
package com.trainning.project.custom;

import org.apache.lucene.analysis.util.chartokenizer;

import org.apache.lucene.util.attributefactory;

/**

* @author jiangchao

* @date 2017年4月2日下午9:46:18

*/

public class myverticallinetokenizer extends chartokenizer {

public myverticallinetokenizer() {

}

public myverticallinetokenizer(attributefactory factory) {

super(factory);

}

/** collects only characters which do not satisfy

* 参数c指的是term的ascii值,竖线的值为 124

*/

@override

protected boolean istokenchar(int c) {

return !(c == 124);

}

}

这里最主要的方法就是istokenchar,它控制了分词的字符,如果需要使用逗号分词的话,字需要将这个方法修改成下面这样:

?

1

2

3

4

5

6

7
/** collects only characters which do not satisfy

* 参数c指的是term的ascii值,逗号的值为 44

*/

@override

protected boolean istokenchar(int c) {

return !(c == 44);

}

整合

代码写好了,怎么使用呢?首先,需要把刚才的java文件打成jar包。我使用的是eclipse,直接选中两个类文件,右键 -> export -> jar file -> select the export destination: ->选择输出路径,填一个jar名字:myverticallinetokenizerfactory -> finish

得到的myverticallinetokenizerfactory.jar文件大约3kb,将改文件放置到.\\solr_home\\lib下,在shcema.xml中定义自己的field

?

1

2

3

4

5

6
<fieldtype name="vertical_text" class="solr.textfield">

<analyzer>

<tokenizer class="com.trainning.project.custom.myverticallinetokenizerfactory"/>

</analyzer>

</fieldtype>

<field name="custom" type="vertical_text" indexed="true" stored="false"/>

注意这里的class是刚才自己写的分词器的完整类名。

打开solr主页,在analysis页面测试一下,是否实现了预期?

源码下载:

github:下载地址

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对快网idc的支持。

原文链接:http://blog.csdn.net/jiangchao858/article/details/68954044

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

快网idc优惠网 建站教程 Solr通过特殊字符分词实现自定义分词器详解 https://www.kuaiidc.com/114812.html

相关文章

发表评论
暂无评论