Java实现的最大匹配分词算法详解_Java教程

本文实例讲述了Java实现的最大匹配分词算法。分享给大家供大家参考，具体如下：

全文检索有两个重要的过程：

1分词

2倒排索引

我们先看分词算法

目前对中文分词有两个方向，其中一个是利用概率的思想对文章分词。也就是如果两个字，一起出现的频率很高的话，我们可以假设这两个字是一个词。这里可以用一个公式衡量：M(A,B)=P(AB)/P(A)P(B)，其中 A表示一个字，B表示一个字，P(AB)表示AB相邻出现的概率，P(A)表示A在这篇文章中的频度，P(B)表示B在这篇文章中的频度。用概率分词的好处是不需要借助词典的帮助，坏处是算法比较麻烦，效率不高，也存在一定的出错率。

另外的一个方向是使用词典分词。就是事先为程序准备一个词典，然后通过这个词典对文章分词。目前较流行的方式有正向最大匹配算法和逆向最大匹配算法。逆向最大匹配算法在准确性上要更好一些。

以 “我是一个坏人” 为例，并最大词长为３，词库包含有　我、是、一、个、一个、坏人、大坏人

正向的顺序为

我是一
我是
我 ===> 得到一个词
是一个
是一
是 ===>得到一个词
一个坏
一个===> 得到一个词
坏人===>得到一个词

结果我、是、一个、坏人

反向算法

个坏人
坏人==> 坏人
是一个
一个==> 一个
我是
是==> 是
我==> 我

结果我、是、一个、坏人

java代码如下

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

									package data;

									import java.util.Arrays;

									import java.util.HashSet;

									import java.util.Set;

									/**

									 * 最大匹配分词算法

									 *

									 * @author JYC506

									 *

									 */

									public class SplitString {

									 private Set<String> set = new HashSet<String>();

									 private int positiveOver = 0;

									 private int reverseOver = 0;

									 /**

									  * 正向最大匹配

									  *

									  * @param str 要分词的句子

									  * @param num 词的最大长度

									  * @return

									  */

									 public String[] positiveSplit(String str, int maxSize) {

									  int tem = 0;

									  int length = str.length();

									  String[] ss = new String[length];

									  char[] cc = str.toCharArray();

									  for (int i = 0; i < length; i++) {

									   positiveOver = 0;

									   String sb = this.toStr(cc, i, maxSize);

									   ss[tem++] = sb;

									   i = i + positiveOver;

									  }

									  String[] ss2 = new String[tem];

									  System.arraycopy(ss, 0, ss2, 0, tem);

									  return ss2;

									 }

									 /**

									  * 添加词库

									  *

									  * @param words

									  */

									 public void addWord(String[] words) {

									  for (String st : words) {

									   this.set.add(st);

									  }

									 }

									 /**

									  * 逆向最大匹配

									  *

									  * @param str

									  * @param num

									  * @return

									  */

									 public String[] reverseSplit(String str, int num) {

									  int tem = 0;

									  int length = str.length();

									  String[] ss = new String[length];

									  char[] cc = str.toCharArray();

									  for (int i = str.length() - 1; i > -1; i--) {

									   reverseOver = 0;

									   String sb = this.toStr2(cc, i, num);

									   tem++;

									   ss[--length] = sb;

									   i = i - reverseOver;

									  }

									  String[] ss2 = new String[tem];

									  System.arraycopy(ss, str.length() - tem, ss2, 0, tem);

									  return ss2;

									 }

									 private String toStr(char[] cs, int start, int num) {

									  int num2 = num;

									  out: for (int j = 0; j < num; j++) {

									   StringBuffer sb = new StringBuffer();

									   for (int i = 0; i < num2; i++) {

									    if (start + i < cs.length) {

									     sb.append(cs[start + i]);

									    } else {

									     num2--;

									     j--;

									     continue out;

									    }

									   }

									   if (set.contains(sb.toString())) {

									    positiveOver = num2 - 1;

									    return sb.toString();

									   }

									   num2--;

									  }

									  return String.valueOf(cs[start]);

									 }

									 private String toStr2(char[] cs, int start, int num) {

									  int num2 = num;

									  for (int j = 0; j < num; j++) {

									   StringBuffer sb = new StringBuffer();

									   for (int i = 0; i < num2; i++) {

									    int index = start - num2 + i + 1;

									    if (index > -1) {

									     sb.append(cs[index]);

									    } else {

									     num2--;

									    }

									   }

									   if (set.contains(sb.toString())) {

									    reverseOver = num2 - 1;

									    return sb.toString();

									   }

									   num2--;

									  }

									  return String.valueOf(cs[start]);

									 }

									 public static void main(String[] args) {

									  String[] words = new String[] { "我们", "我们五人", "五人一组", "一组" };

									  SplitString ss = new SplitString();

									  /*添加词到词库*/

									  ss.addWord(words);

									  String st = "我们五人一组";

									  System.out.println("服务器之家测试结果：");

									  System.out.println("要分词的句子：" + st);

									  /*使用两种方式分词，下面我指定最大词长度为4*/

									  String[] ss2 = ss.reverseSplit(st, 4);

									  String[] ss1 = ss.positiveSplit(st, 4);

									  System.out.println("正向最大匹配分词算法分词结果：" + Arrays.toString(ss1));

									  System.out.println("逆向最大匹配分词算法分词结果：" + Arrays.toString(ss2));

									 }

									}