ICTCLAS 2011 简介  2010-12-21

ICTCLAS自上市以来,受到社会各界用户的广泛关注和支持,但在ICTCLAS推出2009版后,由于种种原因,导致新版迟迟没有发布,请大家见谅!

我们具体分析研究用户反馈的问题后,发现要解决这些问题,如不支持utf-8编码等,要在现有版本上进行修改是无法解决的。于是我们决定在参照以往版本的基础上,重新编写内核。从09年末开始准备,到现在大半年的时间里,调研、开发、测试……,在小组成员的不懈努力下,ICTCLAS 2011终于完成。在我们心中它依然不完美,但我们相信,只要有广大用户的支持,ICTCLAS就能越做越好!

ICTCLAS 2011较以往版本主要有以下变化:

1、内核全新改版
  内核改版后,分词速度更快普通机器平均 500KB/s左右,稳定性更高。

2、支持多线程
  ICTCLAS 2011 c/c++/c#版、JNI版均支持多线程调用。

3、支持UTF-8
  以往版本需要进行编码转换,统一转换成GB2312之后才能做进一步处理。系统当前版本支持GB2312、GBK、GB18030、UTF-8、BIG5。以上编码无需做任何转换,即可进行后续处理。用户可指定需要处理数据的具体编码(有利于提高速度)也可让系统自动识别编码。

4、支持繁体中文
  本版新增了对繁体中文的识别处理,支持Big5编码。

5、支持Windows7
  本版对Windows7支持良好。

6、支持大用户词典
  以往版本用户词典,词数过大时,影响分词速度。本版用户词数对分词速度基本没有影响,对大用户词典支持较好。

注意:较以前版本,本版接口有所改动,如:新增字符编码参数。具体改动请参考接口文档。为此对各位新老用户带来的不便,敬请谅解。

如果你有任何建议和意见,请联系我们 ictclas@ictclas.org 
ICTCLAS项目组 2010年12月