常见中文分词开源项目

com1com4

浏览: 157069 次
性别:
来自: 广州

最近访客更多访客>>

ninthtiger

harry_jh

relic6

alexluo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

全文检索

lucene Solr 算法 Linux FreeBSD

由于项目技术需要, 需要使用中文分词技术, 那么就去简单调研了一下, 简单搜集了一些资料

常见中文分词开源项目

SCWS

　　Hightman开发的一套基于词频词典的机械中文分词引擎，它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典，并辅以一定的专有名称，人名，地名，数字年代等规则识别来达到基本分词，经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒，大概是1.5MB文本/秒，支持PHP4和 PHP 5。

ICTCLAS

　　这可是最早的中文开源分词项目之一，ICTCLAS在国内973 专家组组织的评测中活动获得了第一名，在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机 996KB/s，分词精度98.45%，API不超过200KB，各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写，支持Linux、 FreeBSD及Windows系列操作系统，支持C/C++、C#、Delphi、Java等主流的开发语言。

HTTPCWS

　　HTTPCWS 是一款基于HTTP协议的开源中文分词系统，目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理，得出分词结果。HTTPCWS 将取代之前的 PHPCWS 中文分词扩展。　　庖丁解牛分词：　　Java 提供lucence 接口，仅支持Java语言。

CC-CEDICT

　　一个中文词典开源项目，提供一份以汉语拼音为中文辅助的汉英辞典，截至2009年2月8 日，已收录82712个单词。其词典可以用于中文分词使用，而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。

IK

　　IKAnalyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包。从 2006年12月推出1.0版开始，IKAnalyzer 已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对 Lucene的默认优化实现。

Paoding

　　 Paoding （庖丁解牛）基于Java的开源中文分词组件，提供lucene和solr 接口，具有极 高效率 和 高扩展性 。引入隐喻，采用完全的面向对象设计，构思先进。　　高效率：在PIII 1G内存个人机器上，1秒可准确分词 100万 汉字。　　采用基于 不限制个数 的词典文件对文章进行有效切分，使能够将对词汇分类定义。　　能够对未知的词汇进行合理解析

MMSEG4J

　　 MMSEG4J 基于Java的开源中文分词组件，提供lucene和solr 接口　　1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。　　2、MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四个规则过虑。官方说：词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

分享到：

分词算法分类 | Python简明教程

2010-07-07 22:43
浏览 4886
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

常见中文分词开源项目

常见中文分词开源项目

SCWS

ICTCLAS

HTTPCWS

CC-CEDICT

IK

Paoding

MMSEG4J

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

常见中文分词开源项目

常见中文分词开源项目

SCWS

ICTCLAS

HTTPCWS

CC-CEDICT

IK

Paoding

MMSEG4J

评论

发表评论

相关推荐

Coreseek简介

Sphinx简介

Solr 简介

什么是全文检索与全文检索系统

全文检索引擎-Lucene简介

分词算法分类

最近访客更多访客>>