Jcseg(Java中文分词器) v2.6.8下载
官方软件信息
- 软件名称Jcseg(Java中文分词器) v2.6.8下载
- 支持语言简体中文
- 授权方式免费软件
- 更新日期2025年8月21日
- 文件大小10.86MB
- 下载文件名jcseg2.6.2.zip
软件介绍
Jcseg(Java中文分词器)软件
Jcseg是非常多的人都在使用人用的一款专业非常实用的轻量级Java中文分词工具,提供关键词提取和文章自动摘要等功能,并且拥有一个基于Jetty的web服务器,非常方便各大语言直接http调用,同时提供最新版本的lucene,solr和elasticsearch的搜索分词接口。感兴趣的小伙伴们赶快来非凡软件站下载吧!
Jcseg是非常多的人都在使用人用的一款专业非常实用的轻量级Java中文分词工具,提供关键词提取和文章自动摘要等功能,并且拥有一个基于Jetty的web服务器,非常方便各大语言直接http调用,同时提供最新版本的lucene,solr和elasticsearch的搜索分词接口。感兴趣的小伙伴们赶快来非凡软件站下载吧!
软件功能
Jcseg核心功能:
中文分词:mmseg算法 + Jcseg 独创的优化算法,七种切分模式。
关键字提取:基于textRank算法。
关键短语提取:基于textRank算法。
关键句子提取:基于textRank算法。
文章自动摘要:基于BM25+textRank算法。
自动词性标注:基于词库+(统计歧义去除计划),目前效果不是很理想,对词性标注结果要求较高的应用不建议使用。
命名实体标注:基于词库+(统计歧义去除计划),电子邮件,网址,大陆手机号码,地名,人名,货币,datetime时间,长度,面积,距离单位等。
Restful api:嵌入jetty提供了一个绝对高性能的server模块,包含全部功能的http接口,标准化json输出格式,非常方便各种语言客户端直接调用。
Jcseg中文分词:
七种切分模式:
简易模式:FMM算法,适合速度要求场合。
复杂模式:MMSEG四种过滤算法,具有较高的歧义去除,分词准确率达到了98.41%。
检测模式:只返回词库中已有的词条,很适合某些应用场合。
最多模式:细粒度切分,专为检索而生,除了中文处理外(不具备中文的人名,数字识别等智能功能)其他与复杂模式一致(英文,组合词等)。
分隔符模式:按照给定的字符切分词条,默认是空格,特定场合的应用。
NLP模式:继承自复杂模式,更改了数字,单位等词条的组合方式,增加电子邮件,大陆手机号码,网址,人名,地名,货币等以及无限种自定义实体的识别与返回。
n-gram模式:CJK和拉丁系字符的通用n-gram切分实现。
分词功能特性:
支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。
支持词库多目录加载. 配置lexicon.path中使用';'隔开多个词库目录.
词库分为简体/繁体/简繁体混合词库: 可以专门适用于简体切分, 繁体切分, 简繁体混合切分, 并且可以利用下面提到的同义词实现,简繁体的相互检索, Jcseg同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并。
中英文同义词追加/同义词匹配 + 中文词条拼音追加.词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。
中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且 Jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。

支持中英混合词和英中混合词的识别(维护词库可以识别任何一种组合)。例如:B超, x射线, 卡拉ok, 奇都KTV, 哆啦a梦。
支持英文的类中文切分,同样使用mmseg算法来消除歧义,例如:“openarkcompiler”会被切分成:“open ark compiler”,该功能也可以被关闭。
更好的拉丁支持,电子邮件,域名,小数,分数,百分数,字母和标点组合词(例如C++, c#)的识别。
自定义切分保留标点. 例如: 保留&, 就可以识别k&r这种复杂词条。
复杂英文切分结果的二次切分: 可以保留原组合,同时可以避免复杂切分带来的检索命中率下降的情况,例如QQ2013会被切分成: qq2013/ qq/ 2013, chenxin619315@gmail.com会被切分成: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。
支持阿拉伯数字/小数/中文数字基本单字单位的识别,例如2012年,1.75米,38.6℃,五折,并且 Jcseg会将其转换为“5折”加入分词结果中。
智能圆角半角, 英文大小写转换。
特殊字母识别:例如:Ⅰ,Ⅱ;特殊数字识别:例如:①,⑩。
配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。
智能中文人名/外文翻译人名识别。中文人名识别正确率达94%以上。(中文人名可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提高准确率),(引入规则和词性后会达到98%以上的识别正确率)。
自动中英文停止词过滤功能(需要在jcseg.properties中开启该选项,lex-stopwords.lex为停止词词库)。
词库更新自动加载功能, 开启一个守护线程定时的检测词库的更新并且加载(注意需要有对应词库目录下的的lex-autoload.todo文件的写入权限)。
自动词性标注(目前基于词库)。
自动实体的识别,默认支持:电子邮件,网址,大陆手机号码,地名,人名,货币等;词库中可以自定义各种实体并且再切分中返回。
以上就是非凡小编为大家带来的Jcseg(Java中文分词器)下载,想要了解更多非常实用工具类软件就请多多关注非凡软件站吧~
下载帮助:点击Jcseg(Java中文分词器)软件立即下载,解压后安装,一直点下一步,直到安装完成,再打开使用。
软件截图

版权声明
Jcseg(Java中文分词器)软件所展示的资源内容均来自于第三方用户上传分享,您所下载的资源内容仅供个人学习交流使用,严禁用于商业用途,软件的著作权归原作者所有,如果有侵犯您的权利,请来信告知,我们将及时撤销。
同类软件
相关推荐

贸易飞刷心术 v1.4下载

PHP300云类库 v1.12下载

ZKEYS域名主机管理系统 v5.3.1123下载

诺塔斯智能科技智能卡读写器PC测试工具 v2.9下载

zblog博客asp建站程序 v2.7下载

Wordpress v5.4.5下载

QQ客服在线代码生成器 v1.5下载

易语言源码空变量分析器 v1.8下载

jquery mobile代码助手 v0.5下载

非接触式IC卡读写器二次开发SDK v1.9下载

呆呆IIS防盗链扩展版 v2.5下载

PHPMyStats v4.0.9下载

G2 v5.0.13下载

动感下载系统(MeskyDMS) v3.6下载

Flash电子相册 v1.6下载

Koobi CMS v4.2.9下载

GitHub Desktop中文版 v3.3.7下载

蓝雨设计整站程序 v5.7下载





























