生活在合肥,爱上合肥社区

合肥163论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 308|回复: 0

scws 分词 自定义词库

[复制链接]

141

主题

183

帖子

811

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
811
发表于 2018-8-11 22:13:44 | 显示全部楼层 |阅读模式
思路:利用scws的工具,把现有词库导出为txt,然后修改txt,再把txt转换成xdb文件
               首先,php需要增加并开启scws模块,推荐一个dll下载地址http://www.xunsearch.com/scws/download.php。把dll放到对应php扩展目录下,配置php.ini这些就不多说了。             然后,去下载一下xdb(词库)导入导出工具。压缩包中有两个重要的php文件
             1、dump_xdb_file.php  : 把sdb文件导出为txt文件。
             2、make_xdb_file.php  :  把txt文件转为xdb词库文件。
                   make_xdb_file.php 同样是在命令行模式下运行(需要安装 mbstring 扩展)
   默认是处理 gbk 编码的文本,如果你的文本是 utf8,则需要修改该程序的第一行,把
   define('IS_UTF8_TXT', false);  改为 true。
             用cmd命令执行这两个文件即可。例如:
                    php dump_xdb_file.php E:\swcs\scws\etc\dict.xdb  D:\123.txt
                    php make_xdb_file.php E:\swcs\scws\etc\dict2.xdb  D:\123.txt


             3、导出的txt文件格式如下
                                    # WORD TF IDF ATTR
                                     当机立断 14.01 8.10 i

                     tf和idf为权重,attr为词性,i表示成语。n表示名词。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright ©2013-2015 hefei163.com All Right Reserved.  Powered by Discuz! (已备案)

本站信息均由会员发表,不代表合肥社区立场,如侵犯了您的权利请发帖投诉

平平安安
TOP
快速回复 返回顶部 返回列表