生活在合肥,爱上合肥社区

合肥163论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 295|回复: 0

SCWS开源分词软件PHP API详细介绍

[复制链接]

141

主题

183

帖子

811

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
811
发表于 2018-8-12 22:54:04 | 显示全部楼层 |阅读模式
==运行时配置==

scws.default.charset  (default = utf8) , Changeable = PHP_INI_ALL
scws.default.fpath (default = NULL) , Changeable = PHP_INI_ALL
有关 PHP_INI_* 常量进一步的细节与定义参见PHP手册。

==资源类型==

本扩展定义了一种资源类型:一个 scws 指针,指向正在被操作的 scws 对象。

==预定义常量==

本扩展模块未定义任何常量。


==预定义类==

这是一个类似 Directory 的内置式伪类操作,类方法建立请使用 scws_new() 函数,
而不要直接用 new SimpledCWS。否则不会包含有 handle 指针,将无法正确操作。
包含的方法有:
class SimpledCWS  {
  resource handle;
  bool close(void);
  bool set_charset(string charset)
  bool set_dict(string dict_path)
  bool set_rule(string rule_path)
  bool set_ignore(bool yes)
  bool set_multi(int mode)
  bool set_duality(bool yes)
  bool send_text(string text)
  mixed get_result(void)
  mixed get_tops([int limit [, string xattr]])
  bool has_word(string xattr)
  mixed get_words(string xattr)
  string version(void)
};  

例子1. 使用类方法分词
<?php
$so = scws_new();
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
$so->send_text("我是一个中国人,我会C++语言,我也有很多T恤衣服");
while ($tmp = $so->get_result())
{
  print_r($tmp);
}
$so->close();
?>

例子2. 使用函数提取高频词
<?php
$sh = scws_open();

$text = "我是一个中国人,我会C++语言,我也有很多T恤衣服";
scws_send_text($sh, $text);
$top = scws_get_tops($sh, 5);
print_r($top);
?>

注意:
1  为方便使用,当 send_text 方法或 scws_send_text 函数被调用前,没有加载词典和规则集时,
系统会自动在scws.default.fpath(ini配置)中查找相应的字符集词典。词典和规则文件的命名
方式为 dict[.字符集].xdb 和 rules[.字符集].ini ,当字符集是 gbk 时中括号里面的部分则
不需要,直接使用 dict.xdb 和 rules.ini 而不是 dict.gbk.xdb 。

2  字典和规则文件一定要是可读取权限,否则分词会出错误,并且没有PHP代码提示。如果你的分词出现问题,检查一下字典、规则
文件是不是可读取的。因为是后来解压打开的,所以一开始我的就是没有权限,造成分词出现问题。

此外,输入的文字,词典,规则文件这三者的字符集必须统一,如果不是默认的 gbk 字符集
请调用 set_charset 或 scws_set_charset来设定,否则可能出现意外错误。

==函数列表:==

mixed scws_new(void)
说明:创建并返回一个 SimpledCWS 类操作对象。
参数:无
返回值:成功返回类操作句柄,失败返回 false

mixed scws_open(void)
说明:创建并返回一个分词操作句柄
参数:无
返回值:成功返回 scws 操作句柄,失败返回 false

bool scws_close(resource scws_handle)
说明:关闭一个已打开的 scws 分词操作句柄
返回:始终为 true
参数:scws_handle 即之前由 scws_open 打开返回的。

bool scws_set_charset(resource scws_handle, string charset)
说明:设定分词词典、规则集、欲分文本字符串的字符集,系统缺省是 gbk 字集。
返回:始终为 true
参数:scws_handle 即之前由 scws_open 打开返回的;
      charset 是要新设定的字符集,目前只支持 utf8 和 gbk。

bool scws_add_dict(resource scws_handle, string dict_path [, int mode])
说明:添加分词所用的词典,新加入的优先查找。
返回:成功返回 true 失败返回 false
参数:scws_handle 即之前由 scws_open 打开返回的;
         dict_path 是词典的路径,可以是相对路径或完全路径。(遵查安全模式下的open_basedir)
         mode 是可选参数,表示加载的方式,其值有三:SCWS_XDICT_XDB SCWS_XDICT_MEM SCWS_XDICT_TXT
              其中 SCWS_XDICT_TXT 表示文本词典,可结合另外2个值使用

bool scws_set_dict(resource scws_handle, string dict_path [, int mode])
说明:设定分词所用的词典并清除已存在的词典列表。
返回:成功返回 true 失败返回 false
参数:scws_handle 即之前由 scws_open 打开返回的;
         dict_path 是词典的路径,可以是相对路径或完全路径。(遵查安全模式下的open_basedir)
         mode 是可选参数,表示加载的方式,其值有三:SCWS_XDICT_XDB SCWS_XDICT_MEM SCWS_XDICT_TXT
              其中 SCWS_XDICT_TXT 表示文本词典,可结合另外2个值使用

bool scws_set_rule(resource scws_handle, string rule_path)
说明:设定分词所用的新词识别规则集(用于人名、地名、数字时间年代等识别)。
返回:成功返回 true 失败返回 false
参数:scws_handle 即之前由 scws_open 打开返回的;
      rule_path 是规则集的路径,可以是相对路径或完全路径。(遵查安全模式下的open_basedir)

bool scws_set_ignore(resource scws_handle, bool yes)
说明:设定分词返回结果时是否去除一些特殊的标点符号之类。
返回:始终为 true
参数:scws_handle 即之前由 scws_open 打开返回的;
      yes 设定值,如果为 true 则结果中不返回标点符号,如果为 false 则会返回,缺省为 false。

bool scws_set_multi(resource scws_handle, int mode)
说明:设定分词返回结果时是否复式分割,如“中国人”返回“中国+人+中国人”三个词。
返回:始终为 true
参数:scws_handle 即之前由 scws_open 打开返回的;
      mode 设定值,1~15。1|2|4|8 = short|duality|zmain|zall   
      按位与的 1 | 2 | 4 | 8 分别表示: 短词 | 二元 | 主要单字 | 所有单字
  1.1.1 起 1,2,4,8 分别对应常量 SCWS_MULTI_SHORT  SCWS_MULTI_DUALITY SCWS_MULTI_ZMAIN SCWS_MULTI_ZALL

bool scws_set_duality(resource scws_handle, bool yes)
说明:设定是否将闲散文字自动以二字分词法聚合
返回:始终为 true
参数:scws_handle 即之前由 scws_open 打开返回的;
      yes 设定值,如果为 true 则结果中多个单字会自动按二分法聚分,如果为 false 则不处理,缺省为 false。

bool scws_send_text(resource scws_handle, string text)
说明:发送设定分词所要切割的文本
返回:成功返回 true 失败返回 false
参数:scws_handle 即之前由 scws_open 打开返回的;
      text 是文本的内容。
注1:系统底层处理方式为对该文本增加一个引用,故不论多长的文本并不会造成内存浪费;
注2:执行本函数时,若未加载任何词典和规则集,则会自动试图在ini指定的缺省目录下查找词典和规则集。

mixed scws_get_result(resource scws_handle)
说明:根据 send_text 设定的文本内容,返回一系列切好的词汇。
返回:成功返回切好的词汇组成的数组, 若无更多词汇,返回 false。
参数:scws_handle 即之前由 scws_open 打开返回的。

注1:每次切割后本函数应该循环调用,直到返回 false 为止,因为程序每次返回的词数是不确定的。
注2:返回的词汇包含的键值有:word (string, 词本身) idf (folat, 逆文本词频)
                             off (long, 在文本中的位置) attr(string, 词性表示)

mixed scws_get_tops(resource scws_handle [, int limit [, string attr]] )
说明:根据 send_text 设定的文本内容,返回系统计算出来的最关键词汇列表。
返回:成功返回切好的词汇组成的数组, 若无更多词汇,返回 false。
参数:scws_handle 即之前由 scws_open 打开返回的;
      limit 可选参数,返回的词的最大数量,缺省是 10;
      attr 可选参数,是一系列词性组成的字符串,各词性之间以半角的逗号隔开,
      这表示返回的词性必须在列表中,如果以~开头,则表示取反,词性必须不在列表中,
      缺省为NULL,返回全部词性,不过滤。

mixed scws_get_words(resource scws_handle, string attr )
说明:根据 send_text 设定的文本内容,返回系统中词性符合要求的关键词汇。
返回:成功返回符合要求词汇组成的数组,返回 false。
参数:scws_handle 即之前由 scws_open 打开返回的;
        attr 是一系列词性组成的字符串,各词性之间以半角的逗号隔开,
        这表示返回的词性必须在列表中,如果以~开头,则表示取反,词性必须不在列表中,
        若为空则返回全部词性,不过滤。

bool scws_has_words(resource scws_handle, string attr )
说明:根据 send_text 设定的文本内容,返回系统中是否包括符合词性要求的关键词。
返回:如果有则返回 true,没有就返回 false。
参数:scws_handle 即之前由 scws_open 打开返回的;
        attr 是一系列词性组成的字符串,各词性之间以半角的逗号隔开,
        这表示要判断的词只要有一个符合词性要求就立即返回 true,
        若为空则只要 text 不为空就返回 true.

mixed scws_version(void)
说明:返回 scws 版本号名称信息。
返回:字符串
参数:无

类对象用法参照函数用法,区别就是不需要传入第一参数(会自动从handle的属性中取值)。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright ©2013-2015 hefei163.com All Right Reserved.  Powered by Discuz! (已备案)

本站信息均由会员发表,不代表合肥社区立场,如侵犯了您的权利请发帖投诉

平平安安
TOP
快速回复 返回顶部 返回列表