快捷搜索:

PHP中文分词的简单实现代码分享

当然, 本文不是要对中文搜索引擎做钻研, 而是分享假如用 PHP 做一个站内搜索引擎。 本文是这个系统中的一篇。

我应用的分词对象是中科院谋略所的开源版本的 ICTCLAS。 别的还有开源的 Bamboo, 我随后也会对该对象进行调研。

从 ICTCLAS 启程是个不错的选择, 由于其算法传播对照广泛, 有公开的学术文档, 并且编译简单, 库依附少。 但今朝只供给了 C/C++, Java 和 C# 版本的代码, 并没有 PHP 版本的代码。 怎么办呢? 大概可以进修它的 C/C++ 源码和学术文档中, 然后再开拓一个 PHP 版本出来。 不过, 我要应用进程间通信, 在 PHP 代码里调用 C/C++ 版本的可履行文件。

下载源码解压后, 在有 C++ 开拓库和编译情况的机械上直接 make ictclas 即可。 它的 Makefile 脚本有个差错, 履行测试的代码没有加上'。/', 当然不能像 Windows 下履行成功了。 但也不影响编译结果。

进行中文分词的 PHP 类就鄙人面了, 用 proc_open() 函数来履行分词法度榜样, 并经由过程管道和其交互, 输入要进行分词的文本, 读取分词结果。

复制代码 代码如下:

您可能还会对下面的文章感兴趣: