发布时间:2016-05-04 11:10:26编辑:丝画阁阅读(315)
关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现。
安装步骤
下面的$LIB_PATH为依赖库安装目录,$INSTALL_PHP_PATH为PHP5安装目录。
安装libdatrie依赖库
$ tar zxvf libdatrie-0.2.4.tar.gz $ cd libdatrie-0.2.4 $ make clean $ ./configure --prefix=$LIB_PATH $ make $ make install
安装trie_filter扩展 (https://github.com/wulijun/php-ext-trie-filter)
$ $INSTALL_PHP_PATH/bin/phpize $ ./configure --with-php-config=$INSTALL_PHP_PATH/bin/php-config --with-trie_filter=$LIB_PATH $ make $ make install
然后修改php.ini,增加一行:extension=trie_filter.so,然后重启PHP。
PHP测试实例
<?php ini_set('memory_limit', '512M'); $arrWord = file('dict.txt'); $resTrie = trie_filter_new(); foreach ($arrWord as $k => $v) { trie_filter_store($resTrie, $v); } trie_filter_save($resTrie, __DIR__ . '/blackword.tree'); $resTrie = trie_filter_load(__DIR__ . '/blackword.tree'); $str = '王玉鹏的媳妇叫刘敏,王玉鹏的邮箱地址是wangyupeng@jiayuan.com,想不想知道他的QQ号呢?'; $arrRet = trie_filter_search_all($resTrie, $str); print_all($str, $arrRet); function print_all($str, $res) {//print_r($res); echo "$str\n"; foreach ($res as $k => $v) { echo $k."=>{$v[0]}-{$v[1]}-".substr($str, $v[0], $v[1])."\n"; } }
注意事项
dict.txt 为敏感词库,一个词一行
相关下载:
http://linux.thai.net/pub/thailinux/software/libthai/
https://github.com/wulijun/php-ext-trie-filter
关键字:
上一篇:贝叶斯公式
下一篇:PHP实现敏感词过滤系统
本站部分内容来源网络及网友上传,本站未必能一一鉴别其是否为公共版权或其版权归属,如果您认为侵犯您的权利,本站将表示非常抱歉!
请您速联系本站,本站一经核实,立即删除。删文删帖联系【2789291421@qq.com】