分词技术,为什么我的语言栏总是不显示?
汉语不分词,对于人类阅读方便,因为汉语词长1-3字居多,不分词明显信息密度高很多,其造成的歧义很低频分词技术。但汉语分词,对NLP(自然语言处理)友好,免去了机器分词这个步骤。
我的建议是,在Unicode里添加一个字符,叫做汉语分词符,在操作系统的UI设置上添加全局选项
1. 是否将分词符显示为空格
2. 分词用全角还是半角空格
然后,要求输入法候选栏必须显示分词空格。
如此一来,读者根据习惯空格显示与否都可以,但输入到文档里都是有的。如果万码奔腾的时代(或者再早)这样做了,这会给当时的NLP带来莫大便利。不过现在分词技术慢慢完善了,这样做的需求貌似不大,本文算个马后炮吧。
中文分词技术 搜索引擎
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1、基于字符串匹配的分词方法。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
2、基于理解的分词方法。
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。
3、基于统计的分词方法。
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。
互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。
因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。
请问您要问的是什么呢?