书籍封面

现代汉语基本词汇自动识别方法研究

《现代汉语基本词汇自动识别方法研究》以2002-2006年大陆地区发行的六种主流报纸(《人民日报》、《北京青年报》、《北京晚报》、《法制日报》、《环球时报》、《羊城晚报》)的动态流通语料库作为考察对象,动态跟踪和考察词汇在大众媒体中的使用情况,提出了词语通用度的计算公式,进而考察语言学家例证所获得的基本词汇先验集所具有的统计特征类型,确立基本词汇的特征描述向量,采用遗传算法构造基于动态流通语料库的“语言工程现代汉语基本词汇”CBVE①自动识别及提取模型,实现CBVE的自动提取,为现代汉语基本词汇研究提供了一种量化考察途径。  《现代汉语基本词汇自动识别方法研究》的主要贡献体现在:一,在大规模的动态流通语料库中.考察了大众媒体报纸的词汇真实使用情况。处理考察的语料规模庞大,覆盖文本数632255个,词次总数247257749,不同词种数8750105。第二,首次提出了在动态流通语料库中定量分析和考察CBVE基本词汇特征的一种方法,为今后基本词汇从定性研究过渡到定量研究提供了一种途径。第三,提出了一种词汇通用程度的计算方法,为词汇统计特征考察提供了一种新的计量指标。第四,借鉴了模式识别领域的研究方法,依据遗传算法搜寻特征向量空间范围广、收敛速度快、鲁棒性强等特点,将其应用到对CBVE自动识别及提取模型的参数训练上,获得了令人满意的结果。
微信读书推荐值
待评分
推荐
一般
不行
热门划线