【摘要】:词汇的表示问题是自然语言处理的基础探讨内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的运用效果,然而在跨语言词汇的分布表示上国内外探讨很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习扩展等方式在中文语料中嵌入泰语的互译词、同类词、上义词等,学习出泰语词在汉泰跨语言环境下的分布。实验基于学习到的跨语言词汇分布表示运用于双语文本相似度计算和汉泰混合语料集文本分类,均取得较好效果。
【作者单位】:
昆明理工大学信息工程与自动化学院;昆明理工大学智能信息处理重点实验室;昆明理工大学理学院; 1引言词汇表征问题是自然语言处理的重要内容,是信息检索、数据挖掘、知识图谱构建等探讨方向的重要技术支持。基于统计机器学习的词汇表征措施的目标是从自然语言文本中学习出词序列的概率表示函数,其面临的一个困难在于词向量的维度灾难与数据稀疏问题[1],在训练的过程中每 ,泰语论文,泰语论文题目 |