본 논문은 나이브 베이즈 분류기를 이용하여 한국어 단어 의미 중의성을 해소한다. 그리고 7개의 서로 다른 확률 계산식을 통해 실험함으로써 가장 높은 정확률을 보이는 수식을 찾기 위해 ... 본 논문은 나이브 베이즈 분류기를 이용하여 한국어 단어 의미 중의성을 해소한다. 그리고 7개의 서로 다른 확률 계산식을 통해 실험함으로써 가장 높은 정확률을 보이는 수식을 찾기 위해 실험을 진행하였다. 또한 7개의 수식을 각각 품사별로 실험하여 품사별로 수식이 미치는 영향을 분석하고 각 실험의 결과를 비교하였다. 실험에 쓰일 분류기의 학습을 위해 세종 형태의미분석 말뭉치를 이용하였다. 말뭉치 데이터의 90%는 학습을 위한 학습 데이터로 이용하였으며, 나머지 10%의 데이터는 평가를 위한 평가 데이터로 이용하였다. 그리고 평가 데이터를 바꾸면서 같은 실험을 10회를 반복하는 10-겹 교차 검증을 이용해 실험 결과를 계산하였다. 실험을 위해 실험 대상으로 선택한 단어는 총 1,881개 단어이며 총 1,282,258개의 문장을 이용하여 실험을 진행하였다. 실험 결과 가장 높은 성능을 보인 수식은 다항분포 나이브 베이즈 확률 수식의 분모를 서로 다른 학습 단어의 수로 설정하고, 정규화에 이용되는 가짜수를 0.5로 설정한 수식이다. 이 수식의 실험 성능은 92.66%이며 실험 대상 어휘를 말뭉치 전체로 확장한 결과 99.85%의 높은 성능을 보였다. ,韩语论文,韩语论文网站 |