It has been argued that American English listeners use dynamic spectral properties to classify English vowels (Hillenbrand et al. 1995, Hillenbrand 2013, Morrison 2013, Nearey and Assmann 1986, Zahorian and Jagharghi 1993). Hillenbrand et al. (1995) v... It has been argued that American English listeners use dynamic spectral properties to classify English vowels (Hillenbrand et al. 1995, Hillenbrand 2013, Morrison 2013, Nearey and Assmann 1986, Zahorian and Jagharghi 1993). Hillenbrand et al. (1995) verified through pattern recognition modeling that American English listeners use dynamic spectral properties of F1/F2 to perceive English vowels rather than static spectral properties. However, Hong (2015) tried pattern recognition modeling of Korean listeners’perception of English vowels. Also Hong (To appear) tried pattern recognition modeling of Korean speakers’production of English vowels. In both s, it is ed that Korean listeners and speakers use static spectral properties to categorize English vowels. He suggested that this is because Korean listeners use static spectral properties to identify Korean vowels but did not provide reasonable evidence. Therefore, the present study builds a logistic regression classification model to see which spectral properties Koreans use to identify Korean vowels. In this study, 18 Korean speakers(7 males and 11 females) recorded 8 Korean monophthongs (/a, ʌ, o, u, ɛ, e, ɨ, i/) in /hVd/ form, and 21 Korean listeners(8 males and 13 females) took a Korean vowel identification test. According to the pattern recognition modeling using Logistic Regression, it turned out that Koreans speak vowels using static spectral properties. Also, Koreans perceive Korean vowels using static spectral properties unlike American English listeners using dynamic spectral properties(Hillenbrand et al. 1995). Through the pattern recognition modeling of Koreans’production and perception of Korean vowels, we developed the Korean speech- recognizer which can categorize Korean vowels with the accuracy of more than 90%.
기존의 음성 인지·발화에 관한 연구에 따르면 미국인 청자들은 영어 모음을 인지할 때 동적 스펙트럼을 사용한다(Hillenbrand et al. 1995, Hillenbrand 2013, Morrison 2013, Nearey and Assmann 1986, Zahorian and Jag... 기존의 음성 인지·발화에 관한 연구에 따르면 미국인 청자들은 영어 모음을 인지할 때 동적 스펙트럼을 사용한다(Hillenbrand et al. 1995, Hillenbrand 2013, Morrison 2013, Nearey and Assmann 1986, Zahorian and Jagharghi 1993). Hillenbrand et al. (1995)에서는 판별 분석 패턴 인식 모델링을 사용하여 미국인 청자의 영어 모음 인지 방식을 설명한다. 그들에 따르면, 미국인 청자의 모음 인지 방식은 정적 스펙트럼(모음의 전체 길이에서 F1, F2, F3 값이 안정적인 부분에서 측정된 값)으로 이루어진 패러미터 세트보다 동적 스펙트럼(모음의 전체 길이에서 20%와 80% 부분에서 측정된 F1, F2, F3 값)으로 구성된 패러미터 세트로 더 잘 설명될 수 있다고 주장한다. 반면에 Hong (2015)은 한국인 청자를 대상으로 미국인 화자가 발화한 영어 모음에 대한 인지 실험을 실시하였고, 그 결과를 바탕으로 Hillenbrand et al. (1995)과 유사한 방식으로 한국인 청자의 영어 모음 인지 능력에 대한 패턴 인식 모델링을 시도하였다. 또한 Hong (To appear)에서는 한국인 화자의 영어 모음에 대한 발화 실험을 실시하였고, 이를 기반으로 패턴 인식 모델링을 시도하였다. Hong (2015)과 Hong (To appear)은 미국인과 달리 모음의 안정된 부분에서 측정한 F1, F2, F3 값을 이용하여 세운 패러미터 세트가 한국인의 영어 모음 발화와 인지를 더 잘 설명하였다고 보고하였다. 이러한 결과를 기반으로 하여, Hong (2015)과 Hong (To appear)은 한국인이 한국어 모음을 발화·인지할 때 모음의 안정된 부분에서 측정한 F1, F2, F3 값을 사용하기 때문에 영어 모음을 발화·인지할 때에도 그 영향을 받는 것이라고 추측하였으나 명확한 증거를 제시하지 못하였다. 본 논문은 한국인이 한국어 모음을 발화·인지할 때 Hong (2015)과 Hong (To appear)의 주장대로 모음의 안정된 부분에서 측정한 F1, F2, F3 값을 사용하는지의 여부를 패턴 인식 모델링을 통하여 밝히고자 한다. 본 논문에서는 한국인 화자의 한국어 모음 발화와 한국인 청자의 인지 방식을 모델링하기 위하여 총 18명(= 남자 7명 / 여자 11명)의 한국인 화자가 발화한 한국어 모음을 녹음하였고, 이를 21명(= 남자 8명 / 여자 13명)의 한국인 청자들에게 들려주었다. 녹음된 한국어 모음은 이중모음을 제외한 8개의 단모음(/아, 어, 오, 우, 애, 에, 으, 이/)이며 /hVd/의 형식으로 이루어져 있다. 한국인 화자가 발화한 한국어 모음을 이용하여 Logistic Regression을 이용한 패턴 인식 모델링에 최적화시켰다. 그 결과, 기본 주파수와 정적 스펙트럼(모음 길이의 50%에 해당하는 F1, F2, F3 값)을 사용하여 세운 패러미터 세트가 한국인 화자의 한국어 모음 발화를 가장 잘 설명하였다. 이는 한국인 화자가 영어 모음을 발화할 때 모음의 정적 스펙트럼(모음 길이의 50%에 해당하는 F1, F2, F3 값)을 사용한다는 것(Hong To appear)과 유사하다. 따라서 본 논문의 패턴 인식 모델링을 이용한 분석은 한국인 화자가 한국어 모음을 발화할 때 모음의 정적 스펙트럼을 사용한다는 것을 시사한다. 또한, 한국인 청자의 한국어 모음 인지 결과를 이용하여 한국인 청자의 한국어 모음 인지에 대한 패턴 인식 모델링도 실시하였다. 그 결과, 기본 주파수와 정적 스펙트럼(모음 길이의 50%에 해당하는 F1, F2, F3 값)을 사용하여 세운 패러미터 세트가 한국인 청자의 한국어 모음 인지를 가장 잘 설명하였다. 이는 미국인 청자가 영어 모음을 인지할 때 모음의 동적 스펙트럼(모음의 전체 길이에서 20%와 80% 부분에서 측정된 F1, F2, F3 값)을 사용하는 것(Hillenbrand et al. 1995)과는 상반되며, 한국인 청자가 영어 모음을 인지할 때 모음의 정적 스펙트럼(모음 길이의 50%에 해당하는 F1, F2, F3 값)을 사용한다는 것(Hong 2015)과는 일맥상통한다. 따라서 본 논문의 패턴 인식 모델링을 이용한 분석에 따르면, 한국인 청자가 한국어 모음을 인지할 때 모음의 정적 스펙트럼을 사용한다고 할 수 있다. 본 논문에서 패턴 인식 모델링을 시도한 결과, 한국인 화자의 한국어 모음 발화는 모음의 정적 스펙트럼으로 가장 잘 설명할 수 있고, 한국인 청자의 한국어 모음 인지도 마찬가지로 모음의 정적 스펙트럼으로 가장 잘 설명할 수 있다. 이는 한국인 화자와 청자는 공통적으로 모음의 정적 스펙트럼을 이용하여 한국어 모음을 발화하고 인지한다는 사실을 강력히 시사한다. 또한, 본 논문은 한국어 모음 발화와 인지에 관한 패턴 인식 모델링을 통하여 한국어 모음에 대한 음성 인식기를 개발하였다는 데에 그 의의가 있다. 이 음성 인식기는 /hVd/ 형식으로 발화된 한국어 모음을 약 90% 이상의 정확도로 올바르게 인식하였다. ,韩语论文,韩语论文网站 |