본 연구에서는 음절을 대상으로 하여 2개의 음성인식 모델 HMM 및 DNN 기반의 음성인식 모델의 인식률을 비교 분석하였다. 이를 위하여 학습량, 화자적응에서의 화자독립, 화자적응에서의 화...
본 연구에서는 음절을 대상으로 하여 2개의 음성인식 모델 HMM 및 DNN 기반의 음성인식 모델의 인식률을 비교 분석하였다. 이를 위하여 학습량, 화자적응에서의 화자독립, 화자적응에서의 화자종속의 경우에 인식률을 비교 분석하였다. 인식률 비교에 사용된 음성은 고립단어 한국어 /0/, /1/, /2/,,,, /9/까지의 음성을 이용하고 이를 음소 단위로 나눠서 각 모델의 학습 데이터로 사용하였다. 음절을 음소단위로 추출하는 방법으로는 포만트 분석을 통해 공명주파수 F1~F4의 주파수를 이용하여 각 음절의 초성, 중성, 종성의 음소를 추출하였다.
음성인식 모델의 구축에 필요한 입력신호는 포만트 분석을 통해 구별된 음소를 주파수별 특징을 가지는 특징벡터로 변환하였다. 특징벡터의 추출은 멜 주파수 캡스트럼 계수 (Mel Frequency Cepstral Coefficient, MFCC)를 사용하며 총 20계수를 입력신호 벡터로 사용하였다. 비교에 사용하는 인식방법의 분류로는 학습량을 점차 늘리면서 인식률을 비교하는 방법, 12명의 서로 다른 화자와 8명의 같은 화자를 사용하여 화자적응이 가능한 모델을 구축한 후 서로 다른 화자의 숫자음을 인식하는 화자적응에서의 화자독립 방법, 같은 화자의 숫자음을 인식하는 화자적응에서의 화자종속인식 방법에 대해 인식률을 비교하였다.
학습량에 따른 인식모델의 인식률에서 HMM기반 인식모델은 점차 상승하는 인식률을 보이며 노이즈를 포함한 음성을 학습한 후 인식률이 하강하는 경향을 보여주었다. DNN기반 인식모델의 경우 적은 학습량에서는 HMM기반 인식모델보다 높은 인식률을 보여주었지만 학습량 증가에 따른 인식률 상승은 거의 없었다.
화자적응을 통한 화자독립의 경우 HMM기반 인식모델에서 증가하는 인식률을 보여주었고 최대 90%의 인식률을 얻었다. 가장 많이 인식에 실패한 숫자음은 /3/이며, /4/로 잘못 인식했다. DNN기반 인식모델의 경우 인식률이 50%에서 시작하여 인식률이 점차 감소하는 모습을 보여주었고 마지막 인식결과에서만 70%의 결과를 보여주었다.
회자적응을 통한 화자종속의 경우 HMM기반 인식모델에서 최대 80%의 인식률을 보였으며 DNN기반 인식모델의 경우 최대 50%의 인식률을 보여주었다.
3가지 경우를 토대로 HMM기반 인식모델과 DNN기반 인식모델의 인식률을 분석한 결과, 음절 인식에서는 HMM기반 인식모델이 DNN기반 인식모델보다 높은 인식률을 보여주었다. 인식모델마다 특정 숫자음에 대해서는 높은 인식률을 보여주었는데, DNN기반 인식모델의 경우 /2/, /4/, /7/의 음절에서 높은 인식률을 보인다. 반면 /0/, /5/, /6/의 음절은 인식률이 다른 음절에 비해 매우 낮은 인식률을 보여주었다. HMM기반 인식모델의 경우 숫자음 /3/, /4/의 종성 음소 /ㅁ/을 인식하지 못하는 결과를 보여주었다.
In this study, recognition rate of the HMM and DNN based speech recognition model for a syllable was compared and analyzed. The voice signals for this study were the speeches of the isolated syllables, the Korean digit /0/, /1/, /2/, ..... /9/, Those...
In this study, recognition rate of the HMM and DNN based speech recognition model for a syllable was compared and analyzed. The voice signals for this study were the speeches of the isolated syllables, the Korean digit /0/, /1/, /2/, ..... /9/, Those syllables were divided into the phonemes and were inputted to the speech recognition model as training data. To extract phonemes from a syllable, formant analysis was performed. By using the formant analysis with four resonant frequencies, F1~F4, we can divide the initial, medial and final phonemes from a syllable. After the formant analysis, we can extract the feature vectors from phonemes, and those vectors were used for building a speech recognition model. Mel Frequency Cepstral Coefficients (MFCCs) were extracted from the speech signals within a phoneme unit and the feature vectors consisted of those 20 coefficients of MFCCs.
For the comparison of the performances of speech recognition model, the variation of the recognition rates according to the amount of training data were compared and analyzed, and those for the speaker independent or the speaker adaptation, or the speaker dependent cases were also compared. From the experiments, we could find the trend that the recognition rate increases with the number of training data in HMM based recognition model. But the rate of recognition decreased after the input of speech signals with noise as a training data. In the experiments for the DNN based model, DNN based speech recognition model showed a better recognition rate than the HMM based model, when small amount of training data were inputted, but the rate did not increased with the amount of training data, so that the final rate of recognition were lower than that of HMM based model. The recognition rate started with 50% but the value varied with the amount of training data, from 20% to 70%. For the speaker independent case which includes some speaker adaptation data, the recognition rate increased with the amount of training data in the HMM based model, the maximum value was 90%. The speech of the Korean digit /3/ was the syllable of the most frequently failed to recognize, that syllable was misunderstood as the digit /4/. We guessed the reason for the misunderstanding was that the speech signal of /ㅁ/, the final phoneme of /3/ was failed to recognize in the HMM based model. In the experiments for the DNN based speech recognition model, the recognition rate was 100% for the syllable /2/, /4/ and /7/. But the value was very low, below 25%, for the syllable /0/, /3/, /5/, /6/ and /9/. We guess that the reason for this result was from the limitation of one dimensional DNN based model, two dimensional N x M DNN based model might contribute to improve the recognition rate of DNN based model.
,韩语论文,韩语论文题目 |