본 논문은 유·무선 통신 환경을 통해 전달된 음성으로부터 사람의 감성 상태를 인식할 수 있는 화자독립 음성 감성인식 시스템을 제안한다. 이를 위해 본 연구에서는 유·무선 통신 환경의 ...
본 논문은 유·무선 통신 환경을 통해 전달된 음성으로부터 사람의 감성 상태를 인식할 수 있는 화자독립 음성 감성인식 시스템을 제안한다. 이를 위해 본 연구에서는 유·무선 통신 환경의 화자독립 음성 감성인식 시스템에서 발생할 수 있는 몇 가지 문제점들의 해결 방안들을 제시하였다.
첫째, 기존 국내에서 구축된 한국어 음성 감성 데이터베이스의 화자종속, 문장종속, 동일한 녹음환경 가정 등의 문제점을 극복한 새로운 감성 데이터베이스를 구축하였다. 본 연구에서는 평상, 기쁨, 슬픔, 화남 4가지 감성에 대해 감성별 100문장으로 전체 400문장에 대해 감성 표현 훈련을 거친 남·여 각 20명이 녹음을 진행하여 총 16,000개의 감성 문장을 데이터베이스로 구축하였다.
둘째, 유·무선 통신 시스템을 통해 습득된 음성은 화자의 환경 잡음과 네트워크 잡음을 포함하고 있어 음성 신호의 감성특징을 왜곡하게 되고 이 때문에 인식 시스템에 심각한 성능저하를 가져오게 된다. 따라서 본 연구에서는 이러한 잡음 영향을 최소화하고 강인한 감성 특징벡터를 추출하기 위해 비교적 단순한 구조의 MA(Moving Average) 필터를 제안하였으며 SFS 특징벡터 최적화 기법을 적용하여 시스템 성능을 한층 더 안정화시켰다.
셋째, 감성인식 성공률을 높이고자 1차적으로 남·여 성별을 구분한 뒤 성별에 따라 최적화된 특징벡터 열을 이용하여 음성 감성 인식을 수행함으로써 인식 성공률을 향상시켰다.
마지막으로 감성인식 시스템은 감성 훈련용 음성과 불특정 고객들의 질의 음성이 전혀 다른 환경에서 녹음되는 경우가 대부분이기 때문에 기존의 전통적인 평상과 화남의 이진 감성 분류 방법은 많은 성능 저하와 함께 시스템 불안정성을 가져오게 된다. 이러한 문제점을 극복하기 위해 본 연구에서는 평상과 화남 2가지 감성을 분류할 때 남·여 성별에 따른 감성별 특성 변화를 적용하여 기존의 감성 분류 체계를 2단계 분류 체계로 확장하였다. 실험 결과 제안한 방법은 녹음 환경 차이로 말미암아 편향된 인식 결과 문제와 더불어 상당한 인식 성능 개선 또한 가져올 수 있음을 알 수 있었다.
This thesis proposes speaker independent speaker emotion recognition system that can discriminate human emotional state from the acquired speech under the wire and wireless communication environment. For this purpose, we suggest some methods and solut...
This thesis proposes speaker independent speaker emotion recognition system that can discriminate human emotional state from the acquired speech under the wire and wireless communication environment. For this purpose, we suggest some methods and solutions to overcome the problems that can possibly occur in speaker independent emotion recognition system under the communication environment.
At first, we build new emotion DB that compensates the limit of existing Korean emotion DB such as speaker dependency, text dependency, and strong assumption of same recording condition between the training DB and the test speech. A new DB contains a total of 16,000 emotional sentences across the four emotional states such as neutral, happiness, sadness, and angry. Each emotional DB consists of 100 sentences and they are recorded by twenty males and females respectively, who have been well-trained for this research.
Secondly, the speech through the mobile network contains speaker environmental noise and network noise, thus it can cause serious system performance degradation due to the distortion in emotional features of the query speech. In order to minimize the effect of these noises and so improve the system performance, we adopt a simple MA(Moving Average) filter which has relatively a simple structure and low computational complexity, to alleviate the distortion in the emotional feature vector. Then SFS(Sequential Forward Selection) feature optimization method is implemented to further improve and stabilize the system performance.
Thirdly, in order to improve the recognition performance, we propose a new method of hierarchical recognition system. The system first discriminates the gender of speech in male and female, and then uses the optimized feature vector for each gender specified speech.
Finally, the emotion recognition system in commercial environment such as call-center undergoes severe system performance degradation and instability due to the speech characteristic differences between the system training DB and the input speech of unspecified customers. In order to alleviate these problems, this thesis extends traditional method of emotion recognition of neutral/anger into two-step hierarchical structure by using emotional characteristic changes and differences of male and female. The experimental results indicate that the proposed method provides very stable and successful emotional classification performance over the traditional methods.
,韩语论文网站,韩语论文网站 |