화자인덱싱을 위한 스펙트럴 특징 추출 및 신경망 기반의 화자 식별에 관한 연구 [韩语论文]

资料分类免费韩语论文 责任编辑:金一助教更新时间:2017-04-28
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

연구에서는 멀티미디어 데이터의 인덱싱 뿐만 아니라 인간과 로봇의 상호작용(interaction)에 있어서, 다양한 음성처리(speech processing) 기술을 필요로 하는 활용도 높은 화자 인덱싱(speaker inde...

연구에서는 멀티미디어 데이터의 인덱싱 뿐만 아니라 인간과 로봇의 상호작용(interaction)에 있어서, 다양한 음성처리(speech processing) 기술을 필요로 하는 활용도 높은 화자 인덱싱(speaker indexing)에 관한 연구를 수행하였다.
화자 인덱싱을 위해 본 연구에서 진행한 연구는 크게 4가지로 화자의 발성 특성을 이용한 특징 추출(feature extraction)과 화자 변화 검출(speaker change detection), 적은양의 음성 데이터를 이용한 문장 독립의 화자 식별(text-independent speaker identification), 그리고 화자 인덱싱의 전처리 단계로 사용되는 음성/음악 분류(speech/music discrimination)에 관한 것이다.
화자의 특징 추출에 있어서 음성 신호는 음운 정보와 화자 정보를 모두 포함하고 있기 때문에, 신호에서 화자의 발성 특성(characteristic)만 추출하기가 대단히 어렵다. 따라서 화자 인덱싱의 성능 향상을 위해서는 특정 화자의 발성 특성을 효과적으로 추출해 내는 것이 중요하다. 본 연구에서는 발화와 인지(perception)의 단위인 음절(syllable)에서, 변별(distinction) 기능을 가지며 내재(immanence)적 길이를 가지고 있는 모음(vowel)의 지속성을 모델링한 특징을 추출하여 화자의 발성 특성으로 사용한다. 특징 추출은 스펙트럼(spectrum)을 분석하고 임계값을 적용하여 스펙트럴 피크 트랙(spectral peak track)을 추출한 후 모음의 지속성을 고려하여 추출한다. 이렇게 추출된 특징은 화자 변화 검출과 문장 독립의 화자 식별 그리고 음성/음악 분류에 사용된다.
화자 변화 검출 연구에서는 특징 추출 단계에서 추출된 화자의 발성 특성을 이용하고 거리 계산에 의한 변화 검출 알고리즘을 제안하였다. 제안한 방법의 성능 평가는 한국어 방송 뉴스에 대한 실험과 화자의 성별 구성에 따른 데이터에 대해 화자 변화 검출에 주로 사용되는 BIC(Bayesian Information Crite-rion)와의 성능을 비교하였다. 실험결과 제안한 스펙트럴 분석 기반의 특징과 거리 기반의 검출 방법이 기존의 방법보다 높은 성능을 보였다.
화자 클러스터링(speaker clustering)을 위한 다양한 접근 방법들 중에서, 본 연구에서는 화자가 발성한 적은양의 음성 데이터에서 화자의 발성 특성을 반영하는 특징을 추출하고, MLP(Multi-layer Perceptron) 신경망(Neural works)을 이용하여 화자 모델을 구성한다. 제안한 방법에서 유사한 발성 특성을 갖는 화자들을 사전(prior)에 클러스터링하기 위해 VQ(Vector Quantization)를 적용하고, 유사한 발성 특성을 갖는 화자들에 대해 화자 식별을 수행하여 성능을 향상시켰다. 실험결과 문장 독립의 화자 식별에서 주로 사용되는 GMM(Gaussian Mixture Model)과의 성능 비교에서 제안한 방법이 5초의 학습 데이터를 가지고 모델링한 화자들에 대해서 높은 성능을 보였다.
화자 인덱싱의 전처리 단계로 사용되는 음성/음악 분류의 연구에서는, 본 연구에서 제안한 최대 지속성 특징(MSDF: Maximum Spectral Duration Feature)과 인간의 청각적 지각 능력을 모델링한 MFSC(Mel-frequency Spectral Coefficient)와의 특징 결합을 통해 MFSC의 단점을 줄이면서 전체적인 성능 향상을 얻었다. 또한 다양한 실험을 통해 본 연구에서 제안한 방법이 음성/음악 분류에 효과적임을 확인하였다.

In this thesis, we studied the speaker indexing technique requiring various speech processing methods in multimedia data indexing and human robot interaction. We suggested the following four key areas for speaker indexing: (1) feature extraction usin...

In this thesis, we studied the speaker indexing technique requiring various speech processing methods in multimedia data indexing and human robot interaction.
We suggested the following four key areas for speaker indexing: (1) feature extraction using speaker speaking characteristic, (2) speaker change detection, (3) text-independent speaker identification using small amount of speech data, (4) speech/music discrimination for pre-processing part of speaker indexing.
In feature extraction of a speaker, the audio signal contains speech and speaker information. Furthermore distinction and extraction of speaker information from the audio signal are difficult. Therefore, the effective extraction of speaking style from a speaker’s voice is required for the performance of speaker indexing.
In this thesis, we extracted the duration and speaking style of a speaker from the vowel in syllable. It is a unit of pronouncing and perception and contains distinction function and immanence length. We analyzed the spectrum of speech signal and the spectral peak track using the threshold to extract duration of vowel. The extracted spectral duration feature was used for the speaker change detection, text-independent speaker identification, and speech/music discrimination.
In the speaker change detection, we used the spectral duration feature for feature parameter and proposed the distance method for change detection algorithm. We evaluated the performance for Korean broadcast news and the gender oriented data set. Also, the proposed method was compared with the BIC(Bayesian Information Criterion) method. Experimental results show that the proposed spectral analysis based method outperforms rather than previous methods.
From various approaches for a speaker clustering, we extracted the speaker specific speaking style from a small amount data and modeled the speaker model using the MLP(Multi-layer Perceptron) model of neural networks. In the proposed method, we applied a VQ(Vector Quantization) before speaker identification to cluster the similar speakers and improve the performance of speaker identification. The proposed method shows higher performance in text-independent speaker identification for 5 seconds of training data compared to the GMM(Gaussian Mixture Model).
In speech/music discrimination research, we combined the proposed MSDF(Maximum Spectral Duration Feature) and the previous MFSC(Mel-frequency Spectral Coefficient) to reduce disadvantage of MFSC. The MSDF and the MFSC are models that reflect the auditory perception ability of a human. From various experiments, the proposed combining features verify effectiveness to speech/music discrimination.

韩语论文范文韩语毕业论文
免费论文题目: