모각코

Daiv 모각코 #4 v2

blummerhen 2024. 7. 31. 18:37

앞으로 구축할 딥러닝 모델을 학습시키기 위해 voice data에 어떠한 전처리를 거쳐 활용할 것인지 알아보았습니다.

 

오디오 데이터를 전처리를 거치지 않고 그대로 사용한다면 파일의 크기도 너무크고 오래 걸리는 등의 단점이 있습니다.

따라서 오디오 데이터를 Spectogram으로 변환하면 2차원 벡터에 표현하여 사용할 수 있습니다.

그 중 Mel Spectogram은 소리의 파형을 인간이 들을 수 있는 Mel Scale 로 범위를 줄여 시각화 한 것입니다.

 

Librosa 라이브러리를 활용해 쉽게 진행할 수 있습니다

 

librosa.load() 오디오 파일을 로드

 

librosa.feature.melspectogram()

STFT(Short-Term Fourier Transform)을 활용하여 스펙토그램으로 오디오 파일을 변환

https://walkaroundthedevelop.tistory.com/129

 

소리 데이터를 활용한 딥러닝 - Mel Spectrogram

소리를 이용한 딥러닝을 하는데 있어서 한 가지 방법은 Mel Spectrogram을 이용하는 방법입니다. Mel Spectrogram이란, 소리의 파형을 인간이 들을 수 있는 범위로 줄인 Mel scale로 다운 스케일한 이후 그

walkaroundthedevelop.tistory.com

 

SpeechBrain은 PyTorch를 베이스로 한 오디오 툴킷을 제공해주는 오픈 소스 입니다.

저는 SpeechBrain의 API 중 speechbrain.processing.features module 을 사용하여 오디오 데이터 전처리를 진행하기 위해

알아보았습니다. 

 

speechbrain.processing.features.STFT 모듈은 사용자가 불러온 오디오 파일을 STFT(Short-Term Fourier Transform) 를 활용하여 스펙토그램으로 변환하고 정규화 해주는 모듈

 

speechbrain.processing.features.ISTFT 는 위의 STFT모듈로 변환된 스펙토그램을 다시 오디오파일 형태로 변환

 

speechbrain.processing.features.ContextWindow 는 하나의 특징 벡터에 앞뒤의 시간 단계를 고려해 학습

https://speechbrain.readthedocs.io/en/latest/API/speechbrain.processing.features.html

 

 

 

 

'모각코' 카테고리의 다른 글

Daiv 모각코 #6  (0) 2024.08.17
Daiv 모각코 #5  (0) 2024.08.15
모각코 #3 v2  (0) 2024.07.21
Daiv 모각코 #2 v2  (0) 2024.07.14
Daiv 모각코 #1 v2  (2) 2024.07.14