분류 전체보기 6

Daiv 모각코 #6

1주차화자 인식(Speaker Recognition) 에서 화자 식별(Speaker Identification)을 맡아 공부를 하고 코드를 작성하는 활동을 6주 동안 진행했습니다. 초기에는 화자 식별이 무엇인지, 화자 식별이 어떤 식으로 이루어지는 지를 공부했습니다.2주차,3주차이후 PyTorch를 공부하면서 공식 커뮤니티 사이트에 등록되어있는 'PyTorch로 딥러닝하기' 문서를 이용해 torchvision에 등록되어있는 CIFAR10 데이터셋을 이용해 이미지 Classification 딥러닝 모델을 만들고 테스트 했습니다.4주차,5주차Classification 모델을 만들 떄에 사용한 신경망 모델을 조금 수정을 거쳐 오디오 학습 모델에도 사용했습니다.오디오 데이터를 Librosa 라이브러리의 libr..

모각코 2024.08.17

Daiv 모각코 #5

이번주차는 지난 4주 간 공부한 것을 바탕으로 딥러닝 모델을 구축하고 AI HUB에서 제공하는 화자 인식용 데이터를 이용하여 학습시켜 보았습니다.AI HUB에서 제공하는 화자 인식용 데이터는 전체크기가 8Gb 이상이기 때문에 맛보기용 데이터로 학습시켰습니다.https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=537 AI-Hub샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되www.aihub.or.kr사용한 라이브러리 목록입니다폴더 내의 모든 w..

모각코 2024.08.15

Daiv 모각코 #4 v2

앞으로 구축할 딥러닝 모델을 학습시키기 위해 voice data에 어떠한 전처리를 거쳐 활용할 것인지 알아보았습니다. 오디오 데이터를 전처리를 거치지 않고 그대로 사용한다면 파일의 크기도 너무크고 오래 걸리는 등의 단점이 있습니다.따라서 오디오 데이터를 Spectogram으로 변환하면 2차원 벡터에 표현하여 사용할 수 있습니다.그 중 Mel Spectogram은 소리의 파형을 인간이 들을 수 있는 Mel Scale 로 범위를 줄여 시각화 한 것입니다. Librosa 라이브러리를 활용해 쉽게 진행할 수 있습니다 librosa.load() 오디오 파일을 로드 librosa.feature.melspectogram()STFT(Short-Term Fourier Transform)을 활용하여 스펙토그램으로 오디오 ..

모각코 2024.07.31

Daiv 모각코 #2 v2

Pytorch 한국 사용자 모임 커뮤니티에 등록되어 있는 'Pytorch로 딥러닝하기: 60분만에 끝장내기' 참고하여 신경망 학습까지 진행 autograd 작동방식을 코드로 알아보기torch.autograd는 신경망 학습을 지원하는 Pytorch 라이브러리의 자동 미분 엔진미리 학습된 resnet18 모델을 불러와 간단한 방식으로 알아보았습니다3채널, 높이 넓이가 64인 이미지 표현 무작위 텐서 data와 label을 (1, 1000) 의 모양을 갖는 무작위 값으로 초기화 하여 진행prediction = model(data) 는 순전파 단계순전파란 신경망을 구성하는 layers를 순방향 input to output으로 데이터를 통과 시키는 과정 loss 는 순전파 단계의 예측값과 정답으로 지정된 labe..

모각코 2024.07.14

Daiv 모각코 #1 v2

화자 인식 (Speaker Recognition)화자 인식 기술은 4단계로 분류된다. 화자 식별(Speaker Identification), 화자 검증(Speaker Verification), 화자 분리(Speaker Seperation), 화자 분할(Speaker Diarization)2024.07.09 에 진행한 회의에서 4명의 팀원들이 각자 맡을 역할을 부여 받았다.필자 역할 - 화자 식별 Speaker Identification 은 unknown Speaker의 voice pattern 을 등록 혹은 학습된 n개의 화자의 voice data 혹은 pattern data와 비교해 화자 혹은 pattern을 인식하는 process를 말한다.  음성 패턴 분석 라이브러리 프로젝트이므로 주어진 unkno..

모각코 2024.07.14