Daiv 모각코 #1 v2

모각코

blummerhen 2024. 7. 14. 20:04

화자 인식 (Speaker Recognition)

화자 인식 기술은 4단계로 분류된다. 화자 식별(Speaker Identification), 화자 검증(Speaker Verification), 화자 분리(Speaker Seperation), 화자 분할(Speaker Diarization)

2024.07.09 에 진행한 회의에서 4명의 팀원들이 각자 맡을 역할을 부여 받았다.

필자 역할 - 화자 식별

Speaker Identification 은 unknown Speaker의 voice pattern 을 등록 혹은 학습된 n개의 화자의 voice data 혹은 pattern data와 비교해 화자 혹은 pattern을 인식하는 process를 말한다.

음성 패턴 분석 라이브러리 프로젝트이므로 주어진 unknown Speaker voice data를 통해 Speaker를 식별하는 것이 아닌 유사한 pattern을 식별하는 방향으로 공부 및 개발을 해야할 것으로 보인다.

과정(procedure)

1. 다양한 voice pattern을 벡터로 나열한 Embedding 을 모델에 등록 혹은 학습

임베딩(Embedding)

텍스트, 오디오, 이미지 등의 객체를 연속된 벡터 공간의 점으로 표현하는 수단.

ex) 2024.07.09 라는 텍스트 (시간 정보)를 임베딩하는 예

x,y,z 축을 각각 년도, 월, 일에 할당해 이로 이루어진 벡터 공간 내에 텍스트 정보를 표현

4인 프로젝트에서 수많은 voice pattern을 임베딩하는 것은 불가능하기 떄문에 voice pattern embedded data는 kaggle, Ai hub 등 사이트의 dataset을 사용할 예정

알아볼 점: 벡터 공간의 점으로 표현한 후 Nearest - Neighbor 을 찾아 식별하는 Knn과 유사한가?

2. processing할 unknown Speaker의 voice pattern data를 Embedding(임베딩)

임베딩 할 수 있도록 모델을 구축해야함

3. 학습 혹은 등록된 Embedding 중 가장 가까운 voice pattern 으로 식별

향후 참고할 글:

Speaker Recognition & Diarization

Speaker Recognition (화자 인식) 입력받은 음성 데이터를 미리 저장된 데이터베이스와 비교하여 화자가 누구인지 식별하는 기술 Speaker Identification (화자 식별) 등록된 여러개의 목소리를 비교하여 화

velog.io

blummerhen 님의 블로그

blummerhen 님의 블로그 입니다.

화자인식,

blummerhen 님의 블로그