타코트론2를 이용한 다중화자 tts 인공지능 개발
logo

타코트론2를 이용한 다중화자 tts 인공지능 개발

2022, Mar 09    

프로젝트_口

2021-08-06 마친 프로젝트

발음기관 모방 프로젝트로 궁극적으로 사람을 모방하고자 하는 의도를 가진 프로젝트입니다. 사람을 모방함으로서 여러 근본적인 궁금증과 인류사의 진화등을 연구할수있을것으로 예상됩니다.

발음을 자동화 하다…

프로젝트를 진행하며 저는 발음기관을 모방에대한 연구와 함께 이런프로그램을 자동화 그리고 개인화 하고자 했습니다.

타코트론2와,웨이브넷을 사용한 Multi-Speaker TTS를 개발했고

5명의 화자를 학습시켰습니다.

##첫번째 문제인 전대통령

moon

데이터는 11hr 50min 의 9,285개의 음성파일 오디오 샘플

이 세상에서 에르디아인을 한 마리도 남김없이 없애는 것, 그것이 전 인류의 소원이라고.

!audiomoon1

아 짜장면 먹고 싶어요

!audio moon2

조선의 궁궐에 당도한 것을 환영하오 낯선이여, 나는 나의 훌륭한 백성들을 굽어살피는 깨우친 세종이오

!audio moon3

##두번째 JTBC스튜디오 총괄사장, 손석희

son

데이터는 19 hr 49 min 의 15,140개의 음성파일

순순이 어두운 밤을 받아들이지 마세요. 노인들이여. 저무는 하루에 소리치고 저항해요. 분노하고 분노해요 사라져가는 빛에 대해

!audioson1

저는 에반게리온 초호기 파일럿, 이카리 신지입니다!

!audio son2

어쩌라고요

!audio son3

아군이 당했습니다

!audio son4

세번째최고의 파트너!, 원신의 페이몬.

paimon

데이터는 5hr 7min 의 4,884개의 음성파일

비위 맞춰주는거 너무 힘들다.

!audiopaimon1

여행자 레진이 지금 160개야.

!audio paimon2

우리 바람의 신은 죽었어

!audio paimon3

kss데이터를 활용하여….

kss

전문 여성 성우 한 분이 Korean, Korean-English 사전 책 4권의 예문을 읽은 약 12시간 분량의 데이터셋 데이터는 12 hr 51 min 의 12,853개개의 음성파일

죽으러 가는게 아니야 내가 정말 살아있는지 확인하러 가는거야

!audiokss1

우리 모두 서로가 타인을 위해 사는 보완적 관계를 가진다.

!audio kss2

임마 어깨 펴라 좁아보인다.

!audio kss3

개….그?….

우리의 주적은 간부다

!audiofun1

하나의 유령이 떠돌고 있다.

!audio fun2

풍자는 영어로 sarcasm 이고 일본어로 風刺입니다.

!audio fun3

___개발

___후기

생각보다 퀄이 안나와서 아쉽고 후처리로 더 잡아볼 생각 재미있었다. illustrated by: shunyk1101