ìì±ì¸ìì íìí 기ì´ê°ë 1
******************************************************************************************************************************
ì´ ê¸ì ReadyToUseAIìì 무ë£ë¡ ì ê³µíë ê°ì를 ë£ê³ ì 리í ë´ì©ì ëë¤.
ê°ìë´ì©: ìì±ì¸ììì ë¥ë¬ëì ì´ë»ê² ì¬ì©ë ê¹? (ì¬ê·í ê°ì¬ë)
ì íë¸ ê°ìë§í¬ : www.youtube.com/channel/UCpWrFUlwUGZSHVlOT1eD-Wg
ì¤íì±í ë°© : open.kakao.com/o/g46ZM7Zc (ì°¸ì¬ì½ë : aiai)
ìì ê´ë ¨ ìë£ : drive.google.com/drive/folders/1Sd-dQd_b-aKdBLAUQ5jz6lwFmiaTFQ02?usp=sharing
******************************************************************************************************************************
ìµê·¼ ìì°ì´ì²ë¦¬ì ìì±ì¸ìì ê´ì¬ì´ ì겨 ê³µë¶ë¥¼ ììíë©´ì ì ìµí ê³³(?)ì ë°ê²¬í´ í´ë¹ ê°ì를 ë² ì´ì¤ë¡ ì 리 + ê³µë¶í ë´ì©ì ë¨ê¸´ë¤.
목íë Speeech-To-Text (STT, ASR) ì¬ì´ë íë¡ì í¸ !!!
AIìì Speech ë¶ì¼ë í¬ê² ëê°ì§ë¡ ëëëë°, ìì±ì¸ìê³¼ ìì±í©ì±ì¼ë¡ ëëë¤.
Speech Applications
- ìì±ì¸ì (Speech-To-Text, STT, ASR - automatic speech recognition)
- ìì±í©ì± (Text-to-Speech, TTS)
- ìì© ìì : ìì´í° siri (ìì±ë¹ì), ì¤ë§í¸ ì¤í¼ì»¤, ìë íìë¡ ìì±, ëìì ìëìë§, ëìíµë²ì, íìì¸ì(íìê° ë구ì¸ì§ ìë³), ìì±ì¸ì 주문/ìì½ ë±..
Speech Data
- ìì± íí (Waveform) - ìì± íì¼
- ì¤íí¸ë¡ê·¸ë¨ (Spectrogram)
- Utterance (ì¬ì©ìì ë§ / Text) - ë°í í ì¤í¸
- (Optional) Alignment ì ë ¬ - ì´ëì ë¶í° ì´ëê¹ì§ê° í ì¤í¸ ì´ë ë¶ë¶ê¹ì§ í´ë¹ëëì§
ìì± íí (Waveform)
ìì± ë°ì´í°ë Waveform íì¼ë¡ ì ì¥ì´ ëë¤. Waveformì ì¸ê¸° ííì´ë¼ê³ ë í ì ìëë°, 16,000 Hz ë¡ ë ¹ìë ìì±ì´ë¼ê³ íë©´ 1/16,000 ì´ ë§ë¤ ë¤ì´ì¨ ìë¦¬ê° ì´ëì ëì ì¸ê¸°ë¥¼ ê°ì§ê³ ìëì§ ê¸°ë¡í ê²ì´ Waveformì´ë¤. í¤ë¥´ì¸ (Hertz, 기í¸: ã)ìì 1 Hzë 1ì´ì í ë²ì ì미íë¤. ì¦ 100 Hzë 1ì´ì 100ë²ì ë°ë³µ í¹ì ì§ëíë¤. ìì±ì í¤ë¥´ì¸ ë¨ìì 주íì(frequency)ë¡ ê´ì¸¡í ì ìê³ , ì°ë¦¬ê° ë¤ì ì ìë 모ë ì리ë ë¤ìí 주íì ì±ë¶ë¤ì í©ì¼ë¡ ì´ë£¨ì´ì ¸ ìë¤ (주íìê° ëììë¡ ìì´ ëê² ë¤ë¦¼).

Waveform ííì ë°ì´í°ë ì ì²ë¦¬ë¥¼ íµí´ì ì ì미í ì 보를 ê°ì§ê³ ìë ì´ë¤ ííë¡ ë§ë ë¤. Waveformì í¸ë¦¬ì ë³í(Fourier transform, FT)ì ê±°ì³ì Spectrogramì´ë¼ë í¼ì³ë¡ ë°ê¿ ì ìë¤. ì´ë ê² ìì± ííì ë³ííë ì´ì ë ìì±ì ë¤ì´ìë ì ë³´ (ë°ìì ì¢ ë¥, ì±ë³, ìì, ëì´ ë±)ì ìì± ì í¸/ííìì ë°ë¡ ì»ì´ë¼ ì ìê³ ìíì ì¸ ì í¸ì²ë¦¬ë¥¼ ê±°ì³ì ì¶ì¶í ì ì기 ë문ì´ë¤. ê·¸ ì¤ í¸ë¦¬ì ë³íì´ë¼ë í¨ì를 ì¬ì©í´ì í¹ì ìê° ê¸¸ì´ì ìì± ì¡°ê°(íë ìì´ë¼ê³ í¨)ì´ ê°ê°ì 주íì ì±ë¶ë¤ì ì¼ë§ë§í¼ ê°ê³ ìëì§ë¥¼ ì미íë ì¤íí¸ë¼(Spectrum)ì ì»ì ì ìë¤. ìì± ì ì²´ë¡ë¶í° ì»ì ì¬ë¬ê°ì ì¤íí¸ë¼ì ìê° ì¶ì ëì´íë©´ ìê° ë³íì ë°ë¥¸ ì¤íí¸ë¼ì ë³íì¸ ì¤íí¸ë¡ê·¸ë¨(Spectrogram)ì ì»ê² ëë¤.
ì°¸ê³ : tech.kakaoenterprise.com/66

Traditional Speech To Text -> End-to-End Deep Learning
ì íµì ì¸ STTììë Feature Extraction (í¸ë¦¬ì ë³í)ì ê±°ì¹ê³ , Acoustic Model + Lexicon + Language Modelì í©ì³ Decoderë¡ ë§ë¤ì´ ìë ì¬ì§ì²ë¼ ê°ê°ì ê³¼ì ì ê±°ì³ ì¡°í©íë ê³¼ì ì´ìë¤ë©´ 2010ë ë ì´ë° ë¥ë¬ëì´ ëì ì´ ëª¨ë ê²ì íëë¡ í ì ìë¤ = ê°ê°ì ê³¼ì ì´ ê°ë³ì ì¼ë¡ íì ìë¤ë ê°ë ì´ ë±ì¥í´ End-to-End (E2E) ë¼ê³ ë¶ë¥´ê¸° ììíë¤ê³ íë¤.

* ììëë©´ ì¢ì ë deepí ê°ë ð
<ì íµì ì¸ ìì±ì¸ìê³¼ ë¥ë¬ë>
ìì±ì¸ììì ìµê·¼ 주목ë°ê³ ìë ë¥ë¬ë(deep learning)ì ìë£(ì ë ¥)ìì 목íí ê²°ê³¼(ì¶ë ¥)ì ë³ëì ì¤ê° ë§¤ê° ìì´ íìµíë end-to-end íìµì ê°ë¥ì¼ íë¤. E2E íìµì ì´ì©í ìì±ì¸ìììë 주ì´ì§ ìì±ì ìì ë° ííì를 ê±°ì¹ì§ ìê³ ë°ë¡ ë¨ì´ë 문ì¥ì¼ë¡ ë³íí ì ìë¤. ìì±ì¸ìì ì¬ë¬ ì¤ê° ë¨ê³ë¤ì ìëµíë©´ ìì ë¨ìë¡ íë ¨ì í íì ìê³ , ìì를 매ê°ë¡ íë ì¤ê° ë¨ê³ì ë ìì½ ì¬ì ì´ ìëµí ì ìì´ ê³¼ì ì´ ê°ìíëë¤.
ëíì ì¸ ìì±ì¸ìì E2E 모íì¼ë¡ë Graves ë± (2006)ì´ ì ìí ì°ê²°ì± ìê³ì´ ë¶ë¥ê¸°(connectionist temporal classification; CTC) 모íê³¼ Chan ë± (2015)ê° ì ìí listen, attend, and spell (LAS) 모íì´ ìë¤.
<ëì½ëë? + ë¹ íì + ì¸ì´ 모í>
ë¥ë¬ëì 기ë°ì¼ë¡ í ìì± ì¸ì 모íì ìì± ìë£ë¥¼ ì ì¬ ë³ìë¡ ë³ííë ì¸ì½ë(encoder)ì ì ì¬ ë³ìë¡ë¶í° 문ìì´ì ì»ì´ë´ë ëì½ë(decoder)ë¡ êµ¬ì±ëì´ ìë¤.
ì¼ë°ì ì¼ë¡ ëì½ë©ì í ëë 모ë 문ìì´ì´ ê°ì§ë íë¥ ì ê³ì°í´ ê°ì¥ ëì íë¥ ì ì§ë 문ìì´ì ì°¾ë ë°©ìì¼ë¡ íë¤ (yˆ = argmax(p(y|x, θ))). ê·¸ë¬ë ìê°ì´ë 문ìì´ì 길ì´ì ë°ë¼ì ê°ë¥í 문ìì ê°ìê° ì§ìì ì¼ë¡ ì¦ê°íë¯ë¡ ë¹í¨ì¨ì ì´ë¤. ë°ë¼ì 모ë ê°ë¥í 문ìì´ì íìíë ëì ë¹ íì(beam search)ì ì´ì©íì¬ ê¸°ìµí´ì¼ íë ë ¸ë를 ì ííë 기ë²ì ì¬ì©íìë¤. ë¹ íìì 주ì´ì§ 문ì ë¤ìì ì íë ì ìë 문ìì 모ë ê°ë¥í ê²½ì°ì ì를 ê³ì°í í, 미리 ì í ìì Bê° íë¥ ì 문ì ì¡°í©ë§ì ì·¨íì¬ ëª©í 문ìì´ë¥¼ ì°¾ìëê¹ì§ ë°ë³µíë ê²½íì íì ìê³ ë¦¬ë¬ì´ë¤. ì¬ê¸°ì, Bë ë¹ëë¹(beam width)ë¼ê³ ë¶ë¥¸ë¤.
ì¶ê°ë¡ ëì½ë© ìì ë°ë¡ íë ¨ë ì¸ì´ 모íì ì´ì©íì¬ ì íë를 ëì¼ ì ìë¤. ì¼ë°ì ì¼ë¡ ìì±ì¸ì 모íì ì ë ¥ì¼ë¡ ë¤ì´ì¤ë ìì±ì ì무 ì미 ìë ë°ìë¤ì´ ìëë¼ ì¸ì´ì ë§¥ë½ì´ë 문ë²ê³¼ ê°ì´ ìì±ê³¼ ë 립ì ì¸ ì¸ì´ì í¹ì±ì´ ì¡´ì¬íë 문ì¥ì´ë¤. ë°ë¼ì, ì´ë¬í ì 보를 ë°ë¡ íìµí ë¤ì 모íì ì¶ê°íì¬ ì¸ìì ì íë를 ëì¼ ì ìë¤.
ì°¸ê³ : Korean speech recognition using deep learning (2019) http://www.kss.or.kr/jounalDown.php?IDX=4245
E2Eë¡ íë ¨ëëë¼ë ìì§ íìí ê²ë¤
- Feature Extraction ê³¼ì - ì¤íí¸ë¡ê·¸ë¨ (Spectrogram)ì ë½ìë´ë í¸ë¦¬ì ë³í ê³¼ì
- Beam search decoder
- Language model - (Beam search)ì íì
- 모ë¸ì íìµê³¼ ë³ê°ë¡ ìì± ìë£ë¥¼ 문ìì´ë¡ ë°ê¾¸ë ëì½ë©ì ì´ì©ëë ë¹ íì(beam search) ë° ì¸ì´ 모í(language model) => ìì "* ììëë©´ ì¢ì ë deepí ê°ë ð" ì°¸ê³

ëª¨ë¸ 1. Acoustic Model (Deep Speech 2)
2015ë ì ëì¨ Deep Speech 2 ë ¼ë¬¸ (ì¤êµ ëí IT ê¸°ì ‘ë°ì´ë(baidu)’ìì ê³µê°í End-to-End ìì± ì¸ì 모ë¸)
Inputì¼ë¡ Spectrogramì ë°ê³ Outputì¼ë¡ CTC(connectionist temporal classification) ë°ííë ê²ì ë³¼ ì ìë¤. ì´ ëª¨ë¸ìì ì´í´ë´ì¼í ì ì ìëì ê°ë¤.
- ìì± ì¸ìì ì 리í ëª¨ë¸ ìí¤í ì²
- í¨ì¨ì ì¸ íìµ í í¬ë : Connectionist Temporal Classification(CTC) loss ì§ì 구í ë±
ì ë ¥ë°ì Spectrogramìì ì¤ìí í¹ì§ (feature) ì ë½ìë´ë ë ì´ì´ë¡ Convolutional Neural Network를 ì¬ì©íë¤. ì´í ìë°©í¥(bidirectional) Recurrent Neural Network를 ëê³ , ë§ì§ë§ìë Fully Connected Layerê° ìë¤.
ì°¸ê³ : ratsgo.github.io/speechbook/docs/neuralam/deepspeech


CTC : Connectionist Temporal Classification (ì°ê²°ì± ìê³ì´ ë¶ë¥ê¸°)
íµì¬ ìì´ëì´ë ìì±ì 길ì´ì ë§ê² í ì¤í¸ì 길ì´ë¥¼ ë린ë¤ë ê°ë ì´ë¤. ìì±ì 길ì´(S)ê° 7, í ì¤í¸(T)ê° 3ì´ë¼ë©´ 모ìë ë§í¼ Blank ("_")ë¡ ì±ì´ë¤. íì§ë§ ì°ë¦¬ë ì´ëì Blankê° ë¤ì´ê°ê³ ì´ëì ì¤ì Textê° ë¤ì´ê°ì¼ëëì§ ìì§ ëª»íë¤. ê·¸ë¼ì¼ë¡ ê°ë¥í 모ë ì¡°í©ì í©ì¼ë¡ íë¥ ì íìíë¤. CTCë ìµì ì ì ë ¬(Alignment)를 ì°¾ìë´ê¸° ìí´ ê°ë¥í 모ë ìíì¤ë¤ì ëì´íë¤.
CTCë íì¬ ë¤ì´ë¤ë¯¹ íë¡ê·¸ëë°ì íµí´ ì°ì°ìëë ê·¹ì ì¼ë¡ 빨ë¼ì ¸ ìì¼ë©°, PyTorch, TensorFlowì 기본ì¼ë¡ ë´ì¥ì´ ëìì´ ì¬ì©í기 ì½ë¤. CTCì ì¥ì ì Encoderë§ ìê³ , ê·¸ ìì CTC Lossë§ ë£ì¼ë©´ ìì±ì¸ìì´ ê°ë¥íë¤ë ì ì´ë¤. ëí ì´ëì ë ì ë ¬ ìì¹ë¥¼ ì¶ì¶í ì ìë¤ (Probability, Distributionì ë³´ê³ ì´ëì ë ì ë ¬ ìì¹ë¥¼ ìì°í ì ìë¤ - ì ííì§ ìì). ë¨ì ì ì¶ê°ì ì¸ LM decoding (Beam Search Decoding)ì´ ìì¼ë©´ ì±ë¥ì´ ê·¹ì ì¼ë¡ ì¢ìì§ì§ ìëë¤.

* ììëë©´ ì¢ì ë deepí ê°ë ð
from : m.blog.naver.com/PostView.nhn?blogId=sogangori&logNo=221183469708&proxyReferer=https:%2F%2Fwww.google.com%2F'
CTC ë¤í¸ìí¬ë softmax output layer 를 ê°ëë¤. ìíí¸ë§¥ì¤ë í´ëì¤ ê°¯ì Lê° ë³´ë¤ íë ë§ì L + 1 ê°ì ì¡í°ë² ì´ì ì ê°ëë¤. ì¶ê° 1 ì'blank' í¹ì no label ì íë¥ ì´ë¤. ì´ë íëì ë¼ë²¨ìíì¤ {DOG} ì ëí ë¤í¸ìí¬ì ouputì {-D-OOGG} í¹ì {-DD-OGG-} ë±ì¼ë¡ ë¤ìíê² ëíë ì ìë¤. (-: blank label ,공백)
ì를 ë¤ì´ ë¤í¸ìí¬ì ì¶ë ¥ì max ì±ëê°ì´ {0.5, 0.55, 0.6, 0.65, 0.7, 0.75, 0.8} ì´ê³ í´ë¹ ì±ëì {-D-OOGG} ìë¤ê³ íì. 첫ë²ì§¸ ìë¦¬ê° - ì¼ íë¥ ì´ 0.5 , ëë²ì§¸ ìë¦¬ê° D ì¼ íë¥ ì´ 0.55 ë¼ê³ í´ìëë¤. ì´ ë¤í¸ìí¬ì ì¶ë ¥ì´ paths ì¸ë° ì´ paths ì 모ë íë¥ ì ì ë¶ ê³±í ê²ì´ paths ì íë¥ ì´ë¤.
0.5*0.55*0.6*0.65*0.7*0.75*0.8 ~= 0.01 ë³´ë¤ ìê² ë¤.
ë¤ìì¼ë¡ë many-to-one mapì¸ B í¨ìê° íìíë¤. í ë¼ë²¨ì ëí´ì paths ë {-D-OOGG},{-DD-OGG-} ì²ë¼ ë¤ìíê² ëíë ì ìë¤. B í¨ìë paths ì ë¹ì¹¸ê³¼ ì¤ë³µì ì ê±°íë¤.
ì) B(paths) = ë¼ë²¨ìíì¤
B(ab) = B(aab) = B(abb) = B(-ab) = B(a-b) = B(ab-)= ab
B(-D-OOGG) = B(-DD-OGG-) = DOG
í ë¼ë²¨ì paths ë ë¤ìíê² ëíë ì ìëë° ë¼ë²¨ì ëí Bì ìí¨ì를 íµí´ 모ë ê°ë¥í paths 를 ì»ì ì ìë¤. 모ë ê°ë¥í paths ë¤ì íë¥ ë¤(pathsì 모ë ììì íë¥ ë¤ì ì ë¶ ê³±íê²)ì 모ë ëíê²ì´ xê° ì£¼ì´ì¡ìë ë¼ë²¨ì ì¡°ê±´ë¶ íë¥ ì´ë¤.
=> ì´ ëª¨ë ê°ë¥í ë¼ë²¨ì ì´íë¥ ì ëì´ë ê²ì´ íìµì 목íì´ë¤.
주ì´ì§ x ë¡ë¶í° ë¶ë¥ë¥¼ ê°ì¥ ì ì íê² í´ì¼ íë¯ë¡ p(L|x) ê° ê°ì¥ í° path 를 ì íí´ì¼ íë¤. íìì íë©´ì ì ì í ë¼ë²¨ë§ì ì°¾ëë¤ => CTCì ë¨ì ê³¼ ì°ê²° (ë¨ì ì ì¶ê°ì ì¸ LM decoding (Beam Search Decoding)ì´ ìì¼ë©´ ì±ë¥ì´ ê·¹ì ì¼ë¡ ì¢ìì§ì§ ìëë¤.)
ëª¨ë¸ 2. LAS: Listen, Attend, Spell
Deep Speech2ì ë¹ì·í ì기ì Google Brainìì ì ìí Listen, Attend and Spell(LAS) 모ë¸ì´ë¤. Listener, Attention, ê·¸ë¦¬ê³ Spellerë¡ ëë ì§ë ë¶ë¶ì 주목í´ì ì´í´ë³´ë©´ ëë¤. CTC, RNN-Tì ë¬ë¦¬ Attention ìê³ ë¦¬ì¦ì ì´ì©íì¬ ìí¥ ì ë ¥ê³¼ ë ì´ë¸ ì¶ë ¥ ì¬ì´ì ì ë ¬(Alignment)ì ê³ì°íë¤.
Listenerë í¼ë¼ë¯¸ë íìì¼ë¡ 구ë bidirectional LSTM(BLSTM) ì¸ì½ëì´ë©° ì ë ¥ ìíì¤ xë¡ë¶í° í¹ì§ì ë½ìë¸ë¤. Listenerë BLSTMì Pyramidal íìì¼ë¡ 3ê°ë¥¼ ë¶ì¬ì ì¬ì©íê³ ìë¤. ë ¼ë¬¸ììë ì´ë¥¼ pBLSTMì¼ë¡ ë¶ë¥´ê³ ìì¼ë©°, pyramidal íê² ì¬ì©íë ì´ì ë pBLSTM 1ê°ë¹ ì°ì°ìë를 2ë°°ë¡ ì¤ì¬ì£¼ê¸° ë문ì´ë¤. 3ê°ì BLSTMì top of the bottomì ìì pBLSTMì time resolutionì 2ì 3ì¹ë§í¼, ì¦ 8 ë°°ë§í¼ ì¤ì¬ì¤ë¤ê³ íë¤.
Spellerë attentionì ì¬ì©í´ì ì¶ë ¥ì íë ëì½ë decoderì´ë¤. AttendAndSpell í¨ìë attention 기ë°ì LSTM ë³íê¸°ì¸ decoder를 íµí´ì ê³ì°ëë¤. decoderë 매 time stepë§ë¤ ì´ì ì ê²°ì ë 문ìë¤ì ëí ë¤ì 문ìì ë¶í¬ë¥¼ ìì±íë¤. (모ë ì¶ë ¥ ë¨ê³ìì ë³í기ë ì´ì ì 본 모ë 문ì를 ì¡°ê±´ì¼ë¡ í ë¤ì 문ìì ëí íë¥ ë¶í¬ë¥¼ ìì±íë¤)
ì´ ëª¨ë¸ì íìµì, ì ë ¥ ìì±ì ëí´ ìë§ë sequenceì log probability를 maximizeíë¤. ê·¸ë¦¬ê³ ëì½ë© ê´ë ¨íì¬, test ìì ê°ì¥ ê·¼ì í character sequence를 주ì´ì§ ìí¥ì ëí´ ì°¾ëë¤.
Content based Attention Mechanismì 문ìì ì¤ëì¤ ì í¸ ì¬ì´ì ëª íí ì ë ¬ì ë§ë ë¤. ìë ì¬ì§ìì ì¤ë¥¸ìª½ ìëì ìë 그리ëë 문ìì ì ë ¥ ìì±ê°ì í ë¹ (Alignment / ì ë ¬)ì ë³´ì¬ì¤ë¤. "how much would a woodchuck chuck" ë¼ë ìì± inputì ë°ë¥¸ character alignmentì¸ë°, Content based attention mechanismì 첫 ë²ì§¸ 문ìì ëí ì¤ëì¤ ìíì¤ì ìì ìì¹ë¥¼ ì¬ë°ë¥´ê² ìë³í ì ììë¤ê³ íë¤. => ì´ë¤ í ì¤í¸ë¥¼ ë§ë¤ ë ì´ë를 ë´ì¼ íë
ì°¸ê³ : jybaek.tistory.com/793
www.secmem.org/blog/2019/07/21/Listen,-Attend-and-Spell/

ëª¨ë¸ 3. RNN-T: Recurrent Neural Network Transducer
CTCì ì ì¬íë¤. CTCì ë§ì°¬ê°ì§ë¡ ìµì ì ì ë ¬(Alignment)ì ì°¾ìë´ê¸° ìí´ ëª¨ë ìíì¤ë¥¼ ëì´í í 구íë¤. íì§ë§ CTCì ë¬ë¦¬ ì¡°ê±´ë¶ ë 립ì ê°ì íì§ ì기 ë문ì ìµì ê²½ë¡ ê³ì°ì´ CTCìë ë¤ë¥´ë©°, CTCë³´ë¤ ë ë³µì¡íê² ê³ì°ëë¤ê³ íë¤. CTCìì ë¤ì ë¼ë²¨ì´ ëì¬ ë ê¹ì§ ì ì§ê° ëë¤. "ëë íêµë¥¼ ê°ë¤"ë¼ê³ 문ì¥ì ì측íë¤ê³ íë©´ ëëì ì측 íì íêµì ë¼ë ìì±ì´ ë¤ì´ê°ë©´ íêµë¥¼ ì측íë¤. Alignment ë°ì´í°ê° íììë¤. ìì± íë ìì´ ëì´ê°ë 매 ìê°ë§ë¤ ì§ê¸ ë¨ì´ (ë¼ë²¨)를 ì ì§í ì§, ë¤ì ë¨ì´ë¡ ì§íí ì§ ì°¾ìë¸ë¤. CTCì ë§ì°¬ê°ì§ë¡ ê°ë¥í 모ë ê²½ë¡, pathì ì¡°í©ì¼ë¡ íë¥ ì ê³ì°íê³ , ê·¸ íë¥ ì ëì´ë ë°©í¥ì¼ë¡ íë ¨ì íë¤. ìëë 기존 CTC 모ë¸ê³¼ì ì°¨ì´ë¥¼ ë³´ì¬ì£¼ë 그림ì¸ë°, RNN-Të Encoderì Prediction Network를 ì°ê²°í´ì ì¬ì©íë¤. prediction network를 ì°ê²°ìì¼ì¤ì¼ë¡ì¨ íì²ë¦¬ ì¸ì´ëª¨ë¸ì í¨ê³¼ë¥¼ ì»ì ì ìë¤ê³ íë¤.
ìµê·¼ì 모ë¸ë¤ì LAS, RNN-T ì¤ íëë¡ ì£¼ë¡ íë ¨ì íë¤ê³ íë¤. RNN-Tê° ë ê°ê´ ë°ë ì¶ì¸ì´ë¤ (ë¤ììê°ì Streamingê³¼ ê´ë ¨).
ì°¸ê³ : jybaek.tistory.com/793


ëª¨ë¸ ìì½
ìì½ : n to m ê°¯ì를 ë§ì¶°ë¼! (ìì±ì 길ì´ì ë§ê² í ì¤í¸ì 길ì´) ì´ë»ê²?

SOTA (State Of The Art) in ASR

Summary
=> Speech ë ë°ì´í°ê° ìì²ë ìí¥ì ì¤ë¤. (íìµ ìí ë ¸ì´ì¦ê° ìì´ë©´ 못ë§ì¶ ê°ë¥ì±ì´ ëë¤)
=> ëë¶ë¶ì 모ë¸ì ì´ë¯¸ ìì²ë ì±ë¥ì ë³´ì¬ì¤ë¤. ==.. ìì© ìì± API를 ì°ë©´ ì±ë¥ì´ ìëì¨ë¤.
=> ê°ì§ë ë°ì´í°ê° í¹ìíë¤ë©´ (noisy), ëë íê²½ì ë§ë íë ¨ì´ íìíë¤ë©´ ë¼ì´ë¸ë¬ë¦¬ë¥¼ ì¬ì©íë©´ ëë¤
=> ëë ì¬ì ì íë ¨ë ìì± ì¸ì 모ë¸ì ì¬ì©íë©´ ëë¤ (ìì±ì¸ìë ì´ì pre-training, fine-tuning... ìì´ë¡ ì¬ì íìµ ëìì´ë ì¬ëì ë°ì기í¸ê° ë¹ì·í´ì ë¤ë¥¸ ì¸ì´ë¡ ë°ê¿¨ì ëë ìëë¤?).
=> ê°ì¥ ëíì ì¸ ê²ì´ Wav2Vec ëª¨ë¸ (ë¤ììê°ì...)
=> HuggingFace 를 ì°ì...

'AI > Self-Study' ì¹´í ê³ ë¦¬ì ë¤ë¥¸ ê¸
ëê¸
ì´ ê¸ ê³µì í기
-
구ë
í기
구ë í기
-
ì¹´ì¹´ì¤í¡
ì¹´ì¹´ì¤í¡
-
ë¼ì¸
ë¼ì¸
-
í¸ìí°
í¸ìí°
-
Facebook
Facebook
-
ì¹´ì¹´ì¤ì¤í 리
ì¹´ì¹´ì¤ì¤í 리
-
ë°´ë
ë°´ë
-
ë¤ì´ë² ë¸ë¡ê·¸
ë¤ì´ë² ë¸ë¡ê·¸
-
Pocket
Pocket
-
Evernote
Evernote
ë¤ë¥¸ ê¸
-
yolov5 íìµ íí ë¦¬ì¼ 1
yolov5 íìµ íí ë¦¬ì¼ 1
2021.05.11 -
íì¤ë¡ Train/Test/Validation ëë기 (splitfolders : annotationë í¨ê» ëëëë²)
íì¤ë¡ Train/Test/Validation ëë기 (splitfolders : annotationë í¨ê» ëëëë²)
2021.05.11 -
Keras : ImageDataGenerator ëì ì tf.dataë¡ ë¹ ë¥´ê² íìµí기 2
Keras : ImageDataGenerator ëì ì tf.dataë¡ ë¹ ë¥´ê² íìµí기 2
2021.04.12 -
Keras : ImageDataGenerator ëì ì tf.dataë¡ ë¹ ë¥´ê² íìµí기 1
Keras : ImageDataGenerator ëì ì tf.dataë¡ ë¹ ë¥´ê² íìµí기 1
2021.04.12