ìŒì„±ì¸ì‹ì— í•„ìš”í•œ ê¸°ì´ˆê°œë… 1

728x90

******************************************************************************************************************************

ì´ ê¸€ì€ ReadyToUseAIì—ì„œ ë¬´ë£Œë¡œ ì œê³µí•˜ëŠ” ê°•ì˜ë¥¼ ë“£ê³ ì •ë¦¬í•œ ë‚´ìš©ìž…ë‹ˆë‹¤.

ê°•ì˜ë‚´ìš©: ìŒì„±ì¸ì‹ì—ì„œ ë”¥ëŸ¬ë‹ì€ ì–´ë–»ê²Œ ì‚¬ìš©ë ê¹Œ? (ì‹¬ê·œí™ ê°•ì‚¬ë‹˜)

ìœ íŠœë¸Œ ê°•ì˜ë§í¬ : www.youtube.com/channel/UCpWrFUlwUGZSHVlOT1eD-Wg

ì˜¤í”ˆì±„íŒ…ë°© : open.kakao.com/o/g46ZM7Zc (ì°¸ì—¬ì½”ë“œ : aiai)

ìˆ˜ì—… ê´€ë ¨ ìžë£Œ : drive.google.com/drive/folders/1Sd-dQd_b-aKdBLAUQ5jz6lwFmiaTFQ02?usp=sharing

******************************************************************************************************************************

ìµœê·¼ ìžì—°ì–´ì²˜ë¦¬ì™€ ìŒì„±ì¸ì‹ì— ê´€ì‹¬ì´ ìƒê²¨ ê³µë¶€ë¥¼ ì‹œìž‘í•˜ë©´ì„œ ìœ ìµí•œ ê³³(?)ì„ ë°œê²¬í•´ í•´ë‹¹ ê°•ì˜ë¥¼ ë² ì´ìŠ¤ë¡œ ì •ë¦¬ + ê³µë¶€í•œ ë‚´ìš©ì„ ë‚¨ê¸´ë‹¤.

ëª©í‘œëŠ” Speeech-To-Text (STT, ASR) ì‚¬ì´ë“œ í”„ë¡œì íŠ¸ !!!

AIì—ì„œ Speech ë¶„ì•¼ëŠ” í¬ê²Œ ë‘ê°€ì§€ë¡œ ë‚˜ë‰˜ëŠ”ë°, ìŒì„±ì¸ì‹ê³¼ ìŒì„±í•©ì„±ìœ¼ë¡œ ë‚˜ë‰œë‹¤.

Speech Applications

ìŒì„±ì¸ì‹ (Speech-To-Text, STT, ASR - automatic speech recognition)
ìŒì„±í•©ì„± (Text-to-Speech, TTS)
ì‘ìš© ì˜ˆì‹œ : ì•„ì´í° siri (ìŒì„±ë¹„ì„œ), ìŠ¤ë§ˆíŠ¸ ìŠ¤í”¼ì»¤, ìžë™ íšŒì˜ë¡ ìž‘ì„±, ë™ì˜ìƒ ìžë™ìžë§‰, ë™ì‹œí†µë²ˆì—, í™”ìžì¸ì‹(í™”ìžê°€ ëˆ„êµ¬ì¸ì§€ ì‹ë³„), ìŒì„±ì¸ì‹ ì£¼ë¬¸/ì˜ˆì•½ ë“±..

Speech Data

ìŒì„± íŒŒí˜• (Waveform) - ìŒì„± íŒŒì¼
ìŠ¤íŽ™íŠ¸ë¡œê·¸ëž¨ (Spectrogram)
Utterance (ì‚¬ìš©ìžì˜ ë§ / Text) - ë°œí™” í…ìŠ¤íŠ¸
(Optional) Alignment ì •ë ¬ - ì–´ë””ì„œ ë¶€í„° ì–´ë””ê¹Œì§€ê°€ í…ìŠ¤íŠ¸ ì–´ëŠ ë¶€ë¶„ê¹Œì§€ í•´ë‹¹ë˜ëŠ”ì§€

ìŒì„± íŒŒí˜• (Waveform)

ìŒì„± ë°ì´í„°ëŠ” Waveform íŒŒì¼ë¡œ ì €ìž¥ì´ ëœë‹¤. Waveformì€ ì„¸ê¸° í‘œí˜„ì´ë¼ê³ ë„ í• ìˆ˜ ìžˆëŠ”ë°, 16,000 Hz ë¡œ ë…¹ìŒëœ ìŒì„±ì´ë¼ê³ í•˜ë©´ 1/16,000 ì´ˆ ë§ˆë‹¤ ë“¤ì–´ì˜¨ ì†Œë¦¬ê°€ ì–´ëŠì •ë„ì˜ ì„¸ê¸°ë¥¼ ê°€ì§€ê³ ìžˆëŠ”ì§€ ê¸°ë¡í•œ ê²ƒì´ Waveformì´ë‹¤. í—¤ë¥´ì¸ (Hertz, ê¸°í˜¸: ãŽ)ì—ì„œ 1 HzëŠ” 1ì´ˆì— í•œ ë²ˆì„ ì˜ë¯¸í•œë‹¤. ì¦‰ 100 HzëŠ” 1ì´ˆì— 100ë²ˆì„ ë°˜ë³µ í˜¹ì€ ì§„ë™í•œë‹¤. ìŒì„±ì„ í—¤ë¥´ì¸ ë‹¨ìœ„ì˜ ì£¼íŒŒìˆ˜(frequency)ë¡œ ê´€ì¸¡í• ìˆ˜ ìžˆê³ , ìš°ë¦¬ê°€ ë“¤ì„ ìˆ˜ ìžˆëŠ” ëª¨ë“ ì†Œë¦¬ëŠ” ë‹¤ì–‘í•œ ì£¼íŒŒìˆ˜ ì„±ë¶„ë“¤ì˜ í•©ìœ¼ë¡œ ì´ë£¨ì–´ì ¸ ìžˆë‹¤ (ì£¼íŒŒìˆ˜ê°€ ë†’ì„ìˆ˜ë¡ ìŒì´ ë†’ê²Œ ë“¤ë¦¼).

Waveform í˜•íƒœì˜ ë°ì´í„°ëŠ” ì „ì²˜ë¦¬ë¥¼ í†µí•´ì„œ ìœ ì˜ë¯¸í•œ ì •ë³´ë¥¼ ê°€ì§€ê³ ìžˆëŠ” ì–´ë–¤ í˜•íƒœë¡œ ë§Œë“ ë‹¤. Waveformì€ í‘¸ë¦¬ì— ë³€í™˜(Fourier transform, FT)ì„ ê±°ì³ì„œ Spectrogramì´ë¼ëŠ” í”¼ì³ë¡œ ë°”ê¿€ ìˆ˜ ìžˆë‹¤. ì´ë ‡ê²Œ ìŒì„± íŒŒí˜•ì„ ë³€í™˜í•˜ëŠ” ì´ìœ ëŠ” ìŒì„±ì— ë“¤ì–´ìžˆëŠ” ì •ë³´ (ë°œìŒì˜ ì¢…ë¥˜, ì„±ë³„, ìŒìƒ‰, ë†’ì´ ë“±)ì„ ìŒì„± ì‹ í˜¸/íŒŒí˜•ì—ì„œ ë°”ë¡œ ì–»ì–´ë‚¼ ìˆ˜ ì—†ê³ ìˆ˜í•™ì ì¸ ì‹ í˜¸ì²˜ë¦¬ë¥¼ ê±°ì³ì„œ ì¶”ì¶œí• ìˆ˜ ìžˆê¸° ë•Œë¬¸ì´ë‹¤. ê·¸ ì¤‘ í‘¸ë¦¬ì— ë³€í™˜ì´ë¼ëŠ” í•¨ìˆ˜ë¥¼ ì‚¬ìš©í•´ì„œ íŠ¹ì • ì‹œê°„ ê¸¸ì´ì˜ ìŒì„± ì¡°ê°(í”„ë ˆìž„ì´ë¼ê³ í•¨)ì´ ê°ê°ì˜ ì£¼íŒŒìˆ˜ ì„±ë¶„ë“¤ì„ ì–¼ë§ˆë§Œí¼ ê°–ê³ ìžˆëŠ”ì§€ë¥¼ ì˜ë¯¸í•˜ëŠ” ìŠ¤íŽ™íŠ¸ëŸ¼(Spectrum)ì„ ì–»ì„ ìˆ˜ ìžˆë‹¤. ìŒì„± ì „ì²´ë¡œë¶€í„° ì–»ì€ ì—¬ëŸ¬ê°œì˜ ìŠ¤íŽ™íŠ¸ëŸ¼ì„ ì‹œê°„ ì¶•ì— ë‚˜ì—´í•˜ë©´ ì‹œê°„ ë³€í™”ì— ë”°ë¥¸ ìŠ¤íŽ™íŠ¸ëŸ¼ì˜ ë³€í™”ì¸ ìŠ¤íŽ™íŠ¸ë¡œê·¸ëž¨(Spectrogram)ì„ ì–»ê²Œ ëœë‹¤.

ì°¸ê³ : tech.kakaoenterprise.com/66

Traditional Speech To Text -> End-to-End Deep Learning

ì „í†µì ì¸ STTì—ì„œëŠ” Feature Extraction (í‘¸ë¦¬ì— ë³€í™˜)ì„ ê±°ì¹˜ê³ , Acoustic Model + Lexicon + Language Modelì„ í•©ì³ Decoderë¡œ ë§Œë“¤ì–´ ì•„ëž˜ ì‚¬ì§„ì²˜ëŸ¼ ê°ê°ì˜ ê³¼ì •ì„ ê±°ì³ ì¡°í•©í•˜ëŠ” ê³¼ì •ì´ì—ˆë‹¤ë©´ 2010ë…„ëŒ€ ì´ˆë°˜ ë”¥ëŸ¬ë‹ì´ ë‚˜ì™€ ì´ ëª¨ë“ ê²ƒì„ í•˜ë‚˜ë¡œ í• ìˆ˜ ìžˆë‹¤ = ê°ê°ì˜ ê³¼ì •ì´ ê°œë³„ì ìœ¼ë¡œ í•„ìš” ì—†ë‹¤ëŠ” ê°œë…ì´ ë“±ìž¥í•´ End-to-End (E2E) ë¼ê³ ë¶€ë¥´ê¸° ì‹œìž‘í–ˆë‹¤ê³ í•œë‹¤.

Traditional Speech To Text (from ê°•ì˜ ppt)

* ì•Œì•„ë‘ë©´ ì¢‹ì€ ë” deepí•œ ê°œë… ðŸ‘‡

<ì „í†µì ì¸ ìŒì„±ì¸ì‹ê³¼ ë”¥ëŸ¬ë‹>

ìŒì„±ì¸ì‹ì—ì„œ ìµœê·¼ ì£¼ëª©ë°›ê³ ìžˆëŠ” ë”¥ëŸ¬ë‹(deep learning)ì€ ìžë£Œ(ìž…ë ¥)ì—ì„œ ëª©í‘œí•œ ê²°ê³¼(ì¶œë ¥)ì„ ë³„ë„ì˜ ì¤‘ê°„ ë§¤ê°œ ì—†ì´ í•™ìŠµí•˜ëŠ” end-to-end í•™ìŠµì„ ê°€ëŠ¥ì¼€ í–ˆë‹¤. E2E í•™ìŠµì„ ì´ìš©í•œ ìŒì„±ì¸ì‹ì—ì„œëŠ” ì£¼ì–´ì§„ ìŒì„±ì„ ìŒì†Œ ë° í˜•íƒœì†Œë¥¼ ê±°ì¹˜ì§€ ì•Šê³ ë°”ë¡œ ë‹¨ì–´ë‚˜ ë¬¸ìž¥ìœ¼ë¡œ ë³€í™˜í• ìˆ˜ ìžˆë‹¤. ìŒì„±ì¸ì‹ì˜ ì—¬ëŸ¬ ì¤‘ê°„ ë‹¨ê³„ë“¤ì„ ìƒëžµí•˜ë©´ ìŒì†Œ ë‹¨ìœ„ë¡œ í›ˆë ¨ì„ í• í•„ìš” ì—†ê³ , ìŒì†Œë¥¼ ë§¤ê°œë¡œ í•˜ëŠ” ì¤‘ê°„ ë‹¨ê³„ì™€ ë ‰ì‹œì½˜ ì‚¬ì „ì´ ìƒëžµí• ìˆ˜ ìžˆì–´ ê³¼ì •ì´ ê°„ì†Œí™”ëœë‹¤.

ëŒ€í‘œì ì¸ ìŒì„±ì¸ì‹ì˜ E2E ëª¨í˜•ìœ¼ë¡œëŠ” Graves ë“± (2006)ì´ ì œì•ˆí•œ ì—°ê²°ì„± ì‹œê³„ì—´ ë¶„ë¥˜ê¸°(connectionist temporal classification; CTC) ëª¨í˜•ê³¼ Chan ë“± (2015)ê°€ ì œì•ˆí•œ listen, attend, and spell (LAS) ëª¨í˜•ì´ ìžˆë‹¤.

<ë””ì½”ë”ëž€? + ë¹” íƒìƒ‰ + ì–¸ì–´ ëª¨í˜•>

ë”¥ëŸ¬ë‹ì„ ê¸°ë°˜ìœ¼ë¡œ í•œ ìŒì„± ì¸ì‹ ëª¨í˜•ì€ ìŒì„± ìžë£Œë¥¼ ìž ìž¬ ë³€ìˆ˜ë¡œ ë³€í™˜í•˜ëŠ” ì¸ì½”ë”(encoder)ì™€ ìž ìž¬ ë³€ìˆ˜ë¡œë¶€í„° ë¬¸ìžì—´ì„ ì–»ì–´ë‚´ëŠ” ë””ì½”ë”(decoder)ë¡œ êµ¬ì„±ë˜ì–´ ìžˆë‹¤.

ì¼ë°˜ì ìœ¼ë¡œ ë””ì½”ë”©ì„ í• ë•ŒëŠ” ëª¨ë“ ë¬¸ìžì—´ì´ ê°€ì§€ëŠ” í™•ë¥ ì„ ê³„ì‚°í•´ ê°€ìž¥ ë†’ì€ í™•ë¥ ì„ ì§€ë‹Œ ë¬¸ìžì—´ì„ ì°¾ëŠ” ë°©ì‹ìœ¼ë¡œ í•œë‹¤ (yˆ = argmax(p(y|x, θ))). ê·¸ëŸ¬ë‚˜ ì‹œê°„ì´ë‚˜ ë¬¸ìžì—´ì˜ ê¸¸ì´ì— ë”°ë¼ì„œ ê°€ëŠ¥í•œ ë¬¸ìžì˜ ê°œìˆ˜ê°€ ì§€ìˆ˜ì ìœ¼ë¡œ ì¦ê°€í•˜ë¯€ë¡œ ë¹„íš¨ìœ¨ì ì´ë‹¤. ë”°ë¼ì„œ ëª¨ë“ ê°€ëŠ¥í•œ ë¬¸ìžì—´ì„ íƒìƒ‰í•˜ëŠ” ëŒ€ì‹ ë¹” íƒìƒ‰(beam search)ì„ ì´ìš©í•˜ì—¬ ê¸°ì–µí•´ì•¼ í•˜ëŠ” ë…¸ë“œë¥¼ ì œí•œí•˜ëŠ” ê¸°ë²•ì„ ì‚¬ìš©í•˜ì˜€ë‹¤. ë¹” íƒìƒ‰ì€ ì£¼ì–´ì§„ ë¬¸ìž ë‹¤ìŒì— ì„ íƒë ìˆ˜ ìžˆëŠ” ë¬¸ìžì˜ ëª¨ë“ ê°€ëŠ¥í•œ ê²½ìš°ì˜ ìˆ˜ë¥¼ ê³„ì‚°í•œ í›„, ë¯¸ë¦¬ ì •í•œ ìƒìœ„ Bê°œ í™•ë¥ ì˜ ë¬¸ìž ì¡°í•©ë§Œì„ ì·¨í•˜ì—¬ ëª©í‘œ ë¬¸ìžì—´ë¥¼ ì°¾ì„ë•Œê¹Œì§€ ë°˜ë³µí•˜ëŠ” ê²½í—˜ì íƒìƒ‰ ì•Œê³ ë¦¬ë“¬ì´ë‹¤. ì—¬ê¸°ì„œ, BëŠ” ë¹”ë„ˆë¹„(beam width)ë¼ê³ ë¶€ë¥¸ë‹¤.

ì¶”ê°€ë¡œ ë””ì½”ë”© ì‹œì— ë”°ë¡œ í›ˆë ¨ëœ ì–¸ì–´ ëª¨í˜•ì„ ì´ìš©í•˜ì—¬ ì •í™•ë„ë¥¼ ë†’ì¼ ìˆ˜ ìžˆë‹¤. ì¼ë°˜ì ìœ¼ë¡œ ìŒì„±ì¸ì‹ ëª¨í˜•ì— ìž…ë ¥ìœ¼ë¡œ ë“¤ì–´ì˜¤ëŠ” ìŒì„±ì€ ì•„ë¬´ ì˜ë¯¸ ì—†ëŠ” ë°œìŒë“¤ì´ ì•„ë‹ˆë¼ ì–¸ì–´ì ë§¥ë½ì´ë‚˜ ë¬¸ë²•ê³¼ ê°™ì´ ìŒì„±ê³¼ ë…ë¦½ì ì¸ ì–¸ì–´ì íŠ¹ì„±ì´ ì¡´ìž¬í•˜ëŠ” ë¬¸ìž¥ì´ë‹¤. ë”°ë¼ì„œ, ì´ëŸ¬í•œ ì •ë³´ë¥¼ ë”°ë¡œ í•™ìŠµí•œ ë’¤ì— ëª¨í˜•ì— ì¶”ê°€í•˜ì—¬ ì¸ì‹ì˜ ì •í™•ë„ë¥¼ ë†’ì¼ ìˆ˜ ìžˆë‹¤.

ì°¸ê³ : Korean speech recognition using deep learning (2019) http://www.kss.or.kr/jounalDown.php?IDX=4245

E2Eë¡œ í›ˆë ¨ë˜ë”ë¼ë„ ì•„ì§ í•„ìš”í•œ ê²ƒë“¤

Feature Extraction ê³¼ì • - ìŠ¤íŽ™íŠ¸ë¡œê·¸ëž¨ (Spectrogram)ì„ ë½‘ì•„ë‚´ëŠ” í‘¸ë¦¬ì— ë³€í™˜ ê³¼ì •
Beam search decoder
Language model - (Beam search)ì— í•„ìš”
- ëª¨ë¸ì˜ í•™ìŠµê³¼ ë³„ê°œë¡œ ìŒì„± ìžë£Œë¥¼ ë¬¸ìžì—´ë¡œ ë°”ê¾¸ëŠ” ë””ì½”ë”©ì— ì´ìš©ë˜ëŠ” ë¹” íƒìƒ‰(beam search) ë° ì–¸ì–´ ëª¨í˜•(language model) => ìœ„ì— "* ì•Œì•„ë‘ë©´ ì¢‹ì€ ë” deepí•œ ê°œë… ðŸ‘‡" ì°¸ê³

ëª¨ë¸ 1. Acoustic Model (Deep Speech 2)

2015ë…„ì— ë‚˜ì˜¨ Deep Speech 2 ë…¼ë¬¸ (ì¤‘êµ ëŒ€í‘œ IT ê¸°ì—… ‘ë°”ì´ë‘(baidu)’ì—ì„œ ê³µê°œí•œ End-to-End ìŒì„± ì¸ì‹ ëª¨ë¸)

Inputìœ¼ë¡œ Spectrogramì„ ë°›ê³ Outputìœ¼ë¡œ CTC(connectionist temporal classification) ë°˜í™˜í•˜ëŠ” ê²ƒì„ ë³¼ ìˆ˜ ìžˆë‹¤. ì´ ëª¨ë¸ì—ì„œ ì‚´íŽ´ë´ì•¼í• ì ì€ ì•„ëž˜ì™€ ê°™ë‹¤.

ìŒì„± ì¸ì‹ì— ìœ ë¦¬í•œ ëª¨ë¸ ì•„í‚¤í…ì²˜
íš¨ìœ¨ì ì¸ í•™ìŠµ í…Œí¬ë‹‰ : Connectionist Temporal Classification(CTC) loss ì§ì ‘ êµ¬í˜„ ë“±

ìž…ë ¥ë°›ì€ Spectrogramì—ì„œ ì¤‘ìš”í•œ íŠ¹ì§• (feature) ì„ ë½‘ì•„ë‚´ëŠ” ë ˆì´ì–´ë¡œ Convolutional Neural Networkë¥¼ ì‚¬ìš©í•œë‹¤. ì´í›„ ì–‘ë°©í–¥(bidirectional) Recurrent Neural Networkë¥¼ ë‘ê³ , ë§ˆì§€ë§‰ì—ëŠ” Fully Connected Layerê°€ ìžˆë‹¤.

ì°¸ê³ : ratsgo.github.io/speechbook/docs/neuralam/deepspeech

CTC : Connectionist Temporal Classification (ì—°ê²°ì„± ì‹œê³„ì—´ ë¶„ë¥˜ê¸°)

í•µì‹¬ ì•„ì´ë””ì–´ëŠ” ìŒì„±ì˜ ê¸¸ì´ì— ë§žê²Œ í…ìŠ¤íŠ¸ì˜ ê¸¸ì´ë¥¼ ëŠ˜ë¦°ë‹¤ëŠ” ê°œë…ì´ë‹¤. ìŒì„±ì˜ ê¸¸ì´(S)ê°€ 7, í…ìŠ¤íŠ¸(T)ê°€ 3ì´ë¼ë©´ ëª¨ìžëž€ ë§Œí¼ Blank ("_")ë¡œ ì±„ìš´ë‹¤. í•˜ì§€ë§Œ ìš°ë¦¬ëŠ” ì–´ë””ì„œ Blankê°€ ë“¤ì–´ê°€ê³ ì–´ë””ì„œ ì‹¤ì œ Textê°€ ë“¤ì–´ê°€ì•¼ë˜ëŠ”ì§€ ì•Œì§€ ëª»í•œë‹¤. ê·¸ëŸ¼ìœ¼ë¡œ ê°€ëŠ¥í•œ ëª¨ë“ ì¡°í•©ì˜ í•©ìœ¼ë¡œ í™•ë¥ ì„ í‘œì‹œí•œë‹¤. CTCëŠ” ìµœì ì˜ ì •ë ¬(Alignment)ë¥¼ ì°¾ì•„ë‚´ê¸° ìœ„í•´ ê°€ëŠ¥í•œ ëª¨ë“ ì‹œí€€ìŠ¤ë“¤ì„ ë‚˜ì—´í•œë‹¤.

CTCëŠ” í˜„ìž¬ ë‹¤ì´ë‹¤ë¯¹ í”„ë¡œê·¸ëž˜ë°ì„ í†µí•´ ì—°ì‚°ì†ë„ë„ ê·¹ì ìœ¼ë¡œ ë¹¨ë¼ì ¸ ìžˆìœ¼ë©°, PyTorch, TensorFlowì— ê¸°ë³¸ìœ¼ë¡œ ë‚´ìž¥ì´ ë˜ìžˆì–´ ì‚¬ìš©í•˜ê¸° ì‰½ë‹¤. CTCì˜ ìž¥ì ì€ Encoderë§Œ ìŒ“ê³ , ê·¸ ìœ„ì— CTC Lossë§Œ ë„£ìœ¼ë©´ ìŒì„±ì¸ì‹ì´ ê°€ëŠ¥í•˜ë‹¤ëŠ” ì ì´ë‹¤. ë˜í•œ ì–´ëŠì •ë„ ì •ë ¬ ìœ„ì¹˜ë¥¼ ì¶”ì¶œí• ìˆ˜ ìžˆë‹¤ (Probability, Distributionì„ ë³´ê³ ì–´ëŠì •ë„ ì •ë ¬ ìœ„ì¹˜ë¥¼ ì—ì‚°í• ìˆ˜ ìžˆë‹¤ - ì •í™•í•˜ì§„ ì•ŠìŒ). ë‹¨ì ì€ ì¶”ê°€ì ì¸ LM decoding (Beam Search Decoding)ì´ ì—†ìœ¼ë©´ ì„±ëŠ¥ì´ ê·¹ì ìœ¼ë¡œ ì¢‹ì•„ì§€ì§€ ì•ŠëŠ”ë‹¤.

* ì•Œì•„ë‘ë©´ ì¢‹ì€ ë” deepí•œ ê°œë… ðŸ‘‡

from : m.blog.naver.com/PostView.nhn?blogId=sogangori&logNo=221183469708&proxyReferer=https:%2F%2Fwww.google.com%2F'

CTC ë„¤íŠ¸ì›Œí¬ëŠ” softmax output layer ë¥¼ ê°–ëŠ”ë‹¤. ì†Œí”„íŠ¸ë§¥ìŠ¤ëŠ” í´ëž˜ìŠ¤ ê°¯ìˆ˜ Lê°œ ë³´ë‹¤ í•˜ë‚˜ ë§Žì€ L + 1 ê°œì˜ ì•¡í‹°ë² ì´ì…˜ì„ ê°–ëŠ”ë‹¤. ì¶”ê°€ 1 ì€'blank' í˜¹ì€ no label ì˜ í™•ë¥ ì´ë‹¤. ì–´ëŠ í•˜ë‚˜ì˜ ë¼ë²¨ì‹œí€€ìŠ¤ {DOG} ì— ëŒ€í•œ ë„¤íŠ¸ì›Œí¬ì˜ ouputì€ {-D-OOGG} í˜¹ì€ {-DD-OGG-} ë“±ìœ¼ë¡œ ë‹¤ì–‘í•˜ê²Œ ë‚˜íƒ€ë‚ ìˆ˜ ìžˆë‹¤. (-: blank label ,ê³µë°±)

ì˜ˆë¥¼ ë“¤ì–´ ë„¤íŠ¸ì›Œí¬ì˜ ì¶œë ¥ì˜ max ì±„ë„ê°’ì´ {0.5, 0.55, 0.6, 0.65, 0.7, 0.75, 0.8} ì´ê³ í•´ë‹¹ ì±„ë„ì€ {-D-OOGG} ì˜€ë‹¤ê³ í•˜ìž. ì²«ë²ˆì§¸ ìžë¦¬ê°€ - ì¼ í™•ë¥ ì´ 0.5 , ë‘ë²ˆì§¸ ìžë¦¬ê°€ D ì¼ í™•ë¥ ì´ 0.55 ë¼ê³ í•´ì„ëœë‹¤. ì´ ë„¤íŠ¸ì›Œí¬ì˜ ì¶œë ¥ì´ paths ì¸ë° ì´ paths ì˜ ëª¨ë“ í™•ë¥ ì„ ì „ë¶€ ê³±í•œ ê²ƒì´ paths ì˜ í™•ë¥ ì´ë‹¤.

0.5*0.55*0.6*0.65*0.7*0.75*0.8 ~= 0.01 ë³´ë‹¤ ìž‘ê² ë‹¤.

ë‹¤ìŒìœ¼ë¡œëŠ” many-to-one mapì¸ B í•¨ìˆ˜ê°€ í•„ìš”í•˜ë‹¤. í•œ ë¼ë²¨ì— ëŒ€í•´ì„œ paths ëŠ” {-D-OOGG},{-DD-OGG-} ì²˜ëŸ¼ ë‹¤ì–‘í•˜ê²Œ ë‚˜íƒ€ë‚ ìˆ˜ ìžˆë‹¤. B í•¨ìˆ˜ëŠ” paths ì˜ ë¹ˆì¹¸ê³¼ ì¤‘ë³µì„ ì œê±°í•œë‹¤.

ì˜ˆ) B(paths) = ë¼ë²¨ì‹œí€€ìŠ¤
B(ab) = B(aab) = B(abb) = B(-ab) = B(a-b) = B(ab-)= ab
B(-D-OOGG) = B(-DD-OGG-) = DOG

í•œ ë¼ë²¨ì˜ paths ëŠ” ë‹¤ì–‘í•˜ê²Œ ë‚˜íƒ€ë‚ ìˆ˜ ìžˆëŠ”ë° ë¼ë²¨ì— ëŒ€í•œ Bì˜ ì—í•¨ìˆ˜ë¥¼ í†µí•´ ëª¨ë“ ê°€ëŠ¥í•œ paths ë¥¼ ì–»ì„ ìˆ˜ ìžˆë‹¤. ëª¨ë“ ê°€ëŠ¥í•œ paths ë“¤ì˜ í™•ë¥ ë“¤(pathsì˜ ëª¨ë“ ìš”ì†Œì˜ í™•ë¥ ë“¤ì„ ì „ë¶€ ê³±í•œê²ƒ)ì„ ëª¨ë‘ ë”í•œê²ƒì´ xê°€ ì£¼ì–´ì¡Œì„ë•Œ ë¼ë²¨ì˜ ì¡°ê±´ë¶€ í™•ë¥ ì´ë‹¤.

=> ì´ ëª¨ë“ ê°€ëŠ¥í•œ ë¼ë²¨ì˜ ì´í™•ë¥ ì„ ë†’ì´ëŠ” ê²ƒì´ í•™ìŠµì˜ ëª©í‘œì´ë‹¤.

ì£¼ì–´ì§„ x ë¡œë¶€í„° ë¶„ë¥˜ë¥¼ ê°€ìž¥ ì ì ˆí•˜ê²Œ í•´ì•¼ í•˜ë¯€ë¡œ p(L|x) ê°€ ê°€ìž¥ í° path ë¥¼ ì„ íƒí•´ì•¼ í•œë‹¤. íƒìƒ‰ì„ í•˜ë©´ì„œ ì ì ˆí•œ ë¼ë²¨ë§ì„ ì°¾ëŠ”ë‹¤ => CTCì˜ ë‹¨ì ê³¼ ì—°ê²° (ë‹¨ì ì€ ì¶”ê°€ì ì¸ LM decoding (Beam Search Decoding)ì´ ì—†ìœ¼ë©´ ì„±ëŠ¥ì´ ê·¹ì ìœ¼ë¡œ ì¢‹ì•„ì§€ì§€ ì•ŠëŠ”ë‹¤.)

ëª¨ë¸ 2. LAS: Listen, Attend, Spell

Deep Speech2ì™€ ë¹„ìŠ·í•œ ì‹œê¸°ì— Google Brainì—ì„œ ì œì•ˆí•œ Listen, Attend and Spell(LAS) ëª¨ë¸ì´ë‹¤. Listener, Attention, ê·¸ë¦¬ê³ Spellerë¡œ ë‚˜ëˆ ì§€ëŠ” ë¶€ë¶„ì— ì£¼ëª©í•´ì„œ ì‚´íŽ´ë³´ë©´ ëœë‹¤. CTC, RNN-Tì™€ ë‹¬ë¦¬ Attention ì•Œê³ ë¦¬ì¦˜ì„ ì´ìš©í•˜ì—¬ ìŒí–¥ ìž…ë ¥ê³¼ ë ˆì´ë¸” ì¶œë ¥ ì‚¬ì´ì˜ ì •ë ¬(Alignment)ì„ ê³„ì‚°í•œë‹¤.

ListenerëŠ” í”¼ë¼ë¯¸ë“œ í˜•ì‹ìœ¼ë¡œ êµ¬ëœ bidirectional LSTM(BLSTM) ì¸ì½”ë”ì´ë©° ìž…ë ¥ ì‹œí€€ìŠ¤ xë¡œë¶€í„° íŠ¹ì§•ì„ ë½‘ì•„ë‚¸ë‹¤. ListenerëŠ” BLSTMì„ Pyramidal í˜•ì‹ìœ¼ë¡œ 3ê°œë¥¼ ë¶™ì—¬ì„œ ì‚¬ìš©í•˜ê³ ìžˆë‹¤. ë…¼ë¬¸ì—ì„œëŠ” ì´ë¥¼ pBLSTMìœ¼ë¡œ ë¶€ë¥´ê³ ìžˆìœ¼ë©°, pyramidal í•˜ê²Œ ì‚¬ìš©í•˜ëŠ” ì´ìœ ëŠ” pBLSTM 1ê°œë‹¹ ì—°ì‚°ì†ë„ë¥¼ 2ë°°ë¡œ ì¤„ì—¬ì£¼ê¸° ë•Œë¬¸ì´ë‹¤. 3ê°œì˜ BLSTMì˜ top of the bottomì— ìŒ“ì€ pBLSTMì€ time resolutionì„ 2ì˜ 3ìŠ¹ë§Œí¼, ì¦‰ 8 ë°°ë§Œí¼ ì¤„ì—¬ì¤€ë‹¤ê³ í•œë‹¤.

SpellerëŠ” attentionì„ ì‚¬ìš©í•´ì„œ ì¶œë ¥ì„ í•˜ëŠ” ë””ì½”ë” decoderì´ë‹¤. AttendAndSpell í•¨ìˆ˜ëŠ” attention ê¸°ë°˜ì˜ LSTM ë³€í™˜ê¸°ì¸ decoderë¥¼ í†µí•´ì„œ ê³„ì‚°ëœë‹¤. decoderëŠ” ë§¤ time stepë§ˆë‹¤ ì´ì „ì— ê²°ì •ëœ ë¬¸ìžë“¤ì— ëŒ€í•œ ë‹¤ìŒ ë¬¸ìžì˜ ë¶„í¬ë¥¼ ìƒì„±í•œë‹¤. (ëª¨ë“ ì¶œë ¥ ë‹¨ê³„ì—ì„œ ë³€í™˜ê¸°ëŠ” ì´ì „ì— ë³¸ ëª¨ë“ ë¬¸ìžë¥¼ ì¡°ê±´ìœ¼ë¡œ í•œ ë‹¤ìŒ ë¬¸ìžì— ëŒ€í•œ í™•ë¥ ë¶„í¬ë¥¼ ìƒì„±í•œë‹¤)

ì´ ëª¨ë¸ì˜ í•™ìŠµì€, ìž…ë ¥ ìŒì„±ì— ëŒ€í•´ ì•Œë§žëŠ” sequenceì˜ log probabilityë¥¼ maximizeí•œë‹¤. ê·¸ë¦¬ê³ ë””ì½”ë”© ê´€ë ¨í•˜ì—¬, test ì‹œì— ê°€ìž¥ ê·¼ì ‘í•œ character sequenceë¥¼ ì£¼ì–´ì§„ ìŒí–¥ì— ëŒ€í•´ ì°¾ëŠ”ë‹¤.

Content based Attention Mechanismì€ ë¬¸ìžì™€ ì˜¤ë””ì˜¤ ì‹ í˜¸ ì‚¬ì´ì˜ ëª…í™•í•œ ì •ë ¬ì„ ë§Œë“ ë‹¤. ì•„ëž˜ ì‚¬ì§„ì—ì„œ ì˜¤ë¥¸ìª½ ì•„ëž˜ì— ìžˆëŠ” ê·¸ë¦¬ë“œëŠ” ë¬¸ìžì™€ ìž…ë ¥ ìŒì„±ê°„ì˜ í• ë‹¹ (Alignment / ì •ë ¬)ì„ ë³´ì—¬ì¤€ë‹¤. "how much would a woodchuck chuck" ë¼ëŠ” ìŒì„± inputì— ë”°ë¥¸ character alignmentì¸ë°, Content based attention mechanismì€ ì²« ë²ˆì§¸ ë¬¸ìžì— ëŒ€í•œ ì˜¤ë””ì˜¤ ì‹œí€€ìŠ¤ì˜ ì‹œìž‘ ìœ„ì¹˜ë¥¼ ì˜¬ë°”ë¥´ê²Œ ì‹ë³„í• ìˆ˜ ìžˆì—ˆë‹¤ê³ í•œë‹¤. => ì–´ë–¤ í…ìŠ¤íŠ¸ë¥¼ ë§Œë“¤ ë•Œ ì–´ë””ë¥¼ ë´ì•¼ í•˜ë‚˜

ì°¸ê³ : jybaek.tistory.com/793

www.secmem.org/blog/2019/07/21/Listen,-Attend-and-Spell/

kaen2891.tistory.com/30

ëª¨ë¸ 3. RNN-T: Recurrent Neural Network Transducer

CTCì™€ ìœ ì‚¬í•˜ë‹¤. CTCì™€ ë§ˆì°¬ê°€ì§€ë¡œ ìµœì ì˜ ì •ë ¬(Alignment)ì„ ì°¾ì•„ë‚´ê¸° ìœ„í•´ ëª¨ë“ ì‹œí€€ìŠ¤ë¥¼ ë‚˜ì—´í•œ í›„ êµ¬í•œë‹¤. í•˜ì§€ë§Œ CTCì™€ ë‹¬ë¦¬ ì¡°ê±´ë¶€ ë…ë¦½ì„ ê°€ì •í•˜ì§€ ì•Šê¸° ë•Œë¬¸ì— ìµœì ê²½ë¡œ ê³„ì‚°ì´ CTCì™€ëŠ” ë‹¤ë¥´ë©°, CTCë³´ë‹¤ ë” ë³µìž¡í•˜ê²Œ ê³„ì‚°ëœë‹¤ê³ í•œë‹¤. CTCì—ì„ ë‹¤ìŒ ë¼ë²¨ì´ ë‚˜ì˜¬ ë•Œ ê¹Œì§€ ìœ ì§€ê°€ ëœë‹¤. "ë‚˜ëŠ” í•™êµë¥¼ ê°„ë‹¤"ë¼ê³ ë¬¸ìž¥ì„ ì˜ˆì¸¡í•œë‹¤ê³ í•˜ë©´ ë‚˜ëŠ”ì„ ì˜ˆì¸¡ í›„ì— í•™êµì— ë¼ëŠ” ìŒì„±ì´ ë“¤ì–´ê°€ë©´ í•™êµë¥¼ ì˜ˆì¸¡í•œë‹¤. Alignment ë°ì´í„°ê°€ í•„ìš”ì—†ë‹¤. ìŒì„± í”„ë ˆìž„ì´ ë„˜ì–´ê°€ëŠ” ë§¤ ìˆœê°„ë§ˆë‹¤ ì§€ê¸ˆ ë‹¨ì–´ (ë¼ë²¨)ë¥¼ ìœ ì§€í• ì§€, ë‹¤ìŒ ë‹¨ì–´ë¡œ ì§„í–‰í• ì§€ ì°¾ì•„ë‚¸ë‹¤. CTCì™€ ë§ˆì°¬ê°€ì§€ë¡œ ê°€ëŠ¥í•œ ëª¨ë“ ê²½ë¡œ, pathì˜ ì¡°í•©ìœ¼ë¡œ í™•ë¥ ì„ ê³„ì‚°í•˜ê³ , ê·¸ í™•ë¥ ì„ ë†’ì´ëŠ” ë°©í–¥ìœ¼ë¡œ í›ˆë ¨ì„ í•œë‹¤. ì•„ëž˜ëŠ” ê¸°ì¡´ CTC ëª¨ë¸ê³¼ì˜ ì°¨ì´ë¥¼ ë³´ì—¬ì£¼ëŠ” ê·¸ë¦¼ì¸ë°, RNN-TëŠ” Encoderì— Prediction Networkë¥¼ ì—°ê²°í•´ì„œ ì‚¬ìš©í•œë‹¤. prediction networkë¥¼ ì—°ê²°ì‹œì¼œì¤Œìœ¼ë¡œì¨ í›„ì²˜ë¦¬ ì–¸ì–´ëª¨ë¸ì˜ íš¨ê³¼ë¥¼ ì–»ì„ ìˆ˜ ìžˆë‹¤ê³ í•œë‹¤.

ìµœê·¼ì˜ ëª¨ë¸ë“¤ì€ LAS, RNN-T ì¤‘ í•˜ë‚˜ë¡œ ì£¼ë¡œ í›ˆë ¨ì„ í•œë‹¤ê³ í•œë‹¤. RNN-Tê°€ ë” ê°ê´‘ ë°›ëŠ” ì¶”ì„¸ì´ë‹¤ (ë‹¤ìŒì‹œê°„ì— Streamingê³¼ ê´€ë ¨).

ì°¸ê³ : jybaek.tistory.com/793

ëª¨ë¸ ìš”ì•½

ìš”ì•½ : n to m ê°¯ìˆ˜ë¥¼ ë§žì¶°ë¼! (ìŒì„±ì˜ ê¸¸ì´ì— ë§žê²Œ í…ìŠ¤íŠ¸ì˜ ê¸¸ì´) ì–´ë–»ê²Œ?

SOTA (State Of The Art) in ASR

Summary

=> ê°€ì§€ëŠ” ë°ì´í„°ê°€ íŠ¹ìˆ˜í•˜ë‹¤ë©´ (noisy), ë˜ëŠ” í™˜ê²½ì— ë§žëŠ” í›ˆë ¨ì´ í•„ìš”í•˜ë‹¤ë©´ ë¼ì´ë¸ŒëŸ¬ë¦¬ë¥¼ ì‚¬ìš©í•˜ë©´ ëœë‹¤

=> ë˜ëŠ” ì‚¬ì „ì— í›ˆë ¨ëœ ìŒì„± ì¸ì‹ ëª¨ë¸ì„ ì‚¬ìš©í•˜ë©´ ëœë‹¤ (ìŒì„±ì¸ì‹ë„ ì´ì œ pre-training, fine-tuning... ì˜ì–´ë¡œ ì‚¬ì „í•™ìŠµ ë˜ìžˆì–´ë„ ì‚¬ëžŒì˜ ë°œìŒê¸°í˜¸ê°€ ë¹„ìŠ·í•´ì„œ ë‹¤ë¥¸ ì–¸ì–´ë¡œ ë°”ê¿¨ì„ ë•Œë„ ìž˜ëœë‹¤?).

=> ê°€ìž¥ ëŒ€í‘œì ì¸ ê²ƒì´ Wav2Vec ëª¨ë¸ (ë‹¤ìŒì‹œê°„ì—...)

=> HuggingFace ë¥¼ ì“°ìž...

728x90

'AI > Self-Study' ì¹´í…Œê³ ë¦¬ì˜ ë‹¤ë¥¸ ê¸€

yolov5 í•™ìŠµ íŠœí† ë¦¬ì–¼ 1 (6)	2021.05.11
í•œì¤„ë¡œ Train/Test/Validation ë‚˜ëˆ„ê¸° (splitfolders : annotationë„ í•¨ê»˜ ë‚˜ëˆ„ëŠ”ë²•) (0)	2021.05.11
Keras : ImageDataGenerator ëŒ€ì‹ ì— tf.dataë¡œ ë¹ ë¥´ê²Œ í•™ìŠµí•˜ê¸° 2 (0)	2021.04.12
Keras : ImageDataGenerator ëŒ€ì‹ ì— tf.dataë¡œ ë¹ ë¥´ê²Œ í•™ìŠµí•˜ê¸° 1 (0)	2021.04.12
Kerasì—ì„œ predictì™€ predict_generator ê°€ ë‹¤ë¥¸ ê°’ì„ ë‚´ëŠ” ê²½ìš° (Image Data Generator) (0)	2021.04.09