one-hot encoding1 one-hot encoding과 Tokenizer를 통한 Word Representation (tensorflow v2.4.0) 텍스트는 시퀀스 형태의 데이터이며, 앞으로 시퀀스 모델에 대해서 실습하기 전에 텍스트를 단어나 문자로 나누어서 벡터화하는 방법에 대해서 이야기해보도록 하겠습니다. 텍스트를 나누는 단위를 토큰(Token)이라고 하며, 이러한 작업을 토큰화(tokenization)이라고 합니다. 모든 텍스트 벡터화 작업은 어떤 종류의 토큰화를 적용하고 생성된 토큰에 수치형 벡터를 연결하게 됩니다. 이거 이 벡터는 시퀀스 Tensor로 묶여 모델로 주입됩니다. 토큰과 벡터를 연결하는 방법은 여러가지가 있는데, 주로 one-hot encoding과 work embedding이 사용됩니다. 이번 글에서는 one-hot encoding 방법들에 대해서 직접 연습해보도록 하겠습니다. one-hot.. 2020. 12. 24. 이전 1 다음