분류 전체보기465 Sequence models & Attention mechnism / Speech recognition(CTC) 해당 내용은 Coursera의 딥러닝 특화과정(Deep Learning Specialization)의 다섯 번째 강의 Recurrent Neural Network를 듣고 정리한 내용입니다. (Week 3) Various sequence to sequence architectures [Basic Models] 이번 강의부터는 Sequence-to-sequence 모델에 대해서 배우게 된다. Basic model부터 시작해서 Beam search와 attention model에 대해서 알아보자. 'Jane viste l'Afrique en septembre'라는 프랑스어로 된 문장을 영어 문장으로 변환하고 싶다면, 프랑스어로 된 문장 시퀀스를 \(x^{}\)부터 \(x^{}\)까지 표시하고, \(y^{}\).. 2020. 12. 28. [실습] Operations on word vectors - Debiasing 해당 내용은 Coursera의 딥러닝 특화과정(Deep Learning Specialization)의 다섯 번째 강의 Recurrent Neural Network를 듣고 정리한 내용입니다. (Week 2) 2주차 첫번째 실습은 Word Embedding의 bias를 제거하는 방법을 직접 구현해보는 것입니다. 임베딩은 미리 학습된 GloVe 임베딩을 사용할 것이며, 이는 nlp.stanford.edu/projects/glove/ 에서 다운받을 수 있습니다. import numpy as np def read_glove_vecs(glove_file): with open(glove_file, 'r', encoding='utf-8') as f: words = set() word_to_vec_map = {} for.. 2020. 12. 26. NLP and Word Embeddings: Word2vec & GloVe 해당 내용은 Coursera의 딥러닝 특화과정(Deep Learning Specialization)의 다섯 번째 강의 Recurrent Neural Network를 듣고 정리한 내용입니다. (Week 2) [Learning word embeddings] 단어 임베딩(Word Embedding) 딥러닝 연구에서 초반에는 비교적 복잡한 알고리즘으로 시작했다. 그리고 시간이 지나면서, 훨씬 더 간단하고 단순한 알고리즘도 가능하고, 특히 큰 데이터셋에서 매우 좋은 결과를 얻을 수 있다는 것을 발견하게 되었다. 최근 가장 인기있는 몇몇의 알고리즘들은 너무 단순해서 마치 마법처럼 보일 수도 있을 정도이다. 단어 임베딩이 어떻게 동작하는지 직관적으로 이해하기 위해서 더 복잡한 알고리즘의 일부를 살펴보도록 하자. La.. 2020. 12. 26. [tensorflow] naver 영화 리뷰 감성 분석 (tensorflow v2.4.0) 이번에는 IMDB dataset 분류에 이어서 한글로 된 영화 리뷰 데이터를 사용해서 감성 분석을 진행해보도록 하겠습니다. 데이터는 아래 github을 참조하시면 됩니다. https://github.com/e9t/nsmc/ 1. 데이터 불러오기 필요한 패키지들을 import하고, github에 있는 데이터를 불러옵니다. train_text의 처음 300자를 확인해보면 id, review, label로 구성된 것을 확인할 수 있습니다. import tensorflow as tf import numpy as np import matplotlib.pyplot as plt path_to_train_file = tf.keras.utils.get_file('train.txt', .. 2020. 12. 24. 감성분류 on IMDB datasets (2) (tensorflow v2.4.0) 2020/12/24 - [ML & DL/tensorflow] - 감성분류 on IMDB datasets (1) 감성분류 on IMDB datasets (1) (tensorflow v2.4.0) IMDB dataset을 사용해서 감성분류를 해보도록 하겠습니다. IMDB dataset은 영화 리뷰 데이터이며, 구현해볼 것은 해당 리뷰가 긍정적인 리뷰인지 부정적인 리뷰인지 분류하는 것입니다 junstar92.tistory.com 이전 게시글에 이어서 이번에는 IMDB 분류 문제를 RNN layer를 사용해서 수행해보도록 하겠습니다. import tensorflow as tf import tensorflow.keras as keras import tensorflow.keras.. 2020. 12. 24. 감성분류 on IMDB datasets (1) (tensorflow v2.4.0) IMDB dataset을 사용해서 감성분류를 해보도록 하겠습니다. IMDB dataset은 영화 리뷰 데이터이며, 구현해볼 것은 해당 리뷰가 긍정적인 리뷰인지 부정적인 리뷰인지 분류하는 것입니다. 이번 글에서는 RNN layer가 아닌 Dense layer로만 구성된 모델과 Word Embedding layer를 사용한 Dense layer 모델로 학습해보도록 하겠습니다. 1. Dense layer로만 이루어진 Model 학습 우선 데이터를 준비합니다. num_words=10000으로 설정해서, 가장 빈도수가 높은 10000개의 단어만 사용하도록 합니다. import tensorflow as tf import numpy as np (train_data, train_la.. 2020. 12. 24. one-hot encoding과 Tokenizer를 통한 Word Representation (tensorflow v2.4.0) 텍스트는 시퀀스 형태의 데이터이며, 앞으로 시퀀스 모델에 대해서 실습하기 전에 텍스트를 단어나 문자로 나누어서 벡터화하는 방법에 대해서 이야기해보도록 하겠습니다. 텍스트를 나누는 단위를 토큰(Token)이라고 하며, 이러한 작업을 토큰화(tokenization)이라고 합니다. 모든 텍스트 벡터화 작업은 어떤 종류의 토큰화를 적용하고 생성된 토큰에 수치형 벡터를 연결하게 됩니다. 이거 이 벡터는 시퀀스 Tensor로 묶여 모델로 주입됩니다. 토큰과 벡터를 연결하는 방법은 여러가지가 있는데, 주로 one-hot encoding과 work embedding이 사용됩니다. 이번 글에서는 one-hot encoding 방법들에 대해서 직접 연습해보도록 하겠습니다. one-hot.. 2020. 12. 24. Introduction to Word Embeddings 해당 내용은 Coursera의 딥러닝 특화과정(Deep Learning Specialization)의 다섯 번째 강의 Recurrent Neural Network를 듣고 정리한 내용입니다. (Week 2) - Introduction to Word Embeddings [Word Representation] 저번주 강의에서 RNN, GRU, LSTM에 대해서 배웠고, 이번주에서는 NLP에 어떤 아이디어들을 적용할 수 있는지 살펴보도록 할 것이다. NLP에서 중요한 아이디어 중의 하나는 Word Embedding(단어 임베딩)이다. 지난 주에 사용했던 1만개의 단어에 대해서 우리는 one-hot encoding을 통해서 단어를 표시했다. 즉, Man은 5391의 index를 갖고 있으며, 10000 dimen.. 2020. 12. 24. [tensorflow] RNN에 사용되는 layer (tensorflow v2.4.0) RNN 모델에 사용하는 tensorflow의 layer에 대해서 알아보도록 하겠습니다. import numpy as np import tensorflow as tf 1. Simple RNN layer tensorflow에서 Simple RNN은 아래의 API로 사용할 수 있습니다. tf.keras.layers.SimpleRNN 이번글에서 파라미터로는 units, activation, return_sequences를 사용할 예정이며, units은 output의 차원이며, return_sequences는 RNN에서 마지막 output 시퀀스에서만 결과를 출력할 지, 아니면 모든 시퀀스에서 결과를 출력할 지에 대한 여부를 나타냅니다. 주로 여러 개의 RNN layer를 쌓을.. 2020. 12. 22. [실습] Character-level Language Modeling 해당 내용은 Coursera의 딥러닝 특화과정(Deep Learning Specialization)의 다섯 번째 강의 Recurrent Neural Network를 듣고 정리한 내용입니다. (Week 1) 1주차 두번째 실습은 Character-level language model을 구현해보는 것입니다. 주제는 공룡 이름 짓기이며, 기존 공룡 이름들로 학습해서 새로운 공룡 이름을 짓는 모델입니다. 기존 공룡 이름은 dataset을 참조바랍니다. 필요한 패키지들을 import하고 시작해보도록 하겠습니다. import numpy as np from utils import * import random import pprint utils에는 이전 실습에서 구현한 Simple RNN의 각 step 함수들과 초기화.. 2020. 12. 21. 이전 1 ··· 32 33 34 35 36 37 38 ··· 47 다음