GitHub - winterconnect/NLP: Toy projects and practices related to Natural Language Processing, the field that I've enjoyed the most. (This repo will be updated continuously since I do enjoy working on it.)

NLP 코드모음

혼자서 공부하면서, 혹은 강의를 들으면서 틈틈이 정리한 NLP 관련 코드들의 모음입니다.

제가 제일 재밌게 작업하는 레포이기 때문에, 계속해서 업데이트될 예정입니다.

목록

Word2Vec English
- Data Preprocessing
- Tokenization(nltk)
- Word2Vec(gensim)
Word2Vec Korean
- 네이버 영화 리뷰 데이터 사용
- Data Preprocessing (정규표현식, 불용어 제거)
- Tokenization(KoNLPy Okt)
- 데이터 분포 시각화
- Word2Vec(gensim)
Pre-trained Word2Vec Embedding
- English: GoogleNews-vector-negative300
- Korean: ko.bin
Skipgram with Negative Sampling(SGNS)
- Data Preprocessing(Null 제거, 정규화, 소문자화, 불용어 제거)
- Tokenization(Keras)
- Skip-gram(Keras)
- Skip-gram with Negative Sampling(Keras)
Tagging Task using Bidirectional LSTM
- Data Preprocessing(정규화, 단어-태깅 분리)
- Tokenization(Keras)
- OOV로 대체된 단어 확인
- Bi-LSTM 개체명 인식기(Keras)
Machine Translation using LSTM
- Load Data: kor-eng.zip
- 글자단위 번역기: encoder(LSTM), decoder(LSTM)
- 단어단위 번역기: encoder(LSTM), decoder(LSTM)
Attention
- Load Data: Reviews(English)
- Data Preprocessing: 동일한 의미지만 스펠링이 다른 단어 정규화
- Modeling: Encoder(LSTM) + Decoder(LSTM + attention)
Transformer
- 모델에 대한 전반적인 이해
- Positional Encoding
- Scaled dot-product Attention(Query, Key, Value)
- Multi-head Attention
- Masking
- Encoder & Decoder
Chatbot using Transformer
- Load Data: Chatbotdata%20
- Data Cleansing
  - 구두점 앞에 공백 추가
  - 단어집합 생성
  - 정수인코딩과 패딩
- 챗봇 모델링 & 평가
Text Summarzation using Attention & seq2seq
- 7번 모델의 보완모델
TextRank Summarization

느낀점

데이터 전처리의 방법은 정말 다양하다
양질의 데이터를 학습시키는 것이 정말 중요한데, 그것을 위해 중요하고 중요한 것이 바로.... 전처리다
자연스럽게 말하는 모델을 만드는 게 정말정말 어렵다.
Transformer의 성능이 좋아서, 이 모델 기반의 Bert, GPT를 사용해보고 싶다 (조만간)

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
code		code
models		models
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

NLP 코드모음

목록

느낀점

About

Releases

Packages

Languages

winterconnect/NLP

Folders and files

Latest commit

History

Repository files navigation

NLP 코드모음

목록

느낀점

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages