GPT

한글로 번역된 논문을 보고 이해된 내용입니다. (참고, GPT의 논문 제목은 Improving Language Understanding by Generative Pre-Training 입니다.)

번역한 이는 LM pre-training후에 fine-tuning이 어떻게 등장하였는지 소개한다는 점에서 GPT 논문의 기여를 찾고 있습니다.

GPT vs BERT

GPT는 transformer의 decoder를 사용합니다.
- BERT의 경우 transformer의 encoder를 사용합니다.
GPT는 일반적인 LM을 사용합니다.
- BERT는 masked LM을 사용합니다.
- 일반적인 LM은 현재를 기준으로 다음을 예측하는 것을 의미합니다.

GPT의 목적은 Universal Representation을 학습하는 것입니다.

이 논문에서는 unsupervised pre-training + supervised fine-tuning을 결합하여 language understanding task에 대한 semi-supervised approach를 연구합니다.

이 과정은 두 단계로 이뤄집니다.

unsuper

코퍼스 가 주어지면, 다음의 likelihood를 최대화하는 standard language modeling objective 사용
k: context window 크기
: NN parameters
는 token context vector, n은 layer 수, We token embedding matrix, Wp는 positional embedding matrix일 때, 다음의 구조를 가진다.