GPT-2 논문 리뷰 - "Language Models are Unsupervised Multitask Learners"

목록으로 돌아가기

Language Models are Unsupervised Multitask Learners


이미지 설명

Review


Abstract

이미지 설명

웹 상의 방대한 텍스트 자료를 활용한 학습은 자연어 처리 작업들에서 지도학습의 효과를 낼 수 있다는 내용이다.


  • 질문 응답, 기계 번역, 독해, 요약과 같은 자연어 처리 작업이 일반적으로 작업별 데이터셋에 대한 지도 학습을 통해 처리된다고
  • 웹 텍스트라고 불리는 수백만 개의 웹 페이지의 새로운 데이터 세트에 대해 훈련할 때 위 작업들을 별도의 지도 없이도 학습하기 시작
  • 언어 모델의 용량은 제로샷(언어 모델이 특정 작업의 추가 지도 학습 없이도 새로운 작업을 수행하는 능력) 작업의 있어서 중요한 역할함
  • 언어 모델의 “용량”은 모델이 가진 파라미터(parameter)의 수나 복잡성을 나타냄(용량은 모델이 얼마나 많은 정보를 저장하고 처리할 수 있는지를 나타내는 지표)


Introduction

이미지 설명

논문이 출간된 시점 고성능을 내는 방식의 시스템의 단점과 GPT-2가 바라는 시스템에 대해 서술돼 있다.

  • 지금은 기계 학습 시스템이 대용량 데이터셋, 고용량 모델 및 지도 학습의 조합을 사용하여 훈련된 작업에서 뛰어난 결과 냄
  • 하지만 이러한 시스템들은 데이터 분포의 약간한 변화, 작업 명세의 작은 변경에 민감함
  • 현재의 시스템은 능력 있는 일반적인 시스템보다는 좁은 전문가로서의 특성을 가짐
  • 우리는 여러 작업을 수행할 수 있는 더 일반적인 시스템으로 나아가고자 함

이미지 설명

지속적으로 현재 시스템의 문제와 저자가 생각하는 문제 원인을 말한다.

  • 현재 접근 방식은 원하는 작업에 대한 올바른 동작을 보여주는 훈련 예제 데이터 세트를 수집하고 이러한 동작을 모방하도록 함
  • 하지만 종종 나오는 불규칙한 동작은 이 접근 방식의 몇 가지 단점을 강조한다.
  • 단일 도메인 데이터 세트에서 단일 작업 교육의 보급이 현재 시스템에서 관찰되는 일반화 부족의 주요 원인이라고 생각함 (도메인 = 분야(ex> 의학, 스포츠, 금융 등))
  • 강건한 시스템으로의 진전은 다양한 도메인과 작업에서 훈련하고 성능을 측정하는 것이 필요할 것이다.

이미지 설명

NLP의 멀티태스킹 교육은 여전히 초기 단계라고 한다. 현재 ML 시스템은 일반화가 잘 되는 함수를 유도하기 위해 수백에서 수천 개의 예제가 필요가 필요하다고 한다.

  • 다중 작업 학습 역시 현재 접근 방식으로는 많은 효과적인 훈련 쌍이 필요
  • 현재의 기술로는 데이터셋을 생성하고 목표를 설계하는 스케일을 계속 확장하는 것이 매우 어려울 것
  • 다중 작업 학습을 수행하기 위한 추가적인 설정을 탐구하는 동기부여가 생김

이미지 설명

본 논문에서 성취하길 원하는 목표를 말한다.

  • 언어 작업에 대한 현재의 최상의 수행 시스템은 사전 훈련과 감독된 미세 조정의 조합임
  • 현재 시스템은 단어 벡터를 학습하고 작업별 아키텍처에 대한 입력으로 사용
  • 이러한 방법은 작업을 수행하기 위해 여전히 감독된 교육이 필요
  • 본 논문에서는 이 두 가지 연구 분야를 연결하고 더 일반적인 전이 방법의 추세를 이어감 (언어 모델이 매개변수나 아키텍처 수정 없이 제로샷 환경에서 하위 작업을 수행할 수 있음을 보여줄 예정)

이미지 설명

이 그림은 언어 모델의 크기와 다양한 자연어 처리 작업에서의 성능 간의 관계를 나타내고 있다

  • 더 큰 언어 모델이 일반적으로 더 좋은 성능을 내는 경향을 보임
  • 다양한 작업에 대해 제로샷 학습으로 높은 성능을 보여주는 것을 보임


Approach

이미지 설명

GPT-2의 접근 방식의 핵심이 언어 모델링이라고 한며 p(x) = ∏ p(si|s1, …, si-1)에 대한 이야기를 한다.

  • 언어 모델링은 일반적으로 예제 집합 (x1, x2, …, xn)에서 변수 길이의 기호 시퀀스 (s1, s2, …, sn)로 구성
  • 언어는 자연스러운 순차적인 순서를 가지고 있기 때문에, 기호들에 대한 조인트 확률을 조건부 확률의 곱으로 분해하는 것이 일반적
  • 이 접근 방식은 p(x) 및 p(sn−k, …, sn|s1, …, sn−k−1)와 같은 조건부 확률의 샘플링과 추정을 효과적으로 수행
  • 이러한 조건부 확률을 계산할 수 있는 모델의 표현력에 큰 개선이 있었으며, Transformer와 같은 셀프 어텐션 아키텍처와 같은 모델들이 이러한 조건부 확률을 계산할 수 있는 능력을 향상시키는데 중요한 역할을 함

이미지 설명

GPT-2는 지도 없이도 task를 학습할 수 있다. McCann은 muti-task learning으로 실제 여러 개의 dataset을 학습한것이라면 GPT-2는 Language Model을 unsupervised-learning으로 했다는 것이다.

  • 단일 작업을 수행하는 학습은 확률적인 프레임워크로서 조건부 분포 p(output|input)를 추정하는 것으로 표현될 수 있다.[p(output|input)]
  • 일반적인 시스템은 동일한 입력에 대해 많은 다양한 작업을 수행할 수 있어야 하기 때문에, 입력 뿐만 아니라 수행할 작업에도 조건을 부여해야 함[p(output|input, task)]
  • McCann에서 나타난 것처럼 언어는 작업, 입력 및 출력을 모두 기호의 시퀀스로 지정하는 유연한 방법이 있음
  • 하지만 GPT2 비지도로 task 구분 가능
# 번역 작업 예시 각각 요소 사이에는 시컨스로 지정하는 기호로 구분해야함
# 작업, 영어 텍스트, 프랑스어 텍스트
("프랑스어로 번역 작업", "I love programming.", "J'adore la programmation.")
# 독해 작업 예시 각각 요소 사이에는 시컨스로 지정하는 기호로 구분해야함
# 작업, 문서 질문, 답변
("질문과 답변", "A는 컴퓨터 공학과 수학을 좋아한다.", "A가 좋아하는 것은?", "컴퓨터공학")



이미지 설명

언어 모델링은 기본적으로 문장을 생성하거나 이해하는 작업을 수행하는 것이다. 예를 들어, “I love programming.”이라는 문장을 생성하거나 이해하는 능력을 갖게 된다. 논문에서 언급한 내용은, 이 언어 모델이 “번역 작업”이라는 작업을 수행할 수 있는지를 논의한다. 논문은 언어 모델이 “번역 작업”을 하면서, 어떤 심볼이 실제로 번역 출력값인지를 따로 알려주지 않아도 학습할 수 있는지를 확인한다. 실제로 모델이 이러한 작업을 학습할 수 있다면, 사실상 감독 없이 다양한 작업을 수행하는 능력을 갖게 될 것이다. 이를 평가하기 위해 제로샷 설정으로 다양한 작업을 테스트할 예정이다.


Approach - Training Dataset

이미지 설명

논문의 저자들은 직접 데이터 필터링을 수행하는 대신, 웹 페이지 중에서도 사람들에 의해 고른 내용만 추출하여 데이터셋을 구축했다. 이를 위해 Reddit라는 소셜 미디어 플랫폼에서 적어도 3개 이상의 카르마를 받은 게시물의 링크들을 추출했다. 이런 방식으로 다른 사용자들이 해당 링크를 흥미롭거나 교육적이거나 재미있는 것으로 생각한지를 휴리스틱하게 판단한 것이다. 데이터셋은 약 4500만개의 링크에서 추출한 텍스트로 이루어져 있으며, HTML 응답에서 텍스트를 추출하기 위해 Dragnet과 Newspaper1 컨텐츠 추출기의 조합을 사용했다. 이 데이터셋은 2017년 12월 이후에 생성된 링크를 포함하지 않고 중복 제거 및 일부 휴리스틱 기반 클리닝을 수행하여 총 8백만 개가 넘는 문서, 총 40GB의 텍스트로 구성된다.


Approach - Input Representation

이미지 설명

현재의 대규모 언어 모델은 소문자 변환, 토큰화, 어휘에 없는 토큰 등의 전처리로 인해 모델이 다룰 수 있는 문자열이 제한된다. 유니코드 문자열을 UTF-8 바이트의 시퀀스로 처리하면 이 문제를 해결할 수 있다. 그러나 현재의 바이트 수준 언어 모델은 큰 데이터셋에서 단어 수준 언어 모델과 경쟁에서 밀리는 경우가 많다.

# 바이트 단위
입력: "banana"
글자로 나눈 결과: "ba", "na", "na"

# 유니코드 포인터 단위
입력: "banana"
유니코드 코드 포인트로 나눈 결과: "b", "a", "n", "a", "n", "a"

# 글자 단위
입력: "hello"
글자로 나눈 결과: "b", "a", "n", "a", "n", "a"

Byte Pair Encoding (BPE)는 글자와 단어 수준 언어 모델 사이의 실용적인 중간 방식으로, 빈번한 기호 열에 대해 단어 수준 입력을, 드물게 등장하는 기호 열에 대해 글자 수준 입력을 효과적으로 보완한다.

#"I love cats." 문장을 UTF-8 바이트 시퀀스로 변환 (예시 입니다! 정상 작동 x)

UTF-8 바이트 시퀀스: [73, 32, 108, 111, 118, 101, 32, 99, 97, 116, 115, 46]
# 인코딩
73: 'I'
32: 공백(space)
108: 'l'
111: 'o'
118: 'v'
101: 'e'
32: 공백(space)
99: 'c'
97: 'a'
116: 't'
115: 's'
46: '.'
#"I love cats." 문장을 UTF-8 바이트 시퀀스로 변환 만일 lo와 ve가 많이 나온다면 (예시 입니다! 정상 작동 x)

UTF-8 바이트 시퀀스: [73, 32, 199, 200, 32, 99, 97, 116, 115, 46]
# 인코딩
73: 'I'
32: 공백(space)
199: 'lo'
200: 've'
32: 공백(space)
99: 'c'
97: 'a'
116: 't'
115: 's'
46: '.'

그러나 바이트 단위의 병합에도 문제가 있다. “cat.”, “cats”, “cat!”의 경우 무의미한 서브워드(Subword)가 다량 많들어 질 수도 있다.
논문에서는 병합을 통해 유의미하지 않은 단어의 버전을 방지하고 Vocabulary의 크기를 효율적으로 관리하려는 목적으로 문자 수준 이상의 병합을 막았다고 언급한다.


Approach - Model

이미지 설명

논문에서는 Transformer 아키텍처를 기반으로 하는 언어 모델을 사용하며, 이 모델은 OpenAI GPT 모델을 기반으로 하되 몇 가지 수정 했다고 한다.

  • 모델 구조: 입력 서브-블록 각각의 처음에 레이어 정규화 (Layer normalization)이 추가되었으며, 마지막 self-attention 블록 이후에도 추가적인 레이어 정규화를 추가
  • 초기화와 스케일링: 모델 초기화에 있어서 잔차 경로의 누적을 고려하는 수정된 초기화 방법이 사용, 또한 잔차 레이어의 가중치를 초기화할 때 잔차 레이어의 개수 N으로 나누어 스케일링을 수행
  • 어휘 크기와 문맥 크기: 어휘 크기가 50,257로 확장되었으며, 문맥 크기가 512에서 1024 토큰으로 늘어남
  • 배치 크기: 더 큰 배치 크기인 512가 사용

레이어 정규화란 레이어에서 활성화 함수를 통과하기 전에 입력 데이터를 평균과 분산을 이용하여 조정하는 것이다.
잔차 레이어는 입력 데이터를 처리하여 출력을 생성하는 과정에서 입력과 출력 간의 잔차를 계산하고, 이를 기존의 출력에 더해주는 역할을 한다. (네트워크의 깊이가 증가함에 따른 그래디언트 소실 문제를 완화하고, 더 깊은 네트워크를 학습하는 데 도움을 주는 역할)


Experiments

이미지 설명

이미지 설명

이 실험에서는 근사적으로 로그-균일하게 분포된 크기를 가진 네 개의 언어 모델(LM)을 훈련하고 평가했다.

  • 가장 작은 모델은 원래 GPT와 동등
  • 두 번째로 작은 모델은 BERT의 가장 큰 모델과 동등
  • 우리의 가장 큰 모델인 GPT-2는 GPT보다 한 단계 더 큰 파라미터를 가지고 있다.
  • 모든 모델은 여전히 WebText 데이터에 대해 과소적합되었으며, 더 많은 훈련 시간을 제공하면 더 성능이 올라갈 가능성이 있다.

Language Modeling

이미지 설명 이미지 설명

제로샷 도메인 이전에 대한 웹텍스트 언어 모델의 성능을 이해하고자 하는 초기 단계로, 웹텍스트 언어 모델이 훈련된 주요 작업인 언어 모델링에 대한 제로샷 도메인 이전을 어떻게 수행하는지에 관심이 있다. 저희 모델은 바이트 수준에서 작동하며 손실이 있는 전처리나 토큰화를 필요로하지 않기 때문에 어떤 언어 모델 벤치마크에서든 평가할 수 있다.

  • 언어 모델링 데이터셋의 결과는 일반적으로 평균 음의 로그 확률로보고되며 이 값은 통상적으로 정규화 된 예측 단위(보통 문자, 바이트 또는 단어)당 평균 음의 로그 확률의 스케일 또는 지수 버전이다.
  • 우리는 WebText LM에 따라 데이터셋의 로그 확률을 계산하고 정규화된 단위 수로 나눔으로써 동일한 양을 평가한다.
  • 이러한 데이터셋 중 많은 경우 WebText LM은 주로 분산되어 있어 강력하게 표준화된 텍스트, 연결되지 않은 구두점과 축약형과 같은 토큰화 아티팩트, 섞인 문장 및 심지어 WebText에서 극히 드문 < UNK > 문자열을 예측해야 한다.
  • 우리는 가능한 한 많은 토큰화/전처리 아티팩트를 제거하는 역변환 가능한 디토크나이저를 사용하여 주요 결과는 Table 3에 있다.
  • 이러한 디토크나이저가 역변환 가능하기 때문에 여전히 데이터셋의 로그 확률을 계산할 수 있으며, 이들은 도메인 적응의 간단한 형태로 생각할 수 있다.

이러한 디토크나이저를 사용하여 GPT-2의 퍼플렉서티가 2.5에서 5까지 향상되는 것을 관찰합니다.

  • 웹텍스트 LM은 도메인 및 데이터셋 간에 잘 전이되며, 제로샷 환경에서 8개 데이터셋 중 7개에서 최상의 성능을 발휘하여 기술을 향상시켰다.
  • Penn Treebank 및 WikiText-2와 같이 훈련 토큰이 100에서 200만 개밖에 없는 작은 데이터셋에서 큰 개선 사항이 나타낸다.
  • LAMBADA (Paperno et al., 2016)와 Children’s Book Test (Hill et al., 2015)와 같은 장기 종속성을 측정하기 위해 생성된 데이터셋에서 큰 성능 향상이 나타난다.
  • 그러나 원 빌리언 워드 벤치마크 (Chelba et al., 2013)에서 이전 연구에 비해 아직 상당히 성능이 떨어진다.
  • 이것은 이 데이터셋이 가장 크고 가장 파괴적인 전처리 중 일부를 가지고 있기 때문일 것으로 생각된다.
  • 1BW의 문장 수준 셔플링은 모든 장거리 구조를 제거합니다.

Children’s Book Test

이미지 설명

  • CBT는 언어 모델의 성능을 다양한 단어 범주(고유명사, 명사, 동사, 전치사)에서 조사하기 위해 만들어진 것이다.
  • 평가 지표로 헷갈리게 하는 대신, CBT는 생략된 단어의 10가지 가능한 선택지 중 어떤 것이 올바른지를 예측하는 클로즈 테스트의 정확도를 보고한다.
  • 우리는 LM에서 도입된 방법을 따라 각 선택지의 확률과 나머지 문장을 해당 선택지에 따라 LM에 따라 계산하고, 확률이 가장 높은 것을 예측한다.
  • 모델 크기가 증가함에 따라 성능이 지속적으로 향상되며 이 테스트에서 인간 성능과의 격차를 대부분 줄인다.
  • 데이터 중복 분석에 따르면 CBT 테스트 세트 중 하나인 Rudyard Kipling의 “The Jungle Book”은 WebText에 포함되어 있으므로 중복이 없는 검증 세트에서 결과를 보고한다.
  • GPT-2는 공통 명사에서 93.3%, 고유명사에서 89.1%의 새로운 최고 성능을 기록한다.
  • CBT에서 PTB 스타일의 토큰화 아티팩트를 제거하기 위해 디토크나이저가 적용됐다.

LAMBADA

이미지 설명

  • LAMBADA 데이터셋은 시스템이 텍스트의 장거리 종속성을 모델링하는 능력을 테스트한다.
  • 이 작업은 인간이 성공적으로 예측하기 위해 최소한 50개의 토큰 컨텍스트가 필요한 문장의 마지막 단어를 예측하는 것이다.
  • GPT-2는 기존 연구에 비해 퍼플렉서티를 8.6으로 개선하고, 이 테스트에서 언어 모델의 정확도를 19%(Dehghani et al., 2018)에서 52.66%로 높인다.
  • GPT-2의 오류를 조사한 결과, 대부분의 예측은 문장의 유효한 계속이지만, 유효한 최종 단어는 아니다.
  • 이것은 언어 모델이 단어가 반드시 문장의 마지막 단어여야 한다는 추가적인 유용한 제약 조건을 사용하지 않는다는 것을 시사한다.
  • 이를 근사하기 위해 중지 단어 필터를 추가하면 정확도가 63.24%로 증가하며, 이 작업에서의 전반적인 최신 기술 수준을 4% 향상시킨다.
  • 이전의 최고 수준 기술(Hoang et al., 2018)은 모델의 출력을 컨텍스트에 나타난 단어로만 제한하는 다른 제한된 예측 설정을 사용했다.
  • 그러나 GPT-2의 경우 이러한 제한이 도움보다 해로워 19%의 답변이 컨텍스트에 없다.(전처리 없이 데이터셋의 버전을 사용한다.)

Winograd Schema Challenge

이미지 설명

  • Winograd Schema Challenge(Levesque et al., 2012)는 텍스트의 모호성을 해결하는 능력을 측정하여 시스템이 상식적인 추론을 수행하는 능력을 측정하는 데 사용됐다.
  • 최근 Trinh & Le (2018)은 LMs를 사용하여 이 도전 과제에서 중요한 진전을 보여 주었으며 모호성의 해결을 높은 확률로 예측하였다.
  • 우리는 그들의 문제 정의를 따르고 모델의 성능을 전체 및 부분 점수 기술을 사용하여 시각화한 결과를 Figure 3에서 보여준다.
  • GPT-2는 정확도를 7% 향상시켜 70.70%를 달성하여 최신 기술 수준을 개선한다.
  • 데이터셋은 매우 작아서(273개의 예제만 포함) 이 결과를 이해하는 데 도움이 되도록 Trichelair et al. (2018)의 내용을 참고하는 것이 좋다.

Reading Comprehension

이미지 설명

  • 컨버세이션 질문 응답 데이터셋 (CoQA) Reddy et al. (2018)은 7개 다른 도메인의 문서와 해당 문서에 대한 질문자와 질문 응답자 간의 자연어 대화가 포함되어 있다.
  • CoQA는 독해 능력과 대화 내용에 따라 질문에 답하는 모델의 능력을 테스트한다(예: “왜?”와 같은 질문).
  • 문서, 관련 대화 내용 및 최종 토큰 A에 의존하는 상황에서 GPT-2에서의 Greedy 디코딩은 개발 세트에서 55 F1을 달성했다.
  • 이는 이러한 기준선 시스템 중 4개 중 3개의 성능을 뛰어넘거나 맞추며, 이러한 기준선은 127,000개 이상의 수동 수집된 질문 응답 쌍을 사용하여 훈련된 것이 아니다.
  • 지도 학습 기준으로 BERT 기반 시스템 (Devlin et al., 2018)은 인간의 89 F1 성능에 근접한다.
  • GPT-2의 성능은 지도 학습을 받지 않은 시스템에 대해서는 흥미로운 결과이지만, 답변과 오류를 검토하면 GPT-2가 누구에 대한 질문에 대한 답변으로 문서에서 이름을 사용하는 것과 같은 간단한 검색 기반 휴리스틱을 자주 사용한다는 것을 시사한다.

Summarization

이미지 설명

  • CNN과 Daily Mail 데이터셋 (Nallapati et al., 2016)에서 GPT-2의 요약 수행 능력을 테스트했다.
  • 요약 동작을 유도하기 위해 기사 뒤에 텍스트 TL;DR:을 추가하고 Top-k 무작위 샘플링 (Fan et al., 2018)을 사용하여 k = 2로 100개 토큰을 생성했다.
  • 이렇게 하면 반복을 줄이고 탐욕적 디코딩보다 더 추상적인 요약을 촉진한다. 우리는 이 100개 토큰 중 첫 3개의 생성 문장을 요약으로 사용한다.
  • 품질적으로는 생성물이 요약처럼 보이지만, 표 14에서 보여주듯이, 이들은 종종 기사의 최신 내용에 중점을 두거나 어떤 사고에서 몇 대의 자동차가 관련되었는지 또는 로고가 모자나 셔츠에 있는지와 같은 구체적인 세부사항을 혼란스럽게 표현한다.
  • 일반적으로 보고된 ROUGE 1,2,L 메트릭에서 생성된 요약은 고전적인 신경 기반 기준의 성능에 다가가기 시작하며 기사에서 무작위로 3개 문장을 선택하는 것을 약간 능가한다.
  • GPT-2의 성능은 작업 힌트가 제거되면 6.4 점 하락하며, 이는 자연어로 언어 모델에서 작업 특정 동작을 호출할 수 있는 능력을 시연한다.

Translation

이미지 설명

  • 이 테스트에서 GPT-2는 영어에서 다른 언어로의 번역 작업을 시도한다.
  • 모델에 이 작업을 수행해야 한다는 것을 알려주기 위해 영어 문장 = 프랑스어 문장 형식의 예제 쌍 컨텍스트로 언어 모델을 조건화하고, 최종 프롬프트로 “영어 문장 =”을 추가한 다음, 모델에서 greedy decoding을 사용하여 생성된 첫 번째 문장을 번역으로 사용한다.
  • WMT-14 영어-프랑스어 테스트 세트에서 GPT-2는 5 BLEU를 얻으며, 이는 이전의 비지도 단어 번역에 대한 연구에서 추정된 양방향 어휘로 단어 대 단어 치환보다 약간 더 나쁘다.
  • 반면 WMT-14 프랑스어-영어 테스트 세트에서 GPT-2는 매우 강력한 영어 언어 모델을 활용하여 훨씬 더 좋은 성능을 발휘하며 11.5 BLEU를 달성한다.
  • 이는 (Artetxe et al., 2017)와 (Lample et al., 2017)의 몇몇 비지도 기계 번역 기준을 능가하지만, 여전히 현재의 최고의 비지도 기계 번역 접근법인 (Artetxe et al., 2019)의 33.5 BLEU에는 못 미친다.
  • 이 작업의 성능은 모델이 웹텍스트에서 비영어 웹페이지를 일부러 필터링하는 단계로 제거했기 때문에 놀랍다.
  • 이를 확인하기 위해 웹텍스트에 바이트 수준 언어 감지기를 실행했으며, 프랑스어 언어로 감지된 데이터는 약 10MB로, 이전의 비지도 기계 번역 연구에서 공통으로 사용되는 단일 언어 프랑스어 코퍼스의 약 500배 작다.

Question Answering

이미지 설명 이미지 설명

  • 언어 모델 내에 어떤 정보가 포함되어 있는지 테스트하는 한 가지 방법은 사실 기반 질문에 올바른 답변을 얼마나 자주 생성하는지를 평가하는 것이다.
  • 이전에는 파라미터에 모든 정보가 저장된 신경망 시스템에서 이러한 동작을 어떻게 전시하는지를 보여주는 경우가 있었지만 고품질의 평가 데이터셋 부재로 인해 결과를 질적으로만 보고했다.
  • 최근 소개된 Natural Questions 데이터셋 (Kwiatkowski et al., 2019)은 이를 더 양적으로 테스트하는 데 유용한 자원이다.
  • 번역과 유사하게 언어 모델의 컨텍스트는 데이터셋의 질문-답변 쌍의 예제로 시드된다.
  • GPT-2는 정확한 일치 지표를 사용하여 평가될 때 정답을 4.1%의 질문에 올바르게 답한다.
  • 비교를 위해 가장 작은 모델은 각 질문 유형 (누구, 뭐, 어디 등)에 대한 가장 일반적인 답변을 반환하는 매우 간단한 기준을 넘지 못한다.
  • GPT-2는 5.3배 더 많은 질문에 올바른 답변을 제공하며, 아직까지 이러한 유형의 작업에서 신경망 시스템의 성능이 어느 정도 모델 용량에 영향을 받았다는 것을 시사한다.
  • GPT-2가 생성한 답변에 할당하는 확률은 잘 보정되어 있으며, GPT-2는 가장 확신을 가지고 있는 1%의 질문에 대해 63.1%의 정확도를 가지고 있다.
  • GPT-2가 개발 데이터셋의 질문에 대해 생성한 가장 확신을 가지고 있는 30개의 답변은 표 5에 나와 있다.
  • GPT-2의 성능은 여전히 정보 검색과 추출적 문서 질문 응답을 혼합하는 개방형 도메인 질문 응답 시스템의 30~50% 범위보다 훨씬 낮다 (Alberti et al., 2019).


Generalization vs Memorization

이미지 설명

최근의 컴퓨터 비전 연구에서는 일반 이미지 데이터셋에는 중복 이미지가 상당량 포함되어 있음을 보여주었다. 예를 들어, CIFAR-10 데이터셋은 훈련 이미지와 테스트 이미지 간에 3.3%의 중복이 있습니다 (Barz & Denzler, 2019). 이로 인해 기계 학습 시스템의 일반화 성능이 과대 보고되는 결과가 나타난다. 데이터셋의 크기가 증가함에 따라 이 문제는 더욱 발생 가능성이 높아지며, 이것은 WebText에서도 유사한 현상이 발생할 수 있다는 것을 시사한다. 따라서 테스트 데이터가 훈련 데이터에 얼마나 자주 나타나는지를 분석하는 것이 중요하다.

이미지 설명

이를 연구하기 위해 WebText 훈련 세트 토큰의 8-gram을 포함하는 블룸 필터를 만들었다. 재현율을 향상시키기 위해 문자열을 소문자 알파벳 및 숫자로만 구성된 단어로 정규화하고 구분자로 하나의 공백만을 포함하도록 했다. 블룸 필터는 거짓 양성률이 상한선으로 제한되도록 생성됐다. 연구진들은 거짓 양성률이 매우 낮음을 추가로 확인하기 위해 100만 개의 문자열을 생성하고, 그 중 어떤 것도 필터에서 찾지 못했다.

이미지 설명

웹텍스트 훈련 세트와 다양한 언어 모델(LM) 벤치마크의 테스트 세트 간 중복을 조사하기 위해 블룸 필터를 활용했다. 일반적인 LM 벤치마크의 테스트 세트는 WebText 훈련 세트와 약 1-6%의 중복을 가지며, 자체 훈련 세트와의 중복률이 평균적으로 더 높았다(평균 5.9%). 이 중복은 중복 데이터와 관련이 있으며, 일부 데이터 세트에서는 중복 데이터로 인해 더 긴 일치 사례가 발생했다. 결과적으로 데이터 세트 간 중복은 일반적인 현상이며, 유용한 정보를 얻는 데 도움이 되지 않을 수 있다.

이미지 설명

웹텍스트 훈련 데이터와 특정 평가 데이터셋 간의 데이터 중복을 조사했다. 결과적으로 데이터 중복은 보고된 결과에 작은 그러나 일관된 이점을 제공하는 것으로 나타났다. 그러나 대부분의 데이터셋에서 표준 훈련 및 테스트 세트 간 이미 존재하는 중복과 크게 다른 중복을 발견하지 못했다. 이러한 중복이 모델 성능에 어떻게 영향을 미치는지 이해하고 양적으로 파악하는 것은 중요한 연구 질문이다. 나중에 더 나은 중복 제거 기술을 사용하여 이러한 질문에 더 나은 답을 찾을 수 있을 것으로 생각된다. 현재로서는 n-그램 중복을 기반으로 한 중복 제거를 중요한 확인 단계 및 새로운 NLP 데이터셋의 훈련 및 테스트 분할 생성 중 실질적으로 쓸모 있는 검증 단계 및 정상성 확인으로 권장한다.
또한 WebText LMs의 성능이 기억력에 기인하는지 여부를 결정하는 또 다른 방법은 자체 보류 세트에서의 성능을 검사하는 것이다. 그림 4에서 볼 수 있듯이, WebText의 훈련 및 테스트 세트에서의 성능은 유사하며 모델 크기가 증가함에 따라 함께 향상된다. 이는 GPT-2조차도 여전히 WebText에서 여러 측면에서 과소적합 상태임을 시사한다.


Related Work

이미지 설명

이 작업의 중요한 부분은 더 큰 언어 모델이 더 큰 데이터셋에서 훈련된 결과를 측정한 것이다. 이는 Jozefowicz 등의 연구 (2016)와 유사한데, 이 연구에서는 RNN 기반 언어 모델을 10억 개 단어 벤치마크에 맞게 확장했다. Bajgar 등 (2016)도 기존 훈련 데이터셋을 보완하기 위해 Project Gutenberg에서 훨씬 큰 교육 데이터셋을 만들어 아동 도서 테스트의 결과를 개선했다. Hestness 등 (2017)은 모델 용량 및 데이터셋 크기의 함수로서 다양한 딥 러닝 모델의 성능이 어떻게 변하는지에 대한 철저한 분석을 수행했다. 우리의 실험은 작업별로 훨씬 더 많은 잡음이 있지만 목적의 하위 작업 및 10억 개 이상의 매개변수 범주에 대한 유사한 추세가 유지됨을 시사한다.

생성 모델에서 발견된 흥미로운 학습 기능은 이전에 문서 너비 추적 및 인용/코멘트 감지와 같은 RNN 언어 모델의 셀에서 수행된 것과 같이 문서 너비 추적 및 인용/코멘트 감지를 수행하는 것 등과 같은 것이 문서로 남아 있다. Karpathy 등 (2015)의 이러한 작업은 우리의 작업에 영감을 주었다. 또한, Liu 등 (2018)이 보고한 바와 같이 Wikipedia 기사를 생성하도록 훈련된 모델이 언어 간 이름 번역을 학습하는 것과 같이 더 활기찬 작업이 이루어진 것도 주요한 영향을 끼쳤다.

이전 연구에서는 웹 페이지의 대규모 텍스트 코퍼스를 필터링하고 구성하는 대안적인 접근 방식을 탐구한 바 있으며, 이 예로는 iWeb Corpus (Davies, 2018)가 있다.

언어 작업의 사전 훈련 방법에 대한 광범위한 연구가 수행됐다. 소개에서 언급된 연구들 외에도 GloVe (Pennington 등, 2014)는 모든 Common Crawl에 대한 단어 벡터 표현 학습을 확장했다. 텍스트에 대한 깊은 표현 학습에 대한 영향력 있는 초기 연구는 Skip-thought Vectors (Kiros 등, 2015)였습니다. McCann 등 (2017)은 기계 번역 모델에서 유도된 표현을 사용하는 방법을 탐구했으며, Howard & Ruder (2018)는 (Dai & Le, 2015)의 RNN 기반 미세 조정 접근 방식을 개선했다. (Conneau 등, 2017a)은 자연어 추론 모델에 의해 학습된 표현의 전이 성능을 연구하였으며, (Subramanian 등, 2018)은 대규모 다중 작업 훈련을 탐구했다.

(Ramachandran 등, 2016)은 seq2seq 모델이 사전 훈련된 언어 모델로 초기화될 때 이점을 얻을 수 있음을 보여주었다. 더 최근의 연구는 어려운 생성 작업에 대한 사전 훈련이 도움이 된다는 것을 보여주었으며, 이러한 작업에는 대화식 대화 및 대화 기반 질문 응답 시스템이 포함된다 (Wolf 등, 2019) (Dinan 등, 2018).


Discussion

이미지 설명

많은 연구가 감독 및 비감독 사전 훈련 방법의 표현에 투여되었으며 이를 학습 (Hill et al., 2016), 이해 (Levy & Goldberg, 2014) 및 비평 (Wieting & Kiela, 2019)하는 데 집중하였다. 우리의 결과는 비감독 작업 학습이 탐구할 가치 있는 또 다른 분야임을 시사한다. 이러한 결과는 NLP 작업에서 사전 훈련 기술의 널리 퍼져있는 성공을 설명하는 데 도움이 될 수 있으며, 한 가지 이러한 사전 훈련 기술이 감독적 적응 또는 수정 없이 직접 작업을 수행하기 시작하는 한계를 보여준다.

읽기 이해력에서 GPT-2의 성능은 제로샷 설정에서 감독 베이스라인과 경쟁력이 있다. 그러나 요약과 같은 다른 작업에서는 질적으로 작업을 수행하고 있지만 양적 지표에 따르면 성능은 여전히 기초적이다. 연구 결과로는 유용하지만 실제 응용 분야에서 GPT-2의 제로샷 성능은 여전히 사용 가능한 수준에서는 거리가 멀다.

우리는 WebText LMs의 제로샷 성능을 많은 NLP 고전적 작업에서 연구했지만, 추가로 평가할 수 있는 많은 작업이 있을 것이다. 의심할 여지 없이 GPT-2의 성능이 여전히 무작위보다 낫지 않은 많은 실용적 작업들이 있을 것이다. 우리가 평가한 공통 작업과 같이, 질문 응답 및 번역과 같은 작업에서도 언어 모델은 충분한 용량을 가질 때에만 무의미한 기준선을 뛰어넘기 시작한다.

제로샷 성능은 GPT-2의 많은 작업의 잠재적 성능 기준을 설정하지만, 어디까지 미세 조정을 통해 이루어질 수 있는지는 명확하지 않다. 일부 작업에서 GPT-2의 완전히 추상적인 출력은 현재 많은 질문 응답 및 읽기 이해력 데이터셋에서 최고의 상태인 추출형 포인터 네트워크 (Vinyals et al., 2015) 기반 출력과 유의미한 차이를 보인다. GPT를 미세 조정하는 이전 성공을 고려할 때, 우리는 특히 추가적인 훈련 데이터 및 용량이 GPT-2의 효율성을 극복하기에 충분한지 여부가 불분명한 BERT (Devlin et al., 2018)에 의해 시연된 단방향 표현의 비효율성을 조사할 계획이다.


Conclusion

이미지 설명

결론적으로, 충분히 크고 다양한 데이터셋에서 대규모 언어 모델을 훈련시키면 여러 도메인과 데이터셋에서 잘 수행할 수 있다.

  • GPT-2는 8개의 테스트된 언어 모델링 데이터셋 중 7개에서 최첨단 성능을 제로샷으로 달성한다.
  • 모델이 제로샷 설정에서 수행할 수 있는 다양한 작업의 다양성은 높은 용량 모델이 충분히 다양한 텍스트 코퍼스의 가능성을 최대화하도록 훈련되면 명시적인 감독 없이도 다양한 작업을 수행하는 방법을 시작하는 것을 시사한다.


리뷰

이젠 지도 학습 없이 제로샷에서 성능이 나오기 시작한 gpt2이다. 하지만 아직은 파인튜닝을 해야 사용할만한 성능이 나온다. gpt3로 넘어가면서 모델도 공개 안될 뿐더라 파라미터 자체가 너무커 개인이 활용하기 어려운 모델이 됐다… 그래서 아직은 gpt2가 개인 프로젝트에서는 귀한것 같다.

author-profile
Written by 유찬영

댓글