Alpaca - Llama Instruction Tuning¶

Alpaca 프로젝트 개요 - 2023.3¶

Alpaca는 Stanford 대학에서 개발한 경량 명령어-따르기(instruction-following) 언어 모델입니다. Meta의 LLaMA 7B를 기반으로 52K개의 지시-응답 데이터에 대해 파인튜닝되었으며, GPT-3.5 수준의 성능을 보이면서도 재현 비용이 매우 낮다는 특징이 있습니다.

개발 배경: Closed Source LLM (ex. 당시에는 GPT-3.5)에 필적하면서도 학계 연구자들이 쉽게 활용할 수 있는 오픈소스 대안을 제공하고자 했습니다.
저비용 접근: 전체 파인튜닝 비용이 $600 미만으로, 데이터 생성에 약 $500, 모델 학습에 약 $100이 소요되었습니다.
진정한 오픈소스: 모델 코드, 데이터 (데이터 생성 코드), 학습 코드 모두 공개했습니다.

데이터 및 방법론¶

1. 데이터 생성 과정¶

사람이 직접 175개의 시드(instruction-output 쌍) 를 준비하고
OpenAI GPT-3.5 (text-davinci-003) 모델을 활용한 self-instruct 기법으로 52K 규모의 Instruction-Output 쌍 데이터를 생성합니다.
데이터 생성 비용 <$500 (OpenAI API 사용)

2. 모델 튜닝 과정¶

Meta의 LLaMA 7B 모델을 기반으로 SFT (Supervised Fine-Tuning) 를 합니다.
80GB A100 GPU 8대로 3시간 소요 (약 $100 비용) 되었다고 하더군요.
HuggingFace 프레임워크 활용했고, 코드도 공개했습니다. 학습 코드

결과 & 의의¶

성능¶

싱글턴 지시 수행 평가에서 OpenAI text-davinci-003와 대등한 수준 달성했습니다!
179개 비교 중 Alpaca 90건, GPT-3.5 89건으로 비슷한 성능을 보였습니다.
7B 수준의 작은 모델로도 실사용 수준의 성능 달성 가능성 입증한 것이 가장 큰 의의라고 보시면 되겠습니다.

데이터 효율성¶

52k 개의 상대적으로 적은 지도 데이터로도 큰 성능 개선을 이루었습니다
GPT-3.5로 생성된 고품질 데이터의 효과성을 입증했습니다
비용 대비 높은 성능 향상을 달성했습니다

라이선스 및 제한 사항¶

비영리 연구 목적으로만 공개되었습니다 (LLaMA 라이선스 제약)
환각(hallucination) 현상이 존재합니다

파생 모델 및 영향¶

다양한 언어 버전¶

KoAlpaca: 한국어 명령어 대응을 위한 파생 모델이 개발되었습니다
각 언어권별 최적화 모델들이 등장했습니다

오픈소스 생태계 영향¶

Meta의 LLaMA 유출 이후 다수의 파생 LLM이 등장했습니다
Vicuna-13B 등 성능 개선된 후속 모델들이 출현했습니다
오픈소스 LLM의 민주화를 촉진했습니다

보다 자세한 내용이 궁금하시면, LLM 배경지식 문서를 참조해 주세요.

참고 자료: Stanford CRFM - Alpaca 프로젝트