상세 컨텐츠

본문 제목

Qwen2.5: 여러 Foundation Models 공개.

AI.인공지능

by amanda.hyon 2024. 9. 22. 02:42

본문

출처: https://news.hada.io/topic?id=16852 

https://qwenlm.github.io/blog/qwen2.5/

 

Qwen2.5: A Party of Foundation Models!

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD Introduction In the past three months since Qwen2’s release, numerous developers have built new models on the Qwen2 language models, providing us with valuable feedback. During this period, we have focused on c

qwenlm.github.io

 

  • Qwen2.5에는 LLM Qwen2.5, 코딩용 Qwen2.5-Coder, 수학용 Qwen2.5-Math 등 특화 모델이 포함됨
  • 모든 오픈 웨이트 모델은 dense decoder-only 언어 모델이며 0.5B에서 72B까지 다양한 크기로 제공됨
  • 3B와 72B 모델을 제외한 모든 오픈소스 모델은 Apache 2.0 라이선스로 제공됨
  • 플래그십 언어 모델인 Qwen-Plus와 Qwen-Turbo는 Model Studio를 통해 API로 제공됨
  • Qwen2-VL-72B도 오픈소스로 공개했으며 지난달 버전보다 성능이 향상되었음

Qwen2.5의 특징

  • 최대 18조 토큰의 대규모 데이터셋으로 사전학습되어 Qwen2에 비해 지식이 크게 늘어났음 (MMLU: 85+)
  • 코딩(HumanEval 85+)과 수학(MATH 80+) 능력도 크게 향상됨
  • 명령어 따르기, 긴 텍스트 생성(8K 토큰 이상), 구조화된 데이터 이해(예: 테이블), JSON 등 구조화된 출력 생성 능력이 크게 개선됨
  • 시스템 프롬프트 다양성에 더 강건해져 챗봇의 역할 수행과 조건 설정이 용이해짐
  • Qwen2와 마찬가지로 Qwen2.5 언어 모델은 최대 128K 토큰을 지원하고 최대 8K 토큰을 생성할 수 있음
  • 중국어, 영어, 프랑스어, 스페인어, 포르투갈어, 독일어, 이탈리아어, 러시아어, 일본어, 한국어, 베트남어, 태국어, 아랍어 등 29개 이상의 언어를 지원함

Qwen2.5의 성능

Qwen2.5

  • 최대 오픈소스 모델인 Qwen2.5-72B(72B 파라미터 dense decoder-only 언어 모델)의 성능을 Llama-3.1-70B, Mistral-Large-V2 등 주요 오픈소스 모델과 비교함
  • 다양한 벤치마크에서 명령어 튜닝 버전들의 포괄적인 결과를 제시하며 모델 능력과 사람의 선호도를 모두 평가함
  • 명령어 튜닝된 언어 모델 외에도 Qwen2.5-72B의 base 언어 모델이 Llama-3-405B 같은 더 큰 모델과 비교해도 최고 수준의 성능을 보임
  • API 기반 모델인 Qwen-Plus의 최신 버전을 GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B, DeepSeek-V2.5 등 유명 독점 및 오픈소스 모델과 비교함
  • Qwen2.5-14B와 Qwen2.5-32B를 재도입함. 이 모델들은 Phi-3.5-MoE-Instruct, Gemma2-27B-IT 같은 비슷하거나 더 큰 크기의 기준 모델들을 능가함
  • API 기반 모델 Qwen-Turbo는 합리적인 가격으로 빠른 서비스를 제공하며 두 오픈소스 모델에 비해 매우 경쟁력 있는 성능을 보임
  • Qwen2.5-3B는 약 30억 개의 파라미터로 매우 인상적인 성능을 내며 이전 버전에 비해 효율성과 능력이 뛰어남
  • 벤치마크 평가 개선 외에도 사후 훈련 방법론을 개선했음. 4가지 주요 업데이트는 최대 8K 토큰까지 긴 텍스트 생성 지원, 구조화된 데이터 이해력 크게 향상, JSON 형식 등 구조화된 출력 생성이 더 신뢰할 수 있게 됨, 다양한 시스템 프롬프트에서 성능이 향상되어 역할 수행에 도움이 됨

Qwen2.5-Coder

  • CodeQwen1.5 출시 이후 디버깅, 코딩 관련 질문 답변, 코드 제안 등 다양한 코딩 작업에 이 모델을 의존하는 사용자가 많아짐
  • 최신 버전 Qwen2.5-Coder는 코딩 응용 프로그램을 위해 특별히 설계됨
  • 크기가 작음에도 불구하고 다양한 프로그래밍 언어와 작업에서 더 큰 언어 모델들을 능가하는 등 뛰어난 코딩 능력을 보여줌

Qwen2.5-Math

  • 지난달 처음 수학 전용 언어 모델인 Qwen2-Math를 출시했고, Qwen2-Math에 비해 Qwen2.5-Math는 Qwen2-Math가 생성한 합성 데이터를 포함해 더 대규모의 수학 관련 데이터로 사전학습되었음
  • 이번에는 중국어 지원을 확장했고 CoT, PoT, TIR 수행 능력을 부여하여 추론 능력도 강화
  • Qwen2.5-Math-72B-Instruct의 일반적인 성능은 Qwen2-Math-72B-Instruct와 GPT4-o를 능가하며, Qwen2.5-Math-1.5B-Instruct와 같은 매우 작은 전문가 모델조차도 대형 언어 모델과 비교해 매우 경쟁력 있는 성능을 낼 수 있음

Qwen2.5로 개발하기

  • Qwen2.5를 vLLM과 함께 사용하려면 다음 명령어로 OpenAI API 호환 서비스를 배포할 수 있음:
  • Qwen2.5는 vllm의 내장 tool calling을 지원함. 이 기능은 vllm>=0.6이 필요
  • Qwen2.5는 또한 Ollama의 tool calling을 지원
  • Hugging Face transformers의 tool calling 지원도 이용 가능
  • 이전에 Qwen-Agent가 Qwen2 자체 tool calling 템플릿을 사용해 tool calling을 지원했고, Qwen2.5는 Qwen2 템플릿 및 Qwen-Agent와도 호환성을 유지

앞으로 계획은?

  • 동시에 많은 고품질 모델을 출시하게 되어 기쁘지만 여전히 중대한 과제가 남아있음을 인지하고 있음
  • 최근 출시를 통해 언어, 시각-언어, 오디오-언어 영역에서 강력한 기반 모델을 개발하기 위해 노력하고 있음을 보여줌
  • 그러나 이러한 다양한 모달리티를 하나의 모델로 통합하여 모든 영역에서 정보를 원활하게 처리할 수 있도록 하는 것이 중요함
  • 데이터 스케일링을 통해 추론 능력을 향상시켰지만, 최근 강화학습 발전에 영감을 받아 inference compute 스케일링하여 모델의 추론 능력을 더욱 향상시키는 전념하고 있음

'AI.인공지능' 카테고리의 다른 글

반드시 알아야 할 조건부 모델의 종류  (0) 2024.02.20

관련글 더보기

댓글 영역