中 알리바바 AI가 Claude 턱밑까지 왔다는데, 믿어도 될까?

Apr 02, 2026

∙ Paid

알리바바의 AI 연구팀 Qwen이 4월 1일 새로운 대규모 언어 모델 ‘Qwen3.6-Plus’를 공개했습니다.

한 번에 처리할 수 있는 텍스트 양,

공식 기술 블로그를 통해 Qwen 개발팀은

“ 전작 출시 이후 사용자들에게 받은 피드백을 이번 모델에 직접 반영했다 “

라고 밝혔습니다.

그 결과 이번 신규 모델은 코딩 에이전트 성능과 여러 종류의 정보를 동시에 처리하는 멀티 모달 추론 능력이 눈에 띄게 좋아졌습니다. 간단한 웹 페이지를 만드는 수준을 넘어,

Qwen 측이 공개한 기술 문서를 바탕으로 주요 내용을 아래와 같이 정리했습니다.

그럼 이 내용을 중심으로 오늘 글을 시작하겠습니다.

이번 모델에서 가장 크게 발전한 분야는 “코딩 에이전트”였습니다.

벤치마크 점수를 보면 세계 최고 수준 모델들과 거의 대등한 것으로 나타났습니다.

일부 항목에서는 아예 경쟁 모델을 넘어서기도 했습니다.

복잡한 터미널 명령어를 얼마나 잘 다루는지 보는

Qwen 개발팀은 단순히 점수가 높은 것보다 중요한 건, 논리적 추론·맥락 기억·도구 활용 능력이 하나로 어우러진 ‘올라운더’ 역량”이라고 강조했습니다.

코딩뿐 아니라 범용 에이전트 영역에서도 성과가 뚜렷했습니다.

외부 도구를 정확하게 호출하는 능력을 보는 ‘MCPMark’에서도 48.2점으로 1위를 차지했습니다.

수학·과학 추론도 최상위권이었습니다.

사용자의 지시를 얼마나 정확히 따르는지를 보는 ‘IFEval’에서는 94.3점으로, Claude Opus 4.5(90.9점)를 누르고 전체 1위를 달성했습니다.

다국어 처리 능력도 우수했습니다.

다만 이번 벤치마크 수치는 Qwen 측이 자체 공개한 결과이며, 독립적인 제3자 검증은 아직 이루어지지 않았습니다.

또한 벤치마크 점수와 실제 현장 성능 사이에는 늘 간극이 존재하는 만큼, 실사용 평가가 뒤따라야 할 것입니다.

코드를 읽고 고치는 능력이 사람에 가까워졌다면, 다음 질문은 자연스럽습니다.

“코드 말고 이미지, 영상, 문서도 그만큼 잘 다룰 수 있을까?”

Qwen3.6-Plus는 이 질문에도 점수로 답했습니다.

GPT5.2와 Gemini-3 Pro를 넘어선 멀티 모달 7개 부문의 세부 점수를 뜯어봅니다.

Claude나 ChatGPT를 쓰던 개발자가 설정 몇 줄만 바꿔 갈아탈 수 있다는데,
정말 그런지 따져봅니다.

마지막으로 Qwen 팀이 직접 제시한
3D 게임, 자동 프레젠테이션, 쇼핑 에이전트의 사례를 소개합니다.

This post is for paid subscribers