
클링AI(Kling AI)가 3.0 시리즈 모델을 전 세계에 공식 출시했다고 밝혔다.
3.0 시리즈는 현재 울트라 멤버십을 대상으로 우선 공개됐으며, 전체 이용자를 대상으로 순차 확대될 예정이다. 이번에 공개된 모델은 클링 비디오 3.0, 클링 비디오 3.0 Omni, 클링 이미지 3.0, 클링 이미지 3.0 Omni로, 이미지 생성부터 영상 생성, 편집, 후반 작업에 이르기까지 영화·영상 제작 전 과정을 포괄한다. 이는 AI가 본격적으로 영상·콘텐츠 산업의 핵심 제작 단계에 진입했음을 의미하며, 클링AI가 3.0 시대에 들어섰음을 알리는 신호로 평가된다.
All-in-One 제품·기술 철학… 멀티모달 입출력 통합으로 네이티브 창작 구현
클링AI 3.0 시리즈 모델은 All-in-One 제품·기술 철학을 기반으로 구축돼, 멀티모달 입력과 출력을 고도로 통합한 일체형 영상 모델 체계를 형성했다. 이는 개별 기능을 단순히 덧붙인 방식이 아니라, 통합 모델을 통해 영상 창작 과정 전반의 이해·생성·편집 단계를 하나의 연속된 프로세스로 묶은 것이 특징이다. 그 결과, 영상 제작이 처음으로 단일 모델 내에서 완결되는 엔드투엔드 구조를 갖추게 됐다.
이러한 체계 아래에서 창작자는 텍스트, 이미지, 음성, 영상을 입력으로 동시에 사용할 수 있으며, 곧바로 활용 가능한 전문 영상 수준의 출력 결과를 얻을 수 있다. 이에 따라 창작 과정은 더 이상 여러 도구와 단계로 분해되지 않으며, 단일 흐름 안에서 진행된다.
창작자가 가장 중시하는 안정성과 표현력을 중심으로, 클링AI 3.0 시리즈 모델은 여러 핵심 단계에서 시스템 차원의 고도화를 이뤘다. 오랜 기간 업계 전반을 괴롭혀 온 일관성 문제 역시 의미 있는 돌파구를 마련했다. 비디오 주체 업로드 및 바인딩, 음색 바인딩, 그리고 ‘이미지 기반 영상 생성(Image-to-Video) + 주체 참조(Subject Reference)’ 등 일련의 기술을 통합함으로써, 복잡한 샷 전환 환경에서도 인물의 외형과 동작, 음성이 안정적으로 유지된다. 동시에 텍스트는 또렷하게 표현되고, 브랜드 식별 요소 역시 명확하게 인식된다. 다국어 환경에서도 시각적 스타일과 캐릭터 특성이 높은 수준으로 일관되게 유지된다는 의미이기도 하다.
서사적 측면에서 해당 모델은 최대 15초 분량의 연속 생성을 지원하며, ‘스마트 멀티샷’과 ‘커스텀 멀티샷’ 기능을 도입했다. 이를 통해 창작자는 샷의 리듬과 서사 구조를 직접 구성할 수 있으며, 더 이상 파편적인 클립 결합 방식에 의존하지 않아도 된다. 그 결과, 화면은 감정의 흐름을 따라 전개되며, 보다 높은 화면 긴장감과 표현 밀도를 확보할 수 있게 됐다.
음성과 영상 처리 역량 역시 영화·영상 제작 기준에 맞춰 한층 끌어올렸다. 비디오 3.0과 비디오 3.0 Omni 모델은 모두 음·영상 동시 출력을 지원하며, 다국어는 물론 다양한 지역 방언까지 폭넓게 대응한다. 이에 따라 인물의 입 모양, 감정 표현, 연기가 보다 자연스럽게 구현되고, 전체 화면의 사실감도 뚜렷하게 향상됐다. 인물 표현 역시 한층 높은 연기적 밀도와 표현력을 갖추게 됐다는 평가다. 이미지 모듈은 4K 초고해상도 출력을 지원하며, 스토리보드 이미지와 시리즈형 이미지 생성 기능을 새롭게 도입했다. 이를 통해 정지 이미지 자체만으로도 완결된 서사 구조를 담아낼 수 있다.
단일 기능 중심의 생성에 머물던 단계에서 시스템화된 연출·조정 단계로 전환되면서, 클링AI 3.0 시리즈 모델은 단순한 모델 업그레이드를 넘어 창작 방식 전반의 변화를 제시한다.
기존에는 다수의 인력이 협업하고 여러 차례의 수정 과정을 거쳐야 구현할 수 있었던 연출 수준의 표현을 보다 직접적이고 제어 가능한 제작 프로세스로 압축했다. 이를 통해 더 많은 창작자가 전문 제작에 근접한 방식으로 영상 표현을 구현할 수 있다.
클링 비디오 3.0: 영화급 서사와 정밀한 제어
새롭게 도입된 스마트 멀티샷은 마치 AI 감독처럼 시나리오의 의도를 정밀하게 해석하고, 카메라 위치와 샷 사이즈를 자동으로 조정한다. 고전적인 ‘리버스 샷’ 대화 장면은 물론, 복잡한 멀티샷 전환 역시 원클릭으로 생성할 수 있어, 후반 수정에 소요되는 비용과 시간을 크게 줄였다.
‘이미지 기반 영상 생성 + 주체 참조’ 기술을 통해 창작자는 화면 내 특정 요소를 두 단계에 걸쳐 재고정할 수 있다. 카메라가 다양한 움직임이 발생하더라도, 주인공과 소품, 배경의 특성은 일관되게 유지된다. 이 기술은 업계에서 오랫동안 지적돼 온 이른바 ‘주체 붕괴’ 문제를 효과적으로 해소했다는 평가를 받았다. 또한 해당 모델은 최대 15초 분량의 장시간 연속 생성을 지원하며, 중국어·영어·한국어·일본어·스페인어 등 다국어는 물론 광둥어, 중국 쓰촨 방언, 동북 지역 억양, 베이징 억양 등 다양한 지역 방언과 억양에도 대응한다. 이를 통해 감정 표현이 풍부한 음·영상 동기화 연출이 가능해졌다. 이러한 기능은 AI를 단순한 생성 도구를 넘어, 감독의 연출 의도를 실제로 수행할 수 있는 스마트 창작 파트너로 자리매김하게 한다.
클링 비디오 3.0 Omni: 옴니 레퍼런스와 극대화된 일관성
Omni 버전은 캐릭터 일관성과 지시어(프롬프트) 응답 민감도를 한층 강화했다. 구체적으로는 창작자가 참조 자료를 업로드하기만 하면, 모델이 특정 주체의 시각적 특징과 음색을 생성하고 추출 및 바인딩한다. 또한 특징 디커플링(Feature Decoupling) 기술을 기반으로, 캐릭터와 소품 등 요소를 서로 다른 장면에서도 자유롭게 재사용할 수 있으며, 이 과정에서도 동일한 얼굴과 동일한 음성이 일관되게 유지된다.
해당 버전은 화면 붕괴를 최소화하고 표현의 유연성을 높였을 뿐 아니라, 텍스트 왜곡 등 기존의 기술적 난제도 해결했다. 여기에 유연한 멀티샷 제어 기능을 결합함으로써, AI가 생성한 콘텐츠가 전문 영상 제작에서 요구되는 ‘직접 납품(Direct Delivery)’ 수준에 도달하도록 했다. 이는 감독에게 높은 제어력을 갖춘 ‘디지털 배우’와 ‘가상 촬영팀’을 제공하는 것과 같은 효과라는 평가다.
클링 이미지 3.0 시리즈 모델: 정지 이미지 서사 강화… 4K 초고해상도 지원
클링 이미지 3.0과 클링 이미지 3.0 Omni 모델은 정지 이미지의 ‘서사성’을 강화하는 데 초점을 맞췄다. 단일 정지 프레임만으로도 완결된 이야기를 전달할 수 있도록 설계됐으며, 프롬프트에 포함된 시각·청각적 요소를 정밀하게 해석해 구도와 시점의 논리를 정확히 제어한다. 이를 통해 영화 스토리보드나 장면 설정 등 전문 영상 제작 환경에 높은 적합성을 갖췄다는 설명이다.
신버전은 2K·4K 초고해상도 이미지의 즉시 출력을 지원하며, 시리즈형 이미지 생성 기능을 새롭게 추가했다. 이를 통해 화면의 사실감을 높이는 동시에, 이미지 간 스타일·광원·세부 표현의 높은 일관성을 확보해, 정밀도와 통일성이 요구되는 전문 시각 자료 제작 수요를 충족한다.
창작의 장벽을 허물다: AI, 핵심 제작 파이프라인으로 진입하며 ‘세 차례의 도약’
클링AI 3.0은 ‘사용 가능’에서 ‘제어 가능’을 거쳐 ‘전문적 미장센’에 이르기까지 세 차례의 핵심적인 도약을 이뤄냈다. 2024년 6월 세계 최초로 일반 사용자를 대상으로 한 DiT(Diffusion Transformer) 기반 영상 생성 모델을 선보이며 업계를 ‘사용 가능한 시대’로 이끈 데 이어, 2.0 단계에서는 모델 성능과 표현력을 지속적으로 끌어올리며 ‘사용 가능’에서 ‘실제로 활용하기 좋은’ 단계로의 진화를 실현했다.
All-in-One 철학을 기반으로 구축된 클링AI 3.0 시리즈 모델은 최근 공개된 O1 및 2.6 모델을 토대로, 멀티모달 비주얼 언어(Multi-modal Visual Language, MVL) 인터랙션 개념을 한층 심화했다. 이를 통해 단순한 ‘기초 생성’ 단계를 넘어, 전문적 미장센이 가능한 제작 시스템으로의 구조적 도약을 이뤄냈으며, 생성 품질과 전문적 제어력이라는 두 핵심 창작 축에서 의미 있는 성과를 거뒀다.
스마트 멀티샷, ‘이미지 기반 영상 생성 + 주체 참조’, 다국어·다중 방언 음성·영상 동시 생성 등 핵심 기능을 통해, 모델은 더 이상 창작 의도를 단순히 ‘이해하는’ 수준에 머물지 않는다. 카메라 리듬과 인물 간 관계, 시청각 구조 전반을 시스템 차원에서 조율·연동할 수 있는 단계에 이르렀다. 이에 따라 창작자는 하나의 모델 안에서 스토리보드 구성과 주체 일관성, 서사 전개를 모두 수행할 수 있으며, 클링AI는 단일 기능 중심의 생성 도구에서 벗어나 콘텐츠 창작자를 위한 차세대 ‘창작 인터페이스’로 진화하게 됐다.
영화·광고 분야에서는 창작자가 스마트 멀티샷 등 카메라 조율 기능을 활용해 창의적 아이디어를 신속하게 검증할 수 있으며, 게임 및 가상 제작 영역에서는 안정적인 캐릭터 일관성이 디지털 자산 구축 속도를 크게 끌어올린다. 2025년 12월 기준 클링AI는 6000만 명 이상의 창작자를 확보했으며, 누적 생성 영상 수는 6억 개를 넘어선 것으로 나타났다. 또한 3만 개가 넘는 기업 고객에게 서비스를 제공하고 있고, 연환산 매출 규모는 2억4000만달러 수준이다.
클링 3.0 시리즈 모델의 출시는 AI가 단순한 생성 도구를 넘어, 창작 의도를 이해하고 스토리보드를 구현하는 창작 협업자로 전환됐음을 보여준다. 이에 따라 전문 영역으로 여겨졌던 연출의 문턱이 낮아지며, ‘누구나 감독이 될 수 있는 시대’가 본격적으로 열렸다는 평가를 받고 있다.
