본문 바로가기
IT정보

"소라(Sora)" 가 뭐예요? - openAI가 내놓은 텍스 기반 영상 생성 AI

by 하이커스 2024. 2. 16.
반응형

Open AI 에서 새로 출시한 소라(Sora) 는 텍스트 기반 동영상 생성 모델입니다. 소라(Sora)는 텍스트를 기반으로 동영상을 만들어 낼수 있는데 영상의 퀄리티가 현실적이고 상상력이 풍부한 장면을 만들어 내는데 사용될수 있다고 합니다.

현재는 최대 1분정도 길이의 동영상을 만들어줄수 있으며 사용법도 기존의 chatGPT 와 동일하게 프롬프트 창에 지시사항을 입력하기만 하면 사용할수 있다고 합니다. 

 

소라sora
sora

 

텍스트를 기반으로 영상 생성

문자로 표현할수 있는 다양한 상황을 프롬프트로 입력하면 소라(Sora) 가 영상을 만들어 주는데 이때 이야기하지 않은 부분에 대해서는 현실감 있게 빈곳을 채워준다고 합니다.

소라 영상생성
소라를 이용해 생성한 영상

 

예를 들어서 도쿄의 밤거리를 걸어가는 세련된 여성의 영상을 요청했을때 도시의 밤거리에 있는 수많은 다른 사람들을 함께 영상에 그려주고 창이나 빗물에 비치는 인물의 모습을 보여주는등 디테일하게 설명하지 않은 부분들에 대해서 있을법한 방식으로 채워준다고 합니다. 

 

다양한 장면 생성

텍스트로 영상의 생성을 지시할때 생성 가능한 범위가 다양하다고 하는데요 예를들어서 도시풍경, 자연, 캐릭터, 동물, 상상속의 생물체등을 만들어 낼수 있다고 합니다. 

소라를 이용한 영상생성
소라를 이용해 생성한 영상

 

프롬프트로 생성하는 이미지의 질감을 영화처럼 해달라고 했을때는 위와 같은 질감으로 영상을 생성해줄수 있습니다. 위의 영상은 샘플 영상으로 빨간 털헬맷을 쓴 우주 비행사를 만들어 달라고 한 텍스트의 결과물입니다. 

 

소라를 이용해 생성한 영상
소라를 이용해 생성한 영상

드론으로 절벽위의 수도원을 촬영한 듯한 영상을 만들어 달라고 했을때의 결과물입니다. 샘플 영상으로 보면 사진으로 보는것보다 더 실감난 영상 결과물을 보실수 있습니다. 

 

소라를 이용해 생성한 영상
소라를 이용해 생성한 영상

 

머릿속으로 그려낸 상상의 결과물을 위와 같이 영상으로 구현하는것도 가능합니다. 위의 결과물은 유리 구체 속에 모래를 정리하는 난쟁이를 영상으로 요청 했고 그에 대한 결과물입니다. 

아래는 소라홈페이지에서 볼수 있는 샘플 영상입니다. 좀더 많은 영상을 보기 원한다면 소라 홈페이지에서 확인해보실수 있습니다. 

 

 

 

 

Sora: Creating video from text

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie m

openai.com

 

소라의 약점

복잡한 장면의 물리학적인 시뮬레이션이 정확하지 않을수 있는데 이는 아직 소라가 원인과 결과에 대한 케이스 스터디가 충분히 되지않아서 그렇다고 합니다. 예를들어서 사람이 쿠키를 베어 무는 영상을 만들수는 있지만 쿠키에 베어문 자국이 없을수도 있다고 합니다. 또한 특정 카메라의 궤적을 따라가는것과 같이 시간이 지나면서 발생하는 이벤트를 표현하는데 어려움을 느낀다고 합니다. 

 

소라의 안정성

소라로 생성되는 영상중 적대적이거나 비 이성적, 반 인륜적인 영상이 있을수 있다는걸 제작사 측에서도 충분히 인지하고 있고 이를 예방하기 위해서 극단적인 폭력, 성적인 콘텐츠, 혐오스러운 이미지, 유명인의 얼굴을 이용한 영상을 만들려는 프롬프트는 입력 시점에 필터링 한다고 합니다.

또한 생성된 모든 이미지에 대해서 영상의 프레임을 모두 검사하여 사용자에게 보여지기전에 정책을 준수하는지 확인하는 강력한 이미지 분류기를 개발해서 적용시켰다고 합니다. 

물론 그럼에도 불구하고 이를 뚫으려는 시도는 계속 될것 이며 이를 막기 위해서 오픈AI 는 더 고도화된 시스템을 구축해서 이를 방지하고자 노력한다고 합니다.

 

마치며

소라는 DALL-E 와 GPT 의 기존 모델의 과거 연구를 기반으로 만들어 졌으며 이로인해서 사용자의 텍스트 지시를 보다 구체적으로 구현할수 있게 되었고, 점차적으로 텍스트뿐만 아니라 기존 스틸 이미지를 가져와서 비디오를 생성하고 이미지를 보다 정밀하고 세밀하게 움직일수 있게 할 예정이라고 합니다. 

또한 기존의 비디오를 가져와서 개선하거나 누락된 프레임을 채울수도 있게 된다고 합니다. 

 

오픈AI 가 내놓은 소라는 아직 대중에게 공개되지는 않고 특정 전문가들에게만 오픈되어 베타 테스트 되고 있는걸로 보입니다. 하지만 대중에게 오픈되는데까지 오랜 시간이 걸릴것 같진않습니다. 빠르면 올해? 늦어도 내년에는 대중들이 사용해볼수 있지 않을까 조심스럽게 예측해보는데요 

이렇게 되면 일반 개인이 스토리를 만들어서 짧은 애니메이션을 만들거나 영화를 만드는데 큰비용을 들이지 않고도 결과를 볼수 있게 되지 않을까 생각됩니다. 거기다가 영상 생성 API 가 제공된다면 이를 이용한 다양한 새로운 서비스들이 나오게 될텐데요 이렇게 되면 chatGPT 로 수많은 일자리가 없어진 자리를 Sora 로 채우게 될수 있지 않을까 조심스럽게 예상해 봅니다. 지금까지 없었던 형태의 새로운 일자리나 비즈니스 들이 생겨 날것이고 그 자리들을 사업자들이 아니라 일반 개인들이 큰 어려움 없이 진입 하게되는 방식이 아닐까 합니다. 

 

최근 몇년동안 불어오고 있는 AI 열풍은 누군가의 직업을 빼앗는 폭풍이기도 하지만 이로써 새로운 들판이 만들어져서 새로운 작물을 키울수 있는 토대가 될수도 있습니다. 어렵다고 새로운 기술을 피하지 마시고 적극적으로 사용해보시기를 권해 드립니다. 

반응형

댓글