올해 초에 샌프란시스코에 본사를 둔 오픈AI가 달리2라는 생성형 AI를 출시해 큰 화제를 모았었습니다. 이 오픈AI는 일론 머스크와 샘 알트만 등이 2015년 설립한 스타트업으로 ‘더 안전한 인공지능의 발전을 추구’하는 것을 목적으로 한다고 하는데, 인간처럼 글을 작성해 주는 GPT-3와 문장을 입력하면 자동으로 코딩으로 변환해주는 코덱스를 선보여 주목을 받기도 했습니다.
오픈AI는 지난해에 글을 입력하면 자동으로 이미지를 생성해주는 생성형 AI인 달리를 처음 선보였는데, 이번에는 달리가 더 업그레이드 되어 실제 작품과 같은 그림을 그리는 달리2가 되었다고 합니다. 오픈AI가 달리2를 내놓으며 밝힌 출시 이유는 ‘아티스트들을 위해 언제든지 빠르게 이미지를 만드는 도구를 제공하고 싶었기 때문’이라고 하네요.
달리
달리는 1,750억개에 달하는 매개변수를 활용해 딥러닝을 한 GTP-3와 동일한 모델을 사용하는데, 글자를 인식하고 이미지를 생성하기 위해 1,280개의 토큰을 활용한다고 합니다. 여기서 토큰은 개별 어휘의 한 기호로 사용되는 단위를 말합니다. 예를 들어, 알파벳은 26자로 구성되기 때문에 토큰이 26개라고 할 수 있죠. 즉, 1,280개의 토큰이란 것은 1,280개의 단위를 조합하여 텍스트를 인식하고 이미지를 그린다는 뜻이라고 할 수 있습니다.
그렇다면, 이렇게 인공지능이 그려주는 이미지는 산업에 어떤 변화를 가져올까요? 앞으로 이런 모델이 상업적으로 활용되기 시작하면, 패션디자인이나 산업디자인, 웹툰과 같은 산업에 큰 변화를 가져오게 될 것으로 예측되고 있습니다. 또 달리는 인체 내부의 온갖 장기 조직과 그 세포들까지도 그릴 수 있다고 하는데, 이를 잘 활용하면 의학 산업에도 큰 도움이 될 수 있을 겁니다.
달리2
달리2는 달리 보다 한 차원 더 업그레이드 된 생성형 AI로, 달리의 경우 기존에 이미 존재하는 이미지를 변형해 표현한 느낌이었다면, 달리2는 프롬프트에 “우주 비행사가 말을 타고 달을 달리고 있다”라고 입력을 했을 때, 더 독창적이고 예술작품 같은 ‘그림’을 그릴 수 있고, 더 높은 해상도로 더 정교한 이미지를 생성할 수 있다고 합니다.
또 캡션을 보다 더 정교하게 입력할 수 있는데, 예를 들어 강아지를 넣을 위치까지 글로 입력을 해서 강아지의 위치를 바꾸거나, 빛과 그림자의 질감같은 것들도 문자를 입력해서 수정 할 수 있다고 합니다. 또 이미지의 원본에서 영감을 받아 새로운 그림을 그릴수도 있고, 다음과 같이 특정한 예술작품을 학습해 다양한 가품을 생성할 수도 있다고 합니다.
달리2는 달리를 출시한 지 1년 만에 나왔는데, 짧은 기간임에도 달리2가 훨씬 발전한 이유는 사람들이 집어넣은 텍스트와 그 결과 값인 이미지를 인공지능이 학습했기 때문입니다. 오픈AI에 따르면, 달리2는 달리에 비해 4배나 더 높은 해상도로 작업을 할 수 있다고 하네요.
GAN과 CLIP
달리와 같은 인공지능이 그림을 그릴 수 있는 것은 생성적 대립 신경망이라고 불리는 GAN이라는 모델 덕분입니다. 인공지능은 사실 사람의 눈이나 코가 어디에 있는지 모르기 때문에, 픽셀의 RGB 색상을 학습하면서 엄청나게 많은 공통점을 찾아내는 방식을 사용하는데, 이것이 바로 GAN이라는 알고리즘의 기본 구현 방식입니다.
달리2는 GAN을 기반으로, 클립이라고 불리는 보다 획기적인 기술을 적용했는데, CLIP은 대조 학습-이미지 사전 훈련의 약자로 이미지와 텍스트를 동시에 학습하도록 되어있어 학습을 하면 할수록 텍스트와 유사한 그림을 그릴 수 있게 된다고 합니다.
즉, 일반적으로 이미지를 딥러닝 하기위해서는 매우 많은 레이블을 입력해야하고, 인공지능이 ‘얼굴’이라는 이미지를 인식하기 위해서는, ‘얼굴’이라는 라벨이 달린 엄청나게 많은 이미지를 학습해야 하는데, 달리2의 알고리즘인 CLIP은 라벨이 달린 이미지가 없어도 텍스트와 이미지를 동시에 학습하면서 판단을 하기 때문에 학습이 많아질 수록 보다 정교한 그림을 그릴 수 있게 된다고 합니다.
생성형 AI의 미래
의료 초고해상도 사진
GAN을 활용하면 이미지의 누락된 부분을 복원하거나, 업스케일링을 통해 해상도가 낮은 이미지를 초고해상도 이미지로 변경할 수 있고, 노이즈를 제거하는 것도 가능하기 때문에 의료 분야의 주목을 받고 있습니다. 대표적으로 MRI의 경우 품질을 높이기 위해서는 방사선의 양을 높일 수 밖에 없습니다. 하지만 GAN을 활용해 해상도를 높일 수 있다면 방사선의 양을 최소한으로 사용하면서도 높은 해상도의 이미지를 얻을 수 있는 것이죠. 그렇지만 현재의 단계에서는 인공지능이 이미지를 인위적으로 생성할지도 모르기 때문에 조심스럽게 연구를 하고 있는 단계라고 합니다.
마케팅 업계의 도입
로즈버드AI라는 업체는 가상의 패션 모델을 만들어주는 인공지능을 선보인 스타트업인데, 이와 함께 토킹헤드라는 앱도 선보였습니다. 이 앱에 적용된 기술은 이미지 뿐 아니라 애니메이션까지 적용이 되는 기술이며, 이 외에도 텍스트를 가상 아바타가 나오는 비디오로 변환시킬 수 있는 신디시아라는 스타트업도 있습니다.
기술 서비스
runwayml이라는 스타트업은 동영상에 등장하는 인물만 살리고 배경은 제거하거나, 배경만 남기고 인물도 살릴 수 있는 GAN 인공지능을 구독 서비스로 제공합니다. 이 기술을 활용하면 사람이 많은 해변에서도 마음껏 촬영하고 모델만 살릴 수 있는 것이죠. 이 외에도 GAN은 게임이나 이커머스 등에서도 사용이 가능하고 hotpot.ai와 같이 이미지를 생성하는 서비스 자체를 제공하는 경우도 계속해서 늘어나고 있습니다.
미드저니
미드저니는 채팅 및 커뮤니티 앱인 디스코드를 통해서만 접근할 수 있는 이미지 생성 서비스입니다. 디스코드를 통해 ‘미드저니’ 커뮤니티에 들어가면 뉴비라는 채널이 있는데, 이 채널에서 /imagine
이라는 커맨드를 입력하고, 이 뒤에 생성하고 싶은 단어를 영어로 나열하면 그림을 생성할 수 있습니다.
디스코드의 미드저니 채널에서 단어를 입력하면 잠시 후에 4개의 그림이 만들어져 나오는데, 이 4개의 그림들 중 하나를 골라 큰 이미지 파일로 만들거나, 해당 이미지를 기반으로 새로운 이미지를 생성할 수도 있습니다.
미드저니는 기본적으로 25개 정도의 이미지를 무료로 만들 수 있고, 100개까지는 월 10달러, 월 30달러를 내면 이미지를 무제한으로 만들 수 있는 구독 서비스를 제공합니다. 또 월 30달러 플랜 부터는 상업적 사용도 가능한데, 무제한이긴 하지만, 생성 이미지가 900장이 넘어가면 그림의 생성속도에 제한이 생긴다고 합니다. 또 미드저니를 통해 만들어 진 이미지와 키워드는 기본적으로 공개하는 것이 원칙이지만, 이미지와 키워드를 비공개로 하고 싶다면 추가로 20달러를 지불해야 한다고 하네요.
일러스트 생성 AI
그림을 그려주거나, 작곡을 하거나, 삼행시를 짓는 등의 생성형 인공지능 기술은 매우 빠른 발전과 함께 당장 프로젝트에 적용할 수 있을 정도로 이미지 자체의 품질도 개선 되고 있습니다. 최근에는 일러스트 업계가 한 인공지능으로 인해 떠들썩 해졌는데, 바로 노블AI라는 회사의 서비스였습니다.
NovelAI Image Generation라는 생성형 AI 서비스는 일본 애니메이션 특유의 분위기가 나는 ‘아니메’ 스타일의 일러스트를 상당한 수준의 퀄리티로 생성하는데, 한 장의 AI 일러스트를 만드는 시간도 약 1분 정도로 매우 짧다고 합니다.
노블AI의 이미지 생성형 AI 서비스는 월 10달러짜리 구독서비스에 가입하면 사용할 수 있는데, 구독 서비스에 가입 후 지급받는 포인트를 그림 한 장당 가격으로 계산해보면 겨우 15원에 불과한 수준입니다. 즉 일반적으로 일러스트레이터들이 받는 작업비용 보다, 압도적으로 저렴한 가격으로 일러스트를 제공하는 것인데, 퀄리티 마저도 상당한 수준이기 때문에 많은 일러스트레이터들의 우려의 목소리가 나오고 있는 것이죠.
노블AI와 스테이블 디퓨전 – 출처: 코딩애플
스테이블 디퓨전과 생성형 AI 산업
천만 명이 사용 중인 생성형 AI
마이크로소프트로부터 투자받은 오픈AI의 달리2는 매일 150만 명이 200만 개의 이미지를 생성하고 있고, 미드저니는 디스코드의 공식 서버 멤버 수가 300만 명을 돌파했다고 합니다. 여기에 스테이블 디퓨전이라는 AI를 개발한 <ㄴ=Stability AI>스태빌리티AI라는 스타트업은 벤처캐피털인 코아츄 매니지먼트 등으로부터 1억 100만 달러를 투자받으며, 약 10억 달러의 기업가치를 가진 유니콘으로 평가받았습니다.
스태빌리티AI의 CEO인 이마드 모스타크는 최근 AI 업계가 가장 주목하는 인물로, 스테이블 디퓨전을 오픈소스로 공개하면서 테크 커뮤니티에서 큰 환영을 받기도 했습니다. 그가 스테이블 디퓨전을 오픈소스로 공개한 것은 AI의 발전이 너무 빨라, 오히려 모두 공개하는 것이 더욱 안전하다고 믿기 때문이라고 하네요.
스테이블 디퓨전은 깃허브에 오픈소스로 공개되어 있고, 원하는 사람이라면 누구나 이 프로그램이 어떤 데이터 세트로 되어있고, 코드가 어떻게 짜여져있고, 어떤 알고리즘으로 만들어져 있는지를 모두 볼 수 있습니다. 또 오픈소스인 만큼 무료로 다운로드 받아 프로젝트에 활용하거나, 영화, 비디오 게임, 이커머스 등의 관련 애플리케이션에 적용할 수도 있습니다. 즉, 스태빌리티AI는 개발자들에게 이미지 생성 AI를 만드는 도구를 쥐어준 것이죠.
스태빌리티AI는 스테이블 디퓨전으로 제작된 결과물에 대해서도 처음부터 창작물에 어떠한 개입도 하지 않고, 최소한의 필터만 적용하겠다고 했는데, 오픈소스인 만큼 커뮤니티의 개발자와 사용자들을 믿고 자율성과 자정능력을 존중하는 입장이라고 합니다.
스테이블 디퓨전은 현재 2만 명의 오픈소스 개발자 커뮤니티가 되었는데, 지금도 그 수는 점점 늘어나고 있습니다. 올해 8월부터 10월말 사이에 공개된 코드를 내려받은 사람만 20만 명에 달하고, 스테이블 디퓨전의 알고리즘으로 생성한 이미지가 수백만 장에 이른다고 하는데, 스태빌리티 AI는 스태빌리티 디퓨전에 접근할 수 있는 모든 채널과 커뮤니티를 통해 하루에 1,000만 명에 달하는 사용자들이 서비스를 사용 중이라고 밝혔습니다.
스태빌리티AI는 개발자들이 자사의 AI 시스템에 더 쉽게 접근할 수 있도록 드림 스튜디오라는 API도 내놓았는데, 시스템 내부의 복잡한 내용을 몰라도 개발자들이 쉽고 빠르게 사용할 수 있도록 반복적인 작업 규칙 등을 매뉴얼로 정리한 것입니다. 스태빌리티AI에 따르면 지금까지 총 150만 명의 개발자가 드림 스튜디오로 1억 7000만 개의 이미지를 생성했다고 하네요.
스태빌리티AI는 현재 데이터 센터 구축에 사용되는 4,000여 개에 달하는 고가의 엔비디아 A100 GPU 칩셋과 AWS 서비스를 활용해서 스테이블 디퓨전을 훈련시키고 있는데, 현재까지 클라우드 비용에만 5,000만 달러를 사용했다고 합니다. 이렇게 엄청난 자원을 투입해서 슈퍼컴퓨터와 맞먹는 성능으로 운영 중인 스테이블 디퓨전은 어마어마한 운영비용 때문에 벤처캐피털을 통해 투자 유치에 나선 것으로 추측됩니다.
스태빌리티AI는 앞으로도 정부 및 국제기구 등과의 기술 제공 파트너십을 맺고, 맞춤형 AI 모델을 만들어 아예 특정 클라이언트의 AI 관련 기술 인프라를 구축하는 사업 모델을 만들 예정이라고 하는데, 더 많은 기업과 관련 프로젝트를 추진하면서 현재의 수익원을 더 확대할 계획으로 보입니다. 물론 개인이나 작은 기업이 가볍게 사용할 수 있는 서비스도 계속해서 내놓을 예정으로, 음악, 영상, 언어, 3D 등 이미지 외의 다양한 창작물을 만들 수 있는 서비스를 제공하고, 시장이 앞으로 얼마나 더 커질 수 있을지에 대한 테스트를 지속할 것으로 예상된다고 합니다.
무한 경쟁
생성형 AI 산업은 무한 경쟁으로 접어들고 있는데, Text-to-Image, 즉 텍스트를 이미지로 변환시켜주는 생성형 AI를 최초로 발표한 곳은 ‘오픈AI’였지만, 최근 이 산업의 붐을 주도하고 있는 것은 오픈소스인 ‘스테이블 디퓨전’을 만든 ‘스테빌리티AI’입니다. 이 업체는 세계 최고 권위의 AI학회인 ‘CVPR 2022’에서 발표된 ‘Latent Diffusion Model’을 바탕으로, AI커뮤니티와의 협업을 지속하면서, 기존보다 훨씬 빠르면서도 더 적은 비용으로 생성형 AI를 만들어내어, 구글이나 메타같은 거대기업이 아닌 AI 연구자들의 협업만으로도 엄청난 성과를 낼 수 있다는 것을 보여줬습니다. 게다가 이 모든 결과를 오픈소스로 공개해서 원하는 사람은 누구라도 스테이블 디퓨전의 모델을 사용할 수 있게 했죠.
스테이블 디퓨전이 오픈소스로 공개되자마자 ‘달리2’도 9월 말에 사용자를 제한적으로 받는 것을 중단하고 누구든지 사용할 수 있게 정책을 바꿨는데, 이런 배경 때문에 ‘Text-to-Image’라는 기술은 생각보다 더 빠르게 대중화가 진행되고 있다고 합니다.
수익형 비즈니스
‘미드저니’와 ‘스테이블 디퓨전’은 같은 생성형 AI 기술이지만 시장에 던진 충격은 달랐는데, 스테이블 디퓨전을 바탕으로 만든 ‘노블AI’의 경우에는 보다 직접적이고 구체적으로 파괴하는 시장이 있었고, 새로운 시장을 만들어낼 가능성을 보여줬기 때문입니다. 즉 기술이 아니라 그 기술로 어떤 시장을 공략하고 돈을 벌 수 있는지가 중요했던 것으로 판단됩니다.
하지만 생성형AI가 의미를 갖기 위해서는 기존의 시장을 파괴하는 것이 아니라, 기존에는 이를 사용하지 못했던 사람들이 기꺼이 돈을 내도록 만드는 것에 있다고 볼 수 있습니다. 물론 경쟁력이 낮은 일러스트레이터들은 시장에서 퇴출될 수 밖에 없겠지만, 저작권에 민감한 기업이나 유니크한 일러스트가 필요한 소비자라면 기존의 뛰어난 일러스트레이터에게 비용을 지불하고 이용하게 될것으로 예상이 됩니다.
높아지는 데이터의 중요성
생성형 AI는 완전히 새로운 것을 창조하는 것이 아니라 이전에 수없이 만들어놓은 기존의 데이터를 참고해 그 스타일을 모방하는 방식입니다. ‘노블AI’ 역시 아니메 스타일의 결과물을 원하는 사람들을 위해 그런 스타일의 데이터를 학습시켜야 했는데, 이전에도 한 회사가 채팅 AI에게 불법적인 방법으로 학습을 시킨 것이 알려져 논란이 된 적이 있었습니다. 그런데 노블AI 역시 ‘불펌’사이트의 데이터를 사용했다는 것이 알려지면서 논란이 되기도 했죠.
결국 생성형 AI가 만든 이미지는 해당 이미지에 저작권 문제가 생길 가능성을 내포할 수 밖에 없는데, 실제로 생성형 AI가 생성하는 많은 이미지들에는 대표적인 이미지 저작권 기업인 “게티 이미지“의 워터마크가 함께 생성되는 경우도 많다고 합니다.
결국 안정적인 생성형 AI 서비스를 위해서는, 우수하고 저작권 문제가 없는 데이터를 만들어내는 일이 중요할 수 밖에 없습니다. 그래서 최근 AI 업계에서는 ‘합성 데이터‘라고 불리는 데이터가 많이 사용되고 있습니다. ‘합성 데이터’는 AI가 만든 데이터로, 데이터를 취득하는 비용이 높기 때문에 실제 데이터가 아닌 인위적인 데이터를 만들어서 학습에 사용하는 것이라고 하네요.
관련 링크
- 달리, 스테이블 디퓨전, 미드저니 사용 방법
- http://www.aitimes.com/news/articleView.html?idxno=147487
- 스테이블 디퓨전과 프롬프트 사용법
- https://tilnote.io/pages/63353b11cb80d43d62487011
- 스테이블 디퓨전 설치하기
- https://skyksit.com/useful/install-stable-diffusion-for-windows/#Stable-Diffusion-%EC%9D%B4%EB%9E%80
- Stable Diffusion 윈도우 OS 에 설치하기
- https://tgd.kr/s/jungtaejune/66647322?page=1
- 스테이블 디퓨전 원클릭 설치 프로젝트
- https://dingdo.tistory.com/1052
- https://github.com/cmdr2/stable-diffusion-ui
- 스테이블 디퓨전으로 멋진 그림을 그리는 방법
- https://doooob.tistory.com/400?category=1045641
- https://andys.page/posts/how-to-draw/
- 스테이블 디퓨전 드림 스튜디오
- https://beta.dreamstudio.ai/