데이터 유료화의 시대, 데이터의 비용은 얼마일까요?

0

1. AI 시대를 위한 새로운 클라우드

2023년은 두말할 나위도 없이 생성형 AI 시대가 시작된 원년이라고 할 수 있습니다. 초기에는 이미지 생성형 AI가 주목을 받았지만, 오픈AI의 챗GPT가 출시되면서, 수많은 생성형 AI 기술이 폭발적으로 출시되었고, 다양한 생성형 AI 서비스와 2차 창작물이 쏟아지기 시작했습니다.

그런데 이렇게 챗GPT로 부터 파생되는 수많은 신기술들을 이용하고 확산시키는 것에 비례해, 한편에서는 생성형 AI로 인한 서버 가용성 문제를 우려하는 사람들도 있습니다.

즉, 누구나 AI를 사용해 텍스트는 물론 이미지와 영상까지 쉽게 만들 수 있는 세상에서, 과연 이런 모든 데이터를 공급하는 컴퓨팅 파워는 어디에서 나오고, 그 환경은 괜찮냐는 것이죠. 즉 클라우드 환경에 대한 고민입니다. 이렇게 폭발적으로 확산되는 데이터 환경에서 클라우드 환경은 정말 괜찮은 것일까요?

AI 시대의 클라우드 환경의 특징은 GPU를 사용한다는 것인데, 이에 생성형 AI 클라우드 시장의 성장에 따른 우려를 해소하는 시장도 빠르게 커지고 있습니다. 즉 “이곳”에 돈이 몰리고 있는 것이죠.

클라우드 컴퓨팅 파워 공급업체의 성장

“이곳”이란 바로 클라우드 컴퓨팅 파워를 공급하는 업체입니다. 최근에 생성형 AI 분야에 클라우드 컴퓨팅 파워를 공급하는 업체가 대규모 투자를 유치했다는 소식이 전해졌는데, 이 업체는 바로 클라우드 기술 스타트업코어위브입니다. 코어위브는 시리즈B 투자 라운드에서 총 2억 2100만 달러의 투자를 유치했다고 하네요.

코어위브는 2017년에 설립된 클라우드 공급업체입니다. GPU 기반의 대규모 컴퓨팅 자원을 공급하는 데에 강점을 갖고 있는데, 코어위브에 따르면, AWS나 MS Azure 같은 대규모 퍼블릭 클라우드보다 최대 35배 빠르고, 80% 저렴하다고 합니다. 특히 VFX, 렌더링, 머신러닝, AI 등의 컴퓨팅 집약적인 분야에서 비교우위를 갖고 있다고 합니다.

결국 코어위브는 값비싼 GPU를 직접 구매하기 어려운 스타트업이나 중소 기업들에게 GPU 기반의 클라우드 컴퓨팅 환경을 제공하는 회사로 볼 수 있는데, 노블AI와 같은 생성AI 서비스가 코어위브의 대표적인 고객이라고 합니다.

코어위브는 이런 회사가 자체 서버를 도입하거나, 비싼 클라우드 비용을 절감해주면서 서비스 속도도 더 빠르게 만들어 줍니다. 이번 투자에서 코어위브는 20억 달러의 가치로 평가받았고, 누적 투자 유치액은 3억 7100만 달러라고 합니다. 스타트업 투자가 바짝 쪼그라든 상황에서 이례적으로 기업가치를 방어하고, 투자까지 유치한 사례라고 볼 수 있겠네요.

더 높아지는 GPU의 가치

코어위브의 투자 소식과 같이 생성형 AI로 인해 GPU 시장은 더 빠르게 커지고 있습니다. 보통 ‘컴퓨터의 뇌’라고 하면 중앙처리장치를 뜻하는 CPU를 많이 떠올리고, 그래픽처리장치를 뜻하는 GPU는 과거에는 게임의 화질과 성능을 높이는 그래픽카드용으로만 사용되는 정도였습니다.

하지만, GPU도 본질적으로는 CPU처럼 컴퓨팅 파워를 공급하는 엔진이고, 데이터 처리 장치인데, CPU가 개별 작업의 신속한 처리에 더 알맞은 반면, GPU는 게임이나 영상, 인공지능처럼 엄청난 양의 정보를 처리해야 하는 작업에 더 알맞다는 특징이 있습니다.

즉, 과거에는 CPU만으로도 일상적인 컴퓨터 사용이나 문서 위주 업무 처리가 가능했던 반면, 이제는 생성형 AI와 같은 기술이 일상에 큰 변화를 가져오면서, 이에 따르는 엄청난 양의 정보를 뒷단에서 처리하기 위한 기술이 중요해졌고, 이에 적합한 것이 GPU였던 겁니다.

엔비디아의 부상

GPU 분야를 꽉 잡고 있는 기업은 바로 엔비디아입니다. 엔비디아는 생성형 AI 시대가 도래하면서 전 세계 컴퓨터 시장에 미치는 영향력을 계속해서 끌어올리며, 영향력을 키우고 있습니다.

unsplash

챗GPT 열풍으로 엔비디아 주가는 올해 1월 초 기준 143.15달러에서 4월 현재 270달러를 넘어섰고, 현재 시가총액6679억 달러로 인텔의 5배, 테슬라1000억 달러 이상 앞서고 있습니다.

엔비디아는 기술과 사업 확장을 멈추지 않고 있는데, 코어위브 투자 유치에도 참여해 수천만 달러를 투자하며 상당량의 지분을 확보한 것으로 추정된다고 합니다.

AI의 교육과 운영 비용

생성형 AI를 만들고 서비스하려면 크게 ‘교육’과 ‘추론’에 많은 컴퓨팅 인프라가 사용되는데, ‘교육’이란 인공지능을 학습시키고 고도화하는 것을 뜻하고, ‘추론’은 서비스 단계에서 이용자들이 입력하는 질문이나 명령에 적절한 응답을 제공하는 것을 뜻합니다.

지금까지 대규모 언어모델 기반의 인공지능을 개발하고 운영하기 위해서는 ‘교육’을 위한 비용이 많이 소모되었는데, 이는 방대한 양의 데이터를 학습시키는 데 많은 자원이 필요했기 때문입니다. 하지만 현재는 전 세계 사람들이 일상적으로 AI를 이용하게 되면서, ‘추론’에 더 많은 비용이 소모되고 있다고 합니다.

실제로 오픈AI의 경우 챗GPT 운영에만 하루 수백만 달러가 들어간다고 하고, 마이크로소프트는 챗GPT의 ‘교육’에만 엔비디아 GPU를 1만 대 넘게 썼다고 합니다. 챗GPT가 한 번의 대답을 제공하기 위해서는 1페니의 비용이 발생된다고 추정이 되는만큼, 앞으로는 점점 더 많은 비용이 들어갈 수 밖에 없을 것으로 추측됩니다.

오픈AI와 마이크로소프트의 상황으로 유추해 본다면 현재 검색 시장의 지배적 사업자인 구글이 검색에 대규모 언어 모델을 적용하게 되면 천문학적인 비용을 쓰게 될 것으로 보입니다.

실제로 포브스가 인터뷰한 전문가에 따르면 “구글의 경우에는 발생하는 수익 중 300억 달러를 곧장 컴퓨팅에 써야 할 것”이라고 말했다고 하죠. 만약 구글이 검색 전반에 LLM을 적용하면서 엔비디아의 GPU를 쓴다면 410만 개의 GPU를 갖춘 51만여 대의 서버가 필요하고, 이렇게 되면 구글이 서버와 네트워크에 써야하는 비용만 약 1000억 달러이 넘을 거라고 합니다. 물론 이에 따른 막대한 수익은 엔비디아에게 돌아가겠죠.

물론 구글을 비롯한 AMD, 인텔, 퀄컴 등의 하드웨어 기업들은 엔비디아를 따라잡기 위해 GPU 부문에 더 많은 투자를 할 것입니다. 최근의 프리시던스 리서치의 리포트에 따르면 AI 하드웨어 시장의 규모는 2021년 104억 1000만 달러에서 연평균 27%씩 성장해 2030년에는 892억 2000만 달러에 달할 것으로 전망된다고 합니다.

2. 데이터의 유료화 움직임

생성형 AI 개발을 위해 마이크로소프트와 구글 등의 빅테크 기업들은 자신들의 네트워크 안에서 모은 데이터 외에도 위키피디아, 트위터, 수많은 전자책과 학술 논문, 레딧 등의 소셜미디어 대화 등을 통해 인터넷상의 방대한 정보 학습시킨다고 합니다. 물론 각 사이트의 데이터는 스크래핑을 하거나 API를 통해 수집하게 됩니다.

그런데 최근에는 트위터와 레딧이 API를 유료화하겠다고 선언했는데, 지금까지의 개발 생태계는 활발한 앱 및 서비스 개발을 위해 API를 무료로 제공하는 흐름이었기 때문에, 많은 개발자와 기업들이 반발하고 있습니다.

트위터의 API는 전 세계 수천 명의 개발자가 활용하는, 세계에서 가장 강력한 데이터 세트 중 하나이고, 레딧 역시 각종 커뮤니티들이 모여 매일 수많은 대화를 양산하는 대표적인 소셜미디어입니다. 구글의 바드와 오픈AI의 챗GPT 모두 레딧의 데이터를 사용하고 있다고 밝혔는데, 레딧의 데이터는 이들의 대규모 언어모델에 공급되는 중요한 자원인 것이죠.

unsplash

레딧은 약 5,700만 명의 사람들이 매일 방문하고, 다양한 주제의 대화를 하면서 공적인 자리에서는 나오기 힘든 이야기들이 계속 업데이트되기 때문에, 특히 가치있는 학습 데이터라고 합니다. 그동안은 구글을 비롯한 검색 기반 서비스들이 자신들의 검색 시스템에 반영하기 위해 웹 크롤링을 통해 페이지들을 긁어모으는 것이 레딧 사이트를 더 노출시켜 주었기 때문에 문제 삼지 않았지만, 트래픽을 가져가고 가두는 챗봇의 발전은 결코 레딧과 같은 광고 수익을 기반으로 하는 소셜미디어의 발전에 도움이 않을 것으로 보인다고 합니다.

오픈AI도 자사의 API를 유료로 제공하고 있습니다. GPT-3는 오픈 소스로 공개했지만, GPT-4부터는 정보를 공개하지 않고 비용을 지불한 경우에 한해 API로 제공하고 있습니다. 이들 입장에서도 당연히 막대한 운영 비용을 커버할 수익 모델을 빨리 만들어야 하기 때문입니다.

앞으로 새로운 챗봇이 등장하고 업계가 커지면 경쟁은 더욱 치열해질 것이고, 경쟁이 치열해짐에 따라 데이터 확보를 위한 경쟁 역시 치열해질 것으로 예상됩니다. 이런 경쟁들은 아마도 API와 각종 콘텐츠를 비롯한 ‘데이터’ 자체의 유료화 흐름을 만들어내지 않을까란 생각이 드네요.

Leave a Reply