생성형 인공지능이 새로운 트렌드로 자리 잡은지 몇 개월도 채 지나지 않았지만, 하루가 다르게 새로운 모델과 애플리케이션이 등장하고 있다. Y Combinator의 2023년 겨울 배치 프로그램에서는 29개의 생성형 인공지능 스타트업을 선정하여 해당 분야로는 지금까지 한번에 가장 많이 선발했다. 그 외에도 생성형 인공지능 관련 프로덕트를 모아둔 FutureTools에서 정말 다양한 시도를 찾아볼 수 있다.
그렇다면 다음 나열된 것들의 공통점과 차이점은 무엇일까?
ChatGPT 질문을 영어로 번역해주고 답변을 한글로 번역해주는 확장 프로그램 프롬프트지니
경력과 설명만 입력하면 개성 있는 cover letter를 만들어주는 Coverler
개발과 기술 관련 질문에 최적화된 검색 엔진 Phind
개발자를 위한 대규모 언어 모델(LLM) Infrastructure ANARCHY
인공지능 운영에 특화된 버티컬 클라우드 CoreWeave
바로 모두 생성형 인공지능 분야에 속하지만 위상이 다르다는 차이가 있다. 1~3번은 모델을 활용해서 만든 유용한 결과물인 반면, 4번과 5번은 생성 모델 자체 이거나 개발을 위한 근간 정도로 보면 된다.
이처럼 시장에는 포지션에 따라 각각의 기회와 위험, 전략과 비즈니스 모델(BM)이 상이하므로, 이를 제대로 이해해야만 올바른 접근을 할 수 있다. 지금부터 생성형 인공지능 생태계의 구조를 하나씩 살펴보도록 하겠다.
목차
생성형 인공지능 삼분법
Layer 1: 인프라(Infrastructure)
Layer 2: 인공지능 모델(AI Model)
Layer 3: 애플리케이션(Application)
① Layer 1: 컴퓨팅 하드웨어
a. 배경
b. 현황
연산 반도체, 메모리 반도체, 설계
c. 기회와 전략
후발 주자 우위
작지만 성장하는 세분화된 타겟 시장 공략
공급 부족(초과 수요) 현상을 활용하기
② Layer 2: 클라우드 플랫폼
a. 배경
b. 현황
비용, 연합, 락인 현상
c. 기회와 전략
인공지능에 특화된 버티컬 클라우드
멀티 클라우드와 MSP
마무리
Disclaimer : A16Z의 글을 참고하였음.
생성형 인공지능 삼분법
생성형 인공지능 생태계는 크게 인프라-모델-애플리케이션 세 가지 계층으로 분류할 수 있다.
Layer 1: 인프라(Infrastructure)
인프라는 생성형 인공지능 가치사슬(Value Chain)의 가장 앞 단에서 기초를 받쳐주는 계층이다. GPU, NPU 같은 물리적 하드웨어를 만드는 제조사부터 컴퓨팅 파워를 가상으로 빌려서 사용할 수 있는 클라우드 플랫폼을 제공하는 참여자가 여기에 해당한다.
Layer 2: 인공지능 모델(AI Model)
그 다음은 Layer 1를 기반으로 한 인공지능 모델 계층이다. Jasper나 Github Copilot 같은 애플리케이션에 사용 되는 GPT, BERT, PaLM 등 초거대 언어 모델이 여기에 속한다. 공개 여부에 따라 폐쇄형 모델인지 오픈 소스인지로 구분되는데, 오픈 소스가 게임체인저가 될 가능성이 있어 지켜볼 필요가 있다. 느낌상 Layer 2의 플레이어가 수익화에 가장 유리할 것 같지만, 그렇지만은 않다는 점도 흥미롭다.
Layer 3: 애플리케이션(Application)
애플리케이션은 Layer 2의 인공지능 모델을 활용하여 상단에서 사용자와 가장 밀접하게 상호작용하는 프로덕트로 생각하면 된다. 정말 다양한 사용 사례가 있는데, 직접 만든 모델을 쓰느냐 아니면 서드파티(Third Party) 모델을 사용하느냐에 따라 구분할 수 있다.
이외에도 데이터의 흐름(수집-가공-학습-통합-사용자)이나 주체(인프라-개발-비즈니스)를 기준으로 이 시장을 이해할 수 있지만, 인프라-모델-앱 프레임워크가 가장 MECE(중복과 누락이 없음)하므로 이를 기준으로 논의를 이어가겠다.
생성형 인공지능 삼분법 구조도
세 가지로 나눈 생성형 인공지능 플레이어를 조금 더 디테일하게 나누면 아래 <그림1>과 같다.
생성형 인공지능 생태계 구조도를 잘 살펴보고 각각의 계층이 어떤 역할일지, 서로 어떠한 관계일지 충분히 상상해보고 본격적으로 글을 읽는 것을 추천한다.
① Layer 1: 컴퓨팅 하드웨어
a. 배경
생성형 인공지능과 컴퓨팅 하드웨어(Compute Hardware)가 무슨 상관일까? DB의 첫 번째 글에서 살펴보았듯이 생성형 인공지능을 개발하거나 이를 활용하여 애플리케이션을 작동시키는 과정에서 수많은 계산과 추론 과정을 거친다.
그 복잡성은 AI 모델이 더 크고 어려운 문제를 실시간으로 풀게 되면서 커지고 있다. 이때 이러한 모델을 훈련시키고 제대로 활용하려면 엄청난 컴퓨팅 성능과 확장성을 필요로 한다. 이를 받쳐주는 하드웨어가 대량으로 요구된다는 점에서 하드웨어 제조 업체의 중요성이 높다고 할 수 있다.
생성형 인공지능 데이터 처리는 빅데이터 또는 클라우드 컴퓨팅 용도로 지어진 ‘하이퍼스케일 데이터 센터’를 중심으로 처리되고 있다. 클라우드 3대장인 Amazon Web Services(AWS), Google Cloud Platform(GCP), Microsoft Azure는 이러한 데이터 센터를 확충하기 위해 연간 총 1,000억 달러(100조 원) 이상 자본 지출을 해오고 있다.
b. 현황
연산 반도체
인공지능 분야는 기존 서비스, 게임보다 빠르고 정확한 연산을 요구하는만큼 그에 맞는 특수한 하드웨어 공급자가 큰 수혜를 보고 있다. 그래픽카드(GPU)의 대명사로 알려진 ‘NVIDIA(엔비디아)’가 가장 대표적이다.
NVIDIA는 GPU를 그래픽 외 연산 처리 목적으로 사용하는 ‘범용 GPU(General Purpose GPU)’의 개념을 제시하며 인공지능/머신러닝/딥러닝 분야에 특화된 데이터 처리 수요에 선구적으로 대응했다.
그 결과 Amazon, Facebook, Google, Microsoft, Alibaba 등에서 NVIDIA 플랫폼을 사용하고 있으며, NVIDIA는 AI GPU 시장의 80~90% 가량을 점유한 절대 강자이다. 또한, 최근 OpenAI가 ChatGPT를 개발할 때 NVIDIA의 A100 GPU 10,000개를 사용했다는 분석도 공개 되었고 A100보다 최신 제품인 H100 GPU를 ChatGPT 서버용으로 납품하기 시작했다고 한다.
이러한 생성형 인공지능 시장의 급격한 성장으로 인해 GPU 수요가 가파르게 증가했고 해당 시장 대부분을 쥐고 있는 NVIDIA의 공급이 이를 따라가지 못하는 초과수요 상태인 것으로 분석된다. 당분간은 인공지능 가동을 위한 하드웨어 설비가 많이 필요한만큼 수요-공급 추이를 지켜볼 필요가 있겠다.
메모리 반도체
GPU에는 메모리가 탑재된다는 점에서 삼성전자, SK 하이닉스 같은 메모리 반도체 기업도 수혜를 입을 것으로 전망된다. D램 위주였던 메모리 반도체 시장이 인공지능 메모리라는 새로운 트렌드를 따라가고 있다.
인공지능 메모리 반도체의 키워드는 ‘HBM(고대역폭 메모리)’과 ‘PIM(연산 기능을 갖춘 메모리)’ 이다. HBM은 고용량, 저전압, 고대역폭의 성능을 갖춰 고성능 컴퓨팅(HPC)에 특화된 메모리이고, PIM은 Processing In Memory의 약자로 데이터를 저장만 하는 기존 메모리에서 더 나아가 연산 기능까지 갖춘 메모리이다.
두 메모리는 생산 공정이 복잡하고 작업이 복잡하지만, 평균판매단가(ASP)가 D램의 최소 3배 이상이다. 그만큼 기업 입장에서는 공급 할수록 이익이 크게 남는 고부가가치 영역인데, 현재까지 삼성전자와 SK하이닉스만 생산한다고 알려져 있다.
최근 삼성전자는 AMD의 GPU MI-100 가속기에 들어가는 지능형 메모리 D램을 납품했고, SK 하이닉스는 NVIDIA의 A100과 H100 GPU에 각각 들어가는 3세대, 4세대 고대역폭 메모리(HBM)을 납품했다.
향후 이 시장을 지금처럼 국내 두 회사가 차지할지, 아니면 새로운 경쟁자가 등장할지 지켜보는 것도 관전 포인트가 되겠다.
설계
반도체를 생산하기 위해서는 설계에 해당하는 반도체 디자인이 필수이며 매우 중요한 단계이다. 반도체 디자인을 통해 소비전력(Power) + 성능(Performance) + 면적(Area), 이른바 PPA를 최적화하는 디자인을 찾는다면 그만큼 경쟁력 있는 반도체를 생산할 수 있기 때문이다.
기존에는 다양한 분야에서 범용 반도체를 사용했으나 이를 인공지능 목적으로 사용하는 경우 PPA 개선 한계가 있어 최근 AI 반도체에 대한 커스터마이징 수요가 늘어났고 자연스럽게 설계 플랫폼 산업이 함께 성장하고 있다.
흥미로운 점은 반도체 설계 비용이 만만치 않다 보니, 반도체 디자인에 인공지능을 도입하는 회사가 늘어나고 있다. 실제로 인간 설계자가 수 개월 이상 필요한 작업을 인공지능은 몇 시간 만에 해낸다고 하니 기업 입장에서는 효용성이 매우 높을 수밖에 없다.
Deloitte에 따르면, 글로벌 반도체 기업들이 자체 칩 설계 인공지능에 2023년 3억 달러 이상을 투자할 것이라고 하며 이는 2026년 5억 달러까지 증가한다고 한다. 반도체 전체 시장 규모인 6,600억 달러의 극히 일부이지만 AI 설계의 높은 효율성과 투자 수익률을 감안한다면 주목할만한 변화로 보인다.
이러한 추세와 함께 반도체 설계자동화 시스템인 EDA에도 인공지능이 도입되어 많은 부분이 자동화되고 있다. 지난해 주요 EDA 기업인 Cadence는 인공지능을 활용한 반도체 검증 플랫폼인 ‘베리시움’을 출시하여 칩 설계와 테스트에 모두 인공지능을 도입했다.
초기 설비 비용으로 진입하기 어려운 반도체 생산 분야와 달리 반도체 디자인에는 이미 비교적 많은 스타트업이 진출하고 있는데, 인공지능을 활용한 설계에 이점을 지닌 스타트업에게 많은 기회가 있을 것으로 생각한다.
[요약]
생성형 인공지능의 영향으로 GPU, 메모리 등 하드웨어 수요가 급증했으며,
반도체 생산 프로세스에도 변화가 일어나고 있다.
지금까지 생성형 인공지능의 붐으로 영향을 받고 있는 세 가지 주요 영역을 살펴보았다. 여기서 다루지 않은 제품 뿐만 아니라 반도체 설비, 생산, 테스트 등 다른 가치 사슬에도 다양한 변화가 있으니 필요하다면 더 찾아보는 것을 권한다.
c. 기회와 전략
생성형 인공지능의 발전으로 가장 직접적인 영향을 받고 있는 AI GPU 시장을 중심으로 기회와 전략을 살펴보자.
AI GPU 시장에서 NVIDIA 외 다른 플레이어는 누가 있을까? 대표적으로 구글-TPU, AMD-Instinct GPU, AWS-Inferentia 및 Trainium이 있으며, 반도체 스타트업 중에서는 Cerebras, Sambanova, Graphcore, Tenstorrent, Rebellions 등이 있다.
그러나 이들 중 유의미한 시장 점유율을 확보한 회사는 아직 없다. 반면, NVIDIA 플랫폼에는 300만 명 이상의 개발자가 있으며 A100(2020년) 대비 H100(2023년)의 성능이 9배나 개선될 정도로 꾸준히 기술 성장을 이뤄내고 있다. 그렇다면 이러한 상황에서 NVIDIA 이외의 플레이어가 잡을 수 있는 기회는 무엇이고 어떠한 전략을 취해야 할까?
후발 주자 우위(Late-mover Advantage)
반도체 분야는 초기 비용이 많이 드는 산업이고 기술 격차를 따라잡기 어렵다는 점에서 진입장벽이 매우 높다. 그렇다면 정말 뒤늦게 진입한 후발 기업은 1등을 차지하기 어려운 것일까?
꼭 그렇지만 않은 것이 선발 주자가 유리한 점이 있듯이 ‘후발 주자 우위’ 효과가 있을 수 있다. 선발 주자는 기업의 규모가 커지다 보면 혁신 기술 도입에 순발력이 떨어질 수 있으며, 중요한 기회와 타이밍을 놓쳐버릴 수도 있다. 반면, 후발 주자는 시장의 흐름과 방향이 오히려 명확해지는 시점에 고객의 반응을 확인한 뒤 진입할 수 있다는 점에서 생존 가능성을 높일 수 있다. Intel(1968년)과 AMD(1969년)보다 25년 가량 늦게 설립된 NVIDIA(1993년)가 두 회사와 비등한 경쟁을 하고 있는 것만 봐도 그럴 가능성은 충분하다.
실제로 NVIDIA의 제품이 전력 대비 성능이 좋지 않다는 비판의 목소리도 있으며 높은 비용에 대한 부담도 있다. 이러한 사실에 비추어 봤을 때, 이 계층의 후발 주자는 특정 작업에 특화된 하드웨어를 가격과 전력 대비 성능(전성비) 측면에 집중하여 경쟁할 수 있을 것으로 보인다.
작지만 성장하는 세분화된 타겟 시장 공략
NVIDIA가 AI 가속기 시장을 80~90% 가량이나 독점한 것도 엄청나지만, AI 하드웨어 뿐만 아니라 GPU 프로그래밍 언어를 통해 CUDA라는 AI 소프트웨어에서도 수만 명의 개발자를 묶어놓고 있다. 이러한 종합적인 생태계가 구축된 경우 다른 포지셔닝을 통해 접근하는 것이 나을 수 있다.
연산장치 하드웨어는 사용 목적과 분야에 따라 CPU, GPU, GPGPU, NPU, IPU, VPU, FPGA, ASIC, Neuromophic 등 종류가 다양하다. 각각 다른 자원과 전략을 요구하지만, 이 중 자사 역량을 집중할 수 있는 분야를 공략한다면 빠르게 성장하고 있는 AI 반도체 시장을 파고들 수 있을 것이라 생각한다.
인공지능 하드웨어에서도 특히 ‘가격’과 ‘전성비’가 중요하다. 하드웨어의 구매자인 데이터센터(내지는 클라우드) 입장에서는 TCO(총소유비용, Total Cost of Ownership)를 따질 수밖에 없는데, 여기에 ‘구매 비용’과 ‘운영 비용’이 포함된다. 저렴한 가격은 ‘구매 비용’ 관점에서 긍정적이며, 개선된 전성비는 전력사용량이 대부분인 ‘운영 비용’ 관점에서 경쟁력이 있다. 그래서 가격과 전성비를 잡으면 경쟁에서 유리해진다.
실제로, Graphcore는 ‘전력 대비 성능’이라는 키워드에 집중하여 NVIDIA보다 우세에 있다고 선전했다. Furiosa AI의 2세대 AI 칩은 NVIDIA의 고성능 칩과 비교해도 전력 대비 성능을 2~3배 이상 달성할 수 있다고 하며, Rebellions가 지난 2월 13일에 공개한 데이터센터향 AI 반도체 ‘아톰’은 인공지능 관련 작업에서 NVIDIA의 A100의 20% 전력만 사용한다고 알려져 있다.
국내외 반도체 스타트업이 더 훌륭한 기술로 시장을 공략하는 것을 봤을 때 가격과 전성비가 좋은 칩을 대량 양산한다면 충분히 경쟁할 수 있을거라 생각한다.
공급 부족(초과 수요) 현상을 활용하기
AI 관련 하드웨어 수요가 1위 공급자인 NVIDIA에 몰리면서 공급이 이를 따라가지 못하는 초과 수요 상태가 발생하고 있다. 당연히 NVIDIA가 공급을 늘리겠지만 복잡한 가치사슬로 인해 당분간 병목 현상이 발생할 것이다. 따라서, 선두 기업뿐만 아니라 이 시장의 플레이어는 단기의 공급 차질을 해결하고 장기적인 탄력성을 확보하는 두 가지 방향을 모두 취하는 전략이 가능하다.
단기적으로는 일반 GPU처럼 사용 범위가 다소 넓은 칩보다, NPU(AI 학습용 칩)에 집중하여 생산하는 것이다. 또한, 기존 설계 디자인을 재설계하여 불필요한 기능, 사용성 최적화 등의 효과를 노려볼 수도 있다.
한편, 장기적으로는 더 넓은 공급 사슬을 확보하거나, R&D 투자를 통해 기회를 잡을 수 있다. 삼성전자는 10년 전부터 준비한 AI 맞춤형 메모리 덕에 초거대 AI 모델 시대에 적절히 대응할 수 있을 것으로 파악된다.
더욱이, 초과 수요 상태는 점차 개선되는 것이 당연한데 그 이후에는 물량보다는 앞서 언급한 전성비나 가성비 등 다른 요인이 훨씬 부각될 수도 있다는 점을 고려하여 준비해야 할 필요가 있다.
지금까지 생성형 인공지능의 가장 기반이 되는 칩, 메모리와 같은 하드웨어 레이어를 알아보았다. 모든 플레이어와 제품군을 다루지 못했지만, 전반적인 시장 상황과 앞으로의 기회 및 전략을 살펴보았다. 생성형 인공지능 생태계의 가장 앞 단에서 기존 플레이어들이 단기적으로 엄청난 수혜를 보고 있지만 새로운 강자가 나타날 가능성이 있는만큼 흥미롭게 지켜볼 필요가 있겠다.
② Layer 1: 클라우드 플랫폼
‘클라우드 컴퓨팅(Cloud Computing)’이란 가상 서버를 통해 데이터 저장공간, 컴퓨팅 파워와 같은 IT 리소스에 접근하는 방식이다. 쉽게 말해, 내 컴퓨터(≈ 로컬)가 아닌 인터넷(≈ 클라우드)으로 데이터도 저장하고 무거운 프로그램도 돌리는 기술이다.
생성형 인공지능 모델을 개발하거나 사용하기 위해서 큰 규모의 컴퓨팅 파워가 필요하다. 이를 가능하게 하는 것이 앞서 ‘Layer 1: 하드웨어’에서 살펴본 GPU, NPU, TPU 같은 연산 장치이다.
이러한 장치를 대량으로 사용하려면 별도의 데이터 센터가 필요한데 부지, 안정적인 전력 공급, 냉각 시스템 등 갖춰야할 조건이 많고 비용 부담이 높다. 그래서 대부분 IT 기업은 자체 하드웨어 설비를 구축하는 대신 이를 전문적으로 운영하는 클라우드 서비스를 임대하여 사용한다.
이 때문에 생성형 인공지능 사업이 발전하고 규모가 커질수록 클라우드 플랫폼의 중요성 또한 비례하여 높아진다. IT계의 ‘토지’이라고도 불리는 클라우드 플랫폼에 대해 알아보고, 생성형 인공지능과 관련하여 어떤 기회가 있을지 살펴보자.
a. 배경
클라우드 컴퓨팅은 서비스 모델에 따라 IaaS, PaaS, SaaS, DaaS, BPaaS 유형으로 구분되며, 클라우드 이용 방식에 따라 퍼블릭, 프라이빗, 하이브리드 클라우드로 나뉜다.
대표적인 퍼블릭 클라우드 플랫폼은 AWS(Amazon), Azure(MS), GCP(Google)이며, 셋이 합쳐 매출 기준으로 클라우드 시장 70% 가량을 차지하고 있다. Gatner는 퍼블릭 클라우드 시장규모가 2022년 4,903억 달러(약 630조 원)에서 2023년에는 20.7% 증가한 5,918달러(약 770조 원)으로 성장할 것으로 전망한다. 이는 기존 예측 성장률인 18.8%보다 1.2배 높아진 수치로 인플레이션 압박과 거시경제 침체로 인해 가변성이 장점인 클라우드 컴퓨팅 수요가 높아진 것으로 해석된다.
이처럼 클라우드 컴퓨팅은 이미 IT 산업의 필수로 자리잡고 있지만, 최근 생성형 인공지능의 등장으로 그 중요성이 또 한번 강조되고 있다. 그렇다면 생성형 인공지능과 관련하여 클라우드 플랫폼의 현황이 어떤지 자세히 살펴보도록 하자.
b. 현황
클라우드 비용
A16Z의 분석에 따르면, 생성형 인공지능 애플리케이션 회사(Layer 3)의 매출 20~40% 가량이 인공지능 모델 개발 스타트업(Layer 2)에 지출될 것이고, 이 중 절반이 클라우드 비용(Layer 1)으로 흘러간다고 한다. 다시 말해, 생성형 인공지능 생태계 전체 매출의 10~20% 가량이 클라우드 회사로 간다고 예상할 수 있다.
아래는 OpenAI가 사용하는 Azure 클라우드의 하드웨어가 NVIDIA A100 GPU라고 가정했을 때, ChatGPT를 돌리는 데 얼마나 많은 클라우드 비용이 들지 계산을 한 트윗이다. 많은 부분이 가정으로 이루어져 있어서 재미로 한번 볼만 하다.
클라우드 대기업과 AI 스타트업의 연합
최근 클라우드 사업을 영위하는 플랫폼 대기업이 생성형 인공지능 모델을 개발하는 스타트업과 손을 잡으며 일종의 진영을 만들고 있다. 생성형 인공지능 분야에서 아직 어떤 빅테크 기업도 명확한 1등이라고 할 수 없는데, 오히려 스타트업들이 뛰어난 성과를 보이면서 양측의 필요가 맞았기 때문이다. 한번 각각의 관점으로 현재 상황을 살펴보자.
생성형 인공지능 모델 개발 스타트업 입장에서는 클라우드 비용이 부담될 수밖에 없다. OpenAI의 경우 ChatGPT를 돌리는 데 하루에 최소 약 10만 달러(약 1억 3천만 원)를 지출하는 것으로 추산된다. 1달 기준 300만 달러(약 40억), 1년 기준 3600만 달러(약 470억)라고 치면, 자금과 제대로 된 비즈니스 모델이 부족한 대부분의 모델 개발 스타트업은 클라우드 비용 부담이 막중할 것이다.
한편, 클라우드 제공자인 Amazon, Microsoft, Google 입장에서 생성형 인공지능 모델 스타트업은 경쟁자이자 동시에 고객이다. 빅테크 기업이 생성형 인공지능 자체 모델을 출시하고 서비스에 탑재할 역량이 모자라지는 않지만, 기존 수익 모델과의 경합성이나 잠재적인 위험으로 인해 인공지능 모델 출시와 도입에 부담을 느끼고 있는 상황이다. 그래서 클라우드 빅테크 기업들은 모델 개발 스타트업에 자금을 대거나 클라우드를 지원하는 방식으로 투자를 하고 해당 모델에 대한 권한을 받는 식으로 파트너십을 맺고 있다.
MS는 OpenAI에 2019년과 2021년 두 차례의 파트너십에 이어 2023년 1월 10억 달러를 투자하여 협력을 확대했으며, Google은 2023년 2월 Anthropic에 3억 달러를 투자했다. 또한, AWS는 자사 플랫폼인 ‘Amazon SageMaker’에 Cohere, Stability AI와 같은 스타트업의 생성형 인공지능 모델을 탑재하며 편을 모으고 있다.
클라우드 락인 현상
앞서 언급한 것처럼 클라우드를 운영하는 빅테크 기업이 이익을 양보하거나 심지어 약간의 손해보는 거래를 하면서도 인공지능 스타트업을 전폭적으로 지원하는 이유는 ‘락인(Lock-in) 현상’ 때문이다. 다시 말해, 한 회사가 특정 클라우드 생태계에 들어오면 다른 클라우드로 전환하는 비용이 너무 높아서 다른 클라우드로 옮기지 못하고 자사의 클라우드에 종속되는 효과이다.
클라우드 락인 효과의 부작용을 예방하기 위해 일반적인 IT 서비스는 2개 이상의 클라우드 서비스를 사용하는 ‘멀티 크라우드’나 퍼블릭 클라우드와 프라이빗 클라우드(또는 온프레미스)를 함께 사용하는 ‘하이브리드 클라우드’ 전략을 사용한다.
그러나 한 AI 연구원에 따르면, GPT나 PaLM 모델 같이 수십억 개의 매개변수가 있는 대규모 언어 모델을 구축하고 배포하려면 안정적인 하드웨어가 필요하기 때문에 모델 학습을 시작한 후에는 플랫폼 간 이동이 어려워서 당분간은 락인 효과가 나타날 가능성이 높다고 한다.
지금까지 Layer 1: 클라우드 계층의 비용 구조와 클라우드 빅테크 기업과 스타트업의 파트너십, 그리고 그로 인한 클라우드 락인 현상을 살펴보았다. 이러한 현황에서 어떠한 기회가 남았고 앞으로 어떠한 전략을 세울 수 있을지 살펴보자.
c. 기회와 전략
Tencent Cloud, Oracle 같이 점유율이 낮은 퍼블릭 클라우드 제공자는 AWS, Azure, GCP의 3중 구도를 깨고자 자사 클라우드 설비 투자를 빠르게 늘이고 있다. 또한, 이외 클라우드 스타트업은 새로운 기회를 찾기 위해 다양한 시도를 하고 있다. 그렇다면 클라우드 플랫폼 레이어에 어떠한 기회가 있을지 살펴보고 가능한 전략을 찾아보자.
인공지능에 특화된 버티컬 클라우드
지난 15년 동안 클라우드 인프라는 소수의 하이퍼스케일러가 거대한 자본 지출을 통해 전 세계 클라우드 수요를 장악해왔다. 규모의 경제를 누릴 수 있는 클라우드 사업에서는 이미 커질대로 커진 클라우드 3사를 따라잡기가 그리 쉽지 않다. 규모가 클수록 큰 규모의 고객을 끌어오기 쉽고, 고객이 많아질수록 규모의 경제를 이뤄 선순환 구조가 생기기 때문이다.
그러나 최근 대규모 클라우드에서 더 전문화된 클라우드 인프라로 변화하고 있으며 지금이 그 초입인 것으로 보인다. 이러한 변화의 원인은 기존 클라우드 플랫폼이 다양한 사용자 요구에 맞추기 위해 평균 작업량 정도의 낮은 수준의 리소스를 제공하여 인공지능 같이 높은 컴퓨팅 성능을 요구하는 기술에 최적화되지 않았기 때문으로 보인다.
반면, 특정 유형의 작업에 중점을 둔 버티컬 클라우드는 비용 대비 효율적이며 성능이 좋다. 인공지능 버티컬 클라우드는 AI/ML 컴퓨팅 전용 칩을 사용하고, 운영 최적화 방식(Scheduler)이나 네트워크 상호 연결(Network interconnect) 등 기타 여러 가지 설계가 인공지능에 맞게 조정되어 있다.
또한, 버티컬 클라우드라도 규모가 작았다면 도입되기 어려웠겠지만, 클라우드 산업 전체가 함께 커졌다 보니 개별 버티컬 클라우드도 대규모 수요를 감당할 수 있게 되어 인공지능 버티컬 클라우드로의 전환이 가능해졌다.
이러한 상황에서 CoreWeave는 2022년 상반기에 공개된 NVIDIA의 H100 GPU를 빠르게 도입하여 클라우드 인스턴스와 인공지능 관련 기능을 제공하고 있다.
결국 앞으로 클라우드 사업은 규모에 상관없이 ‘해당 분야에 맞는 클라우드 인프라를 얼마나 잘 구축했는가?’가 경쟁 요소가 될 것이다. 추가로 같은 GPU를 사용한다면 하드웨어 성능 차이가 거의 없어지기 때문에 전문성, 가격, 개별 지원 등 다양한 수직적 요인이 중요해질 것이다.
따라서, 클라우드 레이어의 플레이어는 버티컬 클라우드와 함께 추가적인 이점을 제공하는 방향으로 전환하는 것을 전략으로 삼아볼 수 있다.
멀티 클라우드와 MSP
최근 클라우드 시장의 추세는 여러 개의 클라우드 환경에서 운영을 단순화하고 클라우드 별 장점을 극대화하는 ‘멀티 클라우드’이다. 슈퍼 클라우드, 분산 클라우드, 메타 클라우드, 추상적 클라우드라고도 불린다.
여러 개의 클라우드 업체를 사용하면 단일 클라우드를 사용했을 때보다 장점이 많다. 클라우드 별 장점을 결합할 수 있고, 필요한 성능 대비 가격을 조합하여 비용 최적화를 할 수 있으며, 여러 곳에 데이터 중복이 생겨 서비스 중단을 예방할 수 있다.
이러한 이유로 2022년 기준 82% 가량의 회사가 멀티 클라우드 전략을 활용하고 있다. 그러나 그 중 83%가 클라우드 간 데이터를 수동으로 통합하고 있으며, 그 과정에서 63%가 5개 이상의 툴을 사용할 정도로 멀티 클라우드를 사용하려면 어려움이 많다. 실제로 클라우드마다 제공하는 형식이 달라서 일관성이 부족하고, 각 클라우드를 활용할 수 있는 인력이 필요하며, 개별 클라우드의 문제에 대응해야 하는 복잡함이 있다.
그래서 여러 개의 퍼블릭 클라우드와 이를 사용하는 유저(회사) 사이에 멀티 클라우드 플랫폼이 위치하여 클라우드 환경을 단순화하고 편리하게 사용할 수 있는 환경을 제공한다. 대표적으로 Bespin Global, Megazone Cloud 등이 있으며 최근 빠르게 성장하고 있다. 이들은 기업 특성을 고려하여 클라우드를 추천해주는 컨설팅, 데이터 이전(마이그레이션), 운영 및 관리까지 End-to-End 서비스를 제공한다.
생성형 인공지능이 성장함에 따라 다음의 주된 세 가지 이유로 멀티 클라우드 수요가 증가할 것이라고 생각한다.
확장성
생성형 인공지능의 수요가 큰 폭으로 변화하는 환경에서 멀티 클라우드는 필요로 하는 만큼 리소스를 확장하거나 축소하는 데 유리하다. 물론 1개의 클라우드만 사용해도 유연성에는 문제가 없겠지만, 클라우드마다 리소스 제한이 있기도 하고 클라우드 병목 현상(Bottleneck) 발생하기도 하여 멀티 클라우드의 확장성이 더 우수하다.
가령, ChatGPT만 보더라도 특정 시간대가 되면 사용량의 한계에 다달았다는 안내 문구가 뜬다. 워낙 사용량이 많은 이유도 있겠지만, Azure 클라우드만 단독으로 사용해서 유연한 대응에 어려움이 있는 것이 아닐까 추측해볼 수 있다.
버티컬 서비스 접근
클라우드마다 버티컬로 제공하는 서비스가 상이하므로 멀티 클라우드를 통해 필요한 기능을 취사선택할 수 있다. 가령, 클라우드 기반으로 머신러닝을 돌리는 MLaaS의 경우 <그림12>과 같이 제공하는 기능이 다르다. 특히, 생성형 인공지능에 적극 활용할 수 있는 다양한 기능들이 출시되고 있는 와중에서 멀티 클라우드를 통한 버티컬 서비스 접근이 기업에게는 더욱 필요해질 것이다.
안정성과 중복성(데이터 보호)
AWS의 사례를 통해 알 수 있듯이 대형 클라우드 회사라고 더 안정적인 것도 아니다. 서비스 중단이나 데이터 손실 등의 클라우드 공급자의 잠재적 위험을 데이터와 워크로드(작업)을 여러 곳으로 분산하는 멀티 클라우드를 통해 완화할 수 있다.
후속 글에서 설명하겠지만 생성형 인공지능 생태계에서 모델만큼이나 중요한 것이 ‘데이터’이다. 물론 모든 IT 서비스에서 데이터가 중요하지만, 대부분의 생성형 인공지능 애플리케이션이 대동소이한 모델을 기반으로 하기 때문에 누적된 데이터가 일종의 ‘해자(Moat)’로서의 차별점이 된다. 이런 점에서 안정성과 중복성이 다시 한 번 강조될 것이라 보인다.
이러한 이유로 멀티 클라우드의 수요는 계속 증가하겠지만, 멀티 클라우드를 운용하는 것이 개별 회사 입장에서는 매우 어렵다는 점이 Pain Point이다. 그래서 이를 도와주는 MSP(클라우드관리서비스, Managed Service Provider)에게 사업적 기회가 많이 몰릴 것이라 본다.
또한, 인공지능 모델을 여러 클라우드에서 관리하기가 불편하고 한번 정착한 이상 플랫폼 간 이동이 어렵다는 점도 멀티 클라우드가 풀 수 있는 문제 중 하나라고 생각한다.
마무리
이번 글에서는 생성형 인공지능 삼분법 중 Layer 1에 해당하는 하드웨어와 클라우드 플랫폼에 어떤 기회가 있을지 알아보았다. 생성형 인공지능의 가장 근간이라는 점에서 사실상 ‘톨게이트' 역할을 하고 있다는 점과 비교적 보수적일 것 같은 인프라 산업도 생성형 인공지능의 등장으로 변화가 있다는 사실이 흥미롭다.