최근 GPT의 인기가 최고조에 달하고 있습니다. 이와 관련하여 오늘은 현재의 챗GPT가 어떻게 탄생했는지, 언어모델의 진화 과정을 살펴보고자 합니다. 현시점에서 오픈AI의 놀라운 성과를 이해하고, 언어모델의 역사적인 여정을 따라가보는 것도 의미가 있을 것 같습니다.
2022년 12월, 미국 샌프란시스코에 본사를 둔 오픈AI가 웹 앱 형태로 출시한 챗GPT는 거의 하룻밤 사이에 대세로 급부상했습니다. 출시 당시엔 사용자 1억 명을 돌파한 것으로 알려졌고, 현재는 2억 명을 넘어섰습니다. 이런 엄청난 성장세로 인해 일각에서는 이를 역대 가장 빠르게 성장한 인터넷 서비스로 평가하고 있습니다.
이에 마이크로소프트는 오픈AI와 100억 달러 규모의 계약을 맺고, 오피스와 검색엔진인 빙에 챗GPT를 탑재하기로 결정했습니다. 이로 인해 검색 분야에서는 새로운 경쟁 상대로서 마주하게 되었고, 구글의 자체 챗봇인 ‘바드‘ 출시를 가속화시켰습니다.
이밖에도 여러 메신저의 그룹 채팅방에서도 챗GPT 이야기가 끊이지 않고 펼쳐지고 있는데, 이러한 성과를 이뤄낸 챗GPT는 어떻게 탄생하게 되었을까요? 현재의 챗GPT는 수년에 걸쳐 발전해온 대형 언어모델 가운데 가장 정교하게 다듬어진 최신 버전입니다. 이 글에서는 챗GPT의 궤적을 살펴보며 언어모델의 진화 과정을 자세히 알아보겠습니다.
1980년~1990년대: LSTM 신경망의 탄생과 언어모델의 한계
1980년대와 1990년대, 언어모델과 인공지능의 역사에서 중요한 시기가 돌아왔습니다. 이 기간 동안, 순환신경망은 단어 시퀀스를 처리하고 이해하는 데 사용되었으나, 여러 가지 제한과 한계를 가지고 있었습니다.
순환신경망은 단어 시퀀스 데이터를 처리하는 데는 유용했지만, 학습 속도가 느리고 데이터 소실 문제를 겪는 등의 한계가 있었으며, 이러한 제한 때문에 긴 문장이나 복잡한 언어 구조를 이해하는 데 어려움이 있었습니다.
그러나 1997년, 컴퓨터 과학자인 세프 호흐라이터와 위르겐 슈미트후버는 장단기 기억 신경망을 발명하면서 이 문제를 해결하게 됩니다.
LSTM 신경망은 RNN에 특수 요소를 추가하여 먼저 입력된 데이터를 시퀀스에서 더 오래 보존할 수 있도록 설계되었습니다. 이로써 LSTM은 수백 단어로 이루어진 긴 텍스트 문자열을 처리할 수 있게 되었고, 언어 능력을 향상시켰습니다. 이런 발전은 언어모델과 대화형 AI의 미래에 대한 중요한 전환점 중 하나로 평가되었습니다.
이렇게 LSTM 신경망을 통해 언어 처리 능력이 향상되었지만, 이후에도 더 나은 모델과 알고리즘을 개발하고자 하는 연구와 개발 노력은 계속되었습니다.
2017년: 트랜스포머와 언어모델의 혁신
2017년, 언어모델과 자연어 처리 분야에서의 혁신적인 변화가 일어났는데, 구글 연구진은 ‘트랜스포머‘라는 혁신적인 신경망 아키텍처를 발명하여 언어모델의 성능을 대폭 향상시켰습니다.
트랜스포머는 시퀀스 데이터에서 각 단어나 구가 나타나는 위치를 추적하고, 이를 통해 문맥 정보를 파악하는 신경망입니다. 단어의 정확한 의미는 주변 단어와의 관계에 따라 결정되기 때문에, 트랜스포머는 이러한 문맥 정보를 정확하게 파악하여 긴 텍스트 문자열을 처리하고 단어의 뜻을 더 정확하게 해석할 수 있습니다.
예를 들어, “Hot dogs should be given plenty of water(더운 개는 물을 충분히 주어야 한다)”와 “Hot dogs should be eaten with mustard(핫도그는 머스타드와 함께 먹어야 한다)”라는 문장에서 ‘hot dog’라는 단어는 서로 다르게 해석는데, 트랜스포머는 이러한 문맥을 파악하여 단어의 의미를 더욱 정확하게 추론할 수 있게 해 주었습니다.
이렇게 2017년의 트랜스포머는 언어모델의 혁신을 주도하며, 오늘날의 대형 언어모델과 자연어 처리 기술의 기반을 마련하였습니다. 이러한 발전은 대화형 AI와 자연어 이해 분야에서의 엄청난 발전을 이끌었으며, 미래에 더욱 혁신적인 언어모델과 AI 기술을 기대하게 만들었습니다.
2018~2019년: GPT와 GPT-2의 도래
2018년과 2019년, 인공지능 분야에서 오픈AI의 GPT와 GPT-2 모델의 등장으로 큰 주목을 받았습니다. 이 두 모델은 언어모델 분야에서 혁신적인 역할을 하면서 자연어 처리 분야를 더욱 발전시켰습니다.
GPT는 오픈AI에서 개발한 첫 번째 대형 언어모델로, 불과 몇 달 간격으로 GPT-2가 출시되었습니다. 이 모델들은 오픈AI가 다재다능하고 범용적으로 활용 가능한 인공지능을 개발하기 위해 밟은 핵심 단계 중 하나였습니다.
[GPT 모델은 트랜스포머 아키텍처와 [비지도 학습|s=unsupervised learning]을 결합하여, 주석이 없는 방대한 양의 텍스트 데이터에 대해 머신러닝 모델을 훈련시킵니다.] 이 과정에서 GPT는 데이터의 패턴을 스스로 파악할 수 있으며, 이전의 지도 학습과 주석이 달린 데이터에 의존하지 않고도 높은 성능을 달성하게 되었습니다.
하지만 GPT-2의 등장은 더 큰 화제를 불러일으켰는데, 오픈AI는 이 모델을 “기만적, 편향적, 모욕적인 언어를 생성하기 위해 사용될 수 있음”을 우려하여 전체 모델을 공개하지 않겠다고 밝혔습니다. 이 결정은 머신러닝 모델의 사용과 역할에 대한 논쟁을 불러일으켰고, 언어모델의 윤리적 측면에 대한 논의가 더욱 활발해지게 되었습니다.
2018년과 2019년은 GPT와 GPT-2 모델의 등장으로 언어모델과 인공지능 분야에서의 중요한 순간들 중 하나였으며, 앞으로 더 많은 혁신과 논의를 불러일으킬 것으로 예상되었습니다.
2020년: GPT-3의 등장과 언어모델의 진화
2020년, 인공지능 분야에서 한층 더 진보한 언어모델의 등장으로 많은 인간들의 입이 다물지지 않는 사건이 생겼습니다. 오픈AI가 개발한 GPT-3는 그야말로 마치 사람처럼 자연스럽게 문장을 구사하는 능력을 지니고 있었기 때문입니다.
GPT-3는 질문에 대답하고, 긴 문서를 간결하게 요약하며, 다양한 형식과 스타일로 이야기를 만들어낼 수 있는 능력을 갖추고 있었습니다. 이 모델은 영어뿐 아니라 프랑스어, 스페인어, 일본어 등 다양한 언어로 번역을 수행할 수 있어 언어 간 소통을 용이하게 만들어 주었는데, 그 정도로 놀라운 모방 능력을 지니고 있었습니다.
그중에서도 가장 주목할 만한 점은 GPT-3의 발전이 새로운 기술의 발명보다는 기존 기술의 대형화로 인해 이루어졌다는 사실입니다. GPT-2의 매개변수 개수가 15억 개였던 것에 비해, GPT-3는 무려 1,750억 개의 매개변수를 갖고 있었습니다. 매개변수는 언어모델이 학습 중에 조정되는 값으로, 일반적으로 매개변수가 많을수록 AI의 성능이 향상됩니다. 또한 GPT-3는 훨씬 더 많은 양의 데이터로 훈련되었으며, 이로써 더 뛰어난 언어 이해 능력을 갖추게 되었습니다.
그러나 인터넷에서 수집한 텍스트로 AI를 훈련할 경우, 이에 따르는 새로운 문제도 동반됩니다. GPT-3는 온라인에서 수집한 다양한 정보와 편견을 수용하고 필요한 경우 이를 재생산하기도 했습니다. 이로써 GPT-3는 “인터넷으로 학습시킨 모델은 인터넷 규모만큼이나 많은 편견을 가지고 있다”고 인정되었으며, 인공지능의 윤리적 측면에 대한 논의가 활발해지게 되었습니다.
2020년은 GPT-3의 등장으로 언어모델과 인공지능 분야의 중요한 순간 중 하나였으며, 더 많은 혁신과 논의를 이끌어낼 것으로 기대되는 해였습니다.
2020년 12월: 인공지능의 윤리적 문제
2020년 12월엔 인공지능의 윤리적 문제와 관련된 사건이 큰 관심을 받았습니다. 이 달에는 오픈AI가 GPT-3의 편향성과 관련한 논란을 겪는 동안, 기술 업계에서는 인공지능의 유해성과 통제 부재에 대한 강한 비난이 제기되었습니다.
대형 언어모델은 때로 부정확한 정보를 전달하거나 혐오 발언을 생성하는 등 공헌성 문제를 야기했습니다. 이 문제에 대한 해결책과 책임의 배분이 필요한 상황에서, 연구자들은 빅테크 기업들이 이에 대한 책임을 더 많이 져야 한다는 주장을 내놓았습니다.
특히, 구글 인공지능 윤리 팀의 공동 대표였던 팀닛 게브루가 대형 언어모델과 관련된 잠재적 위험성을 강조하는 논문을 발표하면서 논란이 커졌습니다. 하지만 구글의 고위 관리자들은 이 논문을 부정적으로 평가하며 게브루를 해고하였습니다. 이 사건은 인공지능 개발과 윤리에 대한 열띤 논의를 촉발시켰으며, 2020년 12월의 중요한 사건 중 하나로 기록되고 있습니다.
2022년 1월: 인스트럭트GPT와 언어모델의 발전
2022년 1월, 오픈AI는 GPT-3 모델이 잘못된 정보나 불쾌감을 유발하는 텍스트를 생성하는 문제에 대한 개선을 모색하였으며, 이를 위해 강화학습을 이용하여 GPT-3 모델을 개선했습니다.
인스트럭트GPT라는 새로운 모델은 인간 평가단의 피드백을 반영하여 훈련되었습니다. 이 결과, 인스트럭트GPT는 사용자의 지시를 더 잘 따르며, 정렬된 기술에 걸맞게 동작합니다. 이 모델은 불쾌한 언어를 생성하거나 잘못된 정보를 제공하는 경우가 전반적으로 감소하여, 이용자가 요구하지 않는 한 나쁜 내용을 생성하지 않습니다.
2022년 1월, 인스트럭트GPT의 등장은 언어모델과 인공지능의 개발에서 중요한 발전 중 하나를 나타내며, 보다 안전하고 윤리적인 인공지능의 발전을 지향하는 오픈AI의 노력을 대표하게 됩니다.
2022년 5월~7월: 대형 언어모델의 공개와 협업
2022년 5월부터 7월까지, 대형 언어모델과 관련된 중요한 사건 중 하나는 OPT와 블룸입니다. 대형 언어모델을 구축하고 학습하는 과정에는 막대한 비용이 들어가기 때문에 부유한 연구소가 아니면 이를 개발하기 어렵다는 문제가 제기되었습니다.
인공지능의 발전과 연구의 투명성을 위해서는 AI 연구 커뮤니티 간의 교류와 감시가 필요합니다. 그러나 기업 내부의 소규모 팀이 비공개적으로 강력한 언어모델을 개발할 수 있다는 우려가 생겼습니다. 이에 대응하여 몇몇 협업 프로젝트들은 대형 언어모델을 개발하고 기술을 연구하고 개선하기 위해 모든 연구자들을 대상으로 이를 무료로 공개하였습니다.
메타는 GPT-3를 개조한 언어모델 OPT를 개발하고 이를 무료로 배포했습니다. 또한 자연어처리 스타트업인 허긴 페이스는 약 1,000명의 연구자로 구성된 컨소시엄을 이끌고 블룸을 구축하여 이를 공개했습니다. 이러한 노력은 대형 언어모델의 공개와 협업을 촉진하고 AI 연구의 발전을 뒷받침하는 중요한 단계로 기록됩니다.
2022년 12월: 챗GPT – 모두의 대화 파트너
2022년 12월, 오픈AI의 챗GPT가 출시되면서 대화형 AI의 새로운 시대가 열렸습니다. 챗GPT는 오픈AI의 대형 언어모델 GPT-3을 기반으로 한 대화형 인공지능입니다.
온라인에 출시되기 전, 오픈AI는 챗GPT를 소개하는 첫 번째 데모 버전을 제공했는데, 이 때 챗GPT는 인스트럭트GPT의 한 단계 진보된 형태로 소개되었습니다. 인스트럭트GPT와 마찬가지로 챗GPT는 사람 평가단을 통해 평가를 받고 강화학습을 통해 성능을 향상시켰습니다.
챗GPT는 대화에서의 유창성, 정확성, 비공격성 등 다양한 측면에서 뛰어난 성능을 보여주며, 이제 모든 사람이 챗GPT와의 대화를 즐길 수 있도록 공개되었습니다. 그리고 현재는, 수백만 명의 사람들이 이 대화형 AI와의 상호 작용을 통해 미래의 대화 파트너를 만들어가고 있습니다.
마치며
이 글을 통해 우리는 언어모델의 발전사를 살펴보았습니다. 1980년대의 순환신경망부터 2022년 12월의 챗GPT까지, 언어모델은 혁신적인 발전을 거듭하며 우리의 디지털 세계에 큰 영향을 미쳤습니다.
언어모델은 대화형 AI, 기계 번역, 자동 요약, 콘텐츠 생성 등 다양한 분야에서 활용되고 있으며, 새로운 가능성을 계속해서 탐구하고 있습니다. 그러나 이러한 발전과 함께 주목해야 할 윤리적, 사회적 문제들도 발생하고 있습니다. 언어모델은 편향성과 유해한 콘텐츠 생성과 같은 문제에 직면하고 있으며, 이를 해결하기 위한 연구와 노력이 이루어지고 있습니다.
물론 미래에는 더욱 강력하고 윤리적으로 발전한 언어모델을 기대할 수 있을 것으로 기대됩니다. 이러한 모델은 우리의 일상생활을 더욱 편리하게 만들고, 다양한 분야에서 혁신적인 해결책을 제공할지도 모릅니다. 하지만 이러한 발전은 항상 주의 깊은 감시와 윤리적 고려가 필요한 동반자로서 나아가야 함을 기억할 필요가 있습니다.
언어모델의 미래는 끝없는 탐구와 발전의 여정이며, 이러한 여정에서 우리는 기술의 가능성을 최대한 활용하면서도, 사회적 책임을 절대 잊지 않아야함을 기억해야 합니다.