인공지능은 미래의 세상을 구상하는 데 필수적인 도구가 되었으며, 그 중에서도 대화형 AI인 ChatGPT는 특히 주목받고 있습니다. 그러나 ChatGPT가 독보적인지, 혹은 최적의 LLM인지를 판단하는 것은 필연적으로 논란을 일으키는 주제입니다. 이 글에서는 ChatGPT와 함께 다른 14개의 LLM에 대해 소개하고, 이들 간의 벤치마킹 방법에 대해 알아보겠습니다.
AI와 LLM
AI에는 다양한 모델이 있으며, 각 모델은 특성, 강점, 약점 등을 가지고 있습니다. 그 중에서도 생성형 AI는 초기에 놀랍게 보일 수 있으나, 시간이 지남에 따라 그 한계가 분명해집니다. 이는 ChatGPT와 같은 대화형 AI 모델에도 마찬가지입니다.
LLM 벤치마킹: 측정의 어려움
그렇다면, 어떻게 LLM을 평가할 수 있을까요? 이는 상당히 복잡한 문제입니다. 모델의 범위와 응용 분야가 다양하기 때문에 LLM의 품질을 과학적으로 측정하는 것은 매우 어렵습니다. Hugging Face의 오픈 LLM 리더보드 같은 리소스를 참조할 수 있지만, 이것이 완벽한 해결책은 아닙니다.
LLM 전환: 모델간의 연결성
다양한 LLM 사이를 전환하는 것은 상대적으로 더 쉽습니다. Open LLM과 FastChat과 같은 프로젝트는 서로 다른 모델을 더 쉽게 연결할 수 있게 해줍니다. 이런 접근법은 여러 모델을 병렬로 실행할 수 있게 하고, LLM의 다양성을 증가시킵니다.
LLM의 비용: 막대한 자원과 시간
LLM은 큰 비용이 따르는 프로젝트입니다. 대규모 언어 모델을 구축하는 데는 시간과 자원이 크게 소요되는데 반해, 이를 유지하고 수익화하는 방법은 아직 확실치 않습니다. 일부 기업은 오픈소스화를 실험하고 있지만, 이는 모델을 계속 지원할 수 있는 능력이 뒷받침되어야 합니다.
다양한 영역에서 혁신적인 기술을 선보이는 LLM 모델들
챗GPT가 대세이지만, 현재 사용 가능한 다른 14가지 LLM도 있습니다. 이 모델들은 각각의 특성을 가지고 있고, 특정 프로젝트에 더 적합한 모델이 될 수 있습니다. 그렇다면 어떤 모델을 선택해야 할까요? 프롬프트를 진행하고, 결과를 신중하게 평가하는 것이 이들 LLM 중에서 가장 적합한 모델을 선택하는 가장 확실한 방법입니다.
AI와 LLM의 세계는 매우 복잡하고, 지금도 계속 발전하고 있습니다. 챗GPT와 같은 인공지능이 주목받고 있지만, 다양한 LLM을 평가하고 벤치마킹하는 것도 중요하다는 것을 잊어서는 안됩니다. 이렇게 함으로써, 우리는 가장 적합한 도구를 선택할 수 있고, 기술의 미래를 더욱 확실하게 예측할 수 있을 것이기 때문입니다.
언어 모델의 세계는 멈추지 않고 발전하고 있습니다. 오늘은 다양한 목적으로 개발된 LLM 모델들을 중심으로 새로운 변화와 흥미로운 기능들을 살펴보겠습니다.
-
참고 링크
- Open LLM Leaderboard: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
- OpenLLM: https://github.com/bentoml/OpenLLM
- FastChat: https://github.com/lm-sys/FastChat
라마: 개방적인 과학을 위한 약속
메타는 ‘라마’라는 이름의 언어 모델을 만들었고, 이를 ‘개방적인 과학을 위한 약속’에 따라 공개했습니다. 이 모델은 특정 응용 분야에 맞게 더 세부적으로 튜닝된 모델을 만들 수 있게 해줍니다. 예를 들어, 라즈베리 파이와 같은 RAM 용량이 4GB에 불과한 기기에서도 라마를 실행하는 등 예상치 못한 여러 사용처가 등장하고 있습니다.
- LLaMA: https://ai.meta.com/blog/large-language-model-llama-meta-ai/
- LLaMA git: https://github.com/facebookresearch/llama
알파카와 비쿠나: 라마 기반의 LLM
라마 모델을 기반으로 한 ‘알파카’와 ‘비쿠나’는 챗GPT와 같은 지시 추종 모델을 모방하였습니다. 특히 ‘알파카’는 일반 사람도 질문을 하고 지시를 내려 접근할 수 있게 하며, 가벼운 하드웨어에서도 실행할 수 있게 설계되었습니다. ‘비쿠나’는 다중 회차 상호작용과 지시 추종 기능에 주안점을 두었으며, 가격 경쟁력이 가장 높은 모델로 인터랙티브 채팅을 제공합니다.
- Alpaca: https://crfm.stanford.edu/2023/03/13/alpaca.html
- Stanford Alpaca: https://github.com/tatsu-lab/stanford_alpaca
- LMSYS ORG: https://lmsys.org/blog/2023-03-30-vicuna/
- vicuna 7b: https://huggingface.co/lmsys/vicuna-7b-delta-v1.1
노드패드: 사용자의 상상력 자극
‘노드패드’는 ‘언어적으로 정확한’ 텍스트를 생성하는 것이 아니라 사용자의 탐구력과 상상력을 자극하는 것에 중점을 두었습니다. 그 결과는 ‘마인드 매핑 툴’에서 볼 수 있는 ‘노드’와 ‘연결’로 표현되며, 사용자는 표현에 매몰되지 않으면서 모델의 방대한 지식을 이용해 좋은 아이디어를 얻을 수 있습니다.
- nodepad: https://nodepad.space/
오르카: 규모가 아닌 효율성 추구
‘오르카’는 마이크로소프트 연구팀이 개발한 모델로, 1세대 LLM들이 커지는 추세에 반해 작은 규모를 유지하며 효율성을 추구합니다. 설명 트레이스, 단계별 사고 프로세스, 지시를 사용하도록 학습 알고리즘을 강화하여, 인간처럼 더 빠르게 학습하는 것을 목표로 하였습니다.
재스퍼: 콘텐츠 제작에 초점
‘재스퍼’는 똑똑한 제너럴리스트가 아니라 콘텐츠 제작에 초점을 두었습니다. 이 시스템은 아마존과 같은 사이트를 위한 제품 기능 설명과 같은 특정 작업을 위해 50가지 이상의 템플릿을 제공하며, 일관된 어조의 마케팅 문구를 만들어내는 것을 목표로 합니다.
- jasper: https://www.jasper.ai/
클로드: 기업의 많은 텍스트 기반 잡무 처리
‘클로드’는 기업의 많은 텍스트 기반 잡무를 처리할 수 있는 비서를 목표로 합니다. 사용자에게 더 높은 제어 능력을 부여하기 위해 긴 프롬프트를 의도적으로 허용하며, 복잡하고 구조적인 추론이 필요한 작업에 적합한 완전한 모델과, 분류, 조정과 같은 단순한 작업에서 더 빠르고 효과적인 간소화된 버전이 제공됩니다.
- anthropic: https://www.anthropic.com/
세레브라스: 하드웨어와 AI 모델의 조화로운 동반 발전
‘세레브라스’에 대해 얘기해보겠습니다. 전문적인 하드웨어와 AI 모델이 공생하는 세레브라스의 독특한 접근 방식은 빠르고 효율적인 솔루션을 제공하는데 큰 역할을 합니다. 세레브라스는 사용자가 로컬에서 작은 크기(1억 1,100만 매개변수)부터 큰 크기(130억 매개변수)까지 다양한 크기의 LLM을 운용할 수 있게 합니다. 이는 허깅 페이스를 통해 제공되는 서비스입니다. 하지만 많은 사용자들이 세레브라스의 클라우드 서비스를 선호하는 것을 확인할 수 있습니다. 그 이유는 클라우드 서비스가 대규모 학습 세트를 처리하는데 최적화된 세레브라스 자체의 웨이퍼 스케일 통합 프로세서에서 운용되기 때문입니다.
- cerebras: https://huggingface.co/cerebras
팔콘: 아랍에미리트 연합국의 AI
‘팔콘’은 아랍에미리트 연합국의 기술 혁신 연구소에서 만든 모델로, 완전한 버전인 falcon-40b와 그보다 작은 falcon-7b 등이 있습니다. TII는 리파인드웹의 대규모 일반 예제 세트를 사용해 팔콘 모델을 학습시키는데, 그 목적은 추론 개선에 있습니다. 팔콘은 아파치 2.0 라이센스를 따르므로 가장 개방적이고 제약이 없는 모델 중 하나라고 할 수 있습니다.
- falcon 40b: https://huggingface.co/tiiuae/falcon-40b
- falcon 7b: https://huggingface.co/tiiuae/falcon-7b
이미지바인드: 메타의 AI 혁신이 만들어낸 다양성
메타는 소셜 미디어 뿐만 아니라 오픈소스 소프트웨어 개발 분야에서도 큰 영향력을 발휘하고 있습니다. AI에 대한 관심이 급증하고 있는 이 시점에서 메타는 자체적인 여러 혁신을 공유하기 시작했습니다. 그중 하나가 바로 ‘이미지바인드’입니다. 이 프로젝트는 AI가 텍스트, 오디오, 비디오 등 여러 유형의 데이터를 어떻게 동시에 생성할 수 있는지를 보여주는 데 목적이 있습니다. 다시 말해, 생성형 AI는 허락만 된다면 상상의 세계 전체를 만들어낼 수 있다는 메시지를 전달하고 있습니다.
고릴라: 코드 작성 생성형 AI의 진화
생성형 AI를 사용한 코드 작성은 얼핏 인상적일 수 있지만, 실제로는 여러 결함을 내포하고 있습니다. 예를 들어, 구문은 정확하지만 API 호출이 모두 틀렸거나, 존재하지 않는 함수를 가리키는 등의 문제가 있습니다. 고릴라는 이러한 문제를 해결하기 위해 설계된 프로그래밍 인터페이스 부문의 LLM입니다. 고릴라 개발진은 라마로 시작해 문서에서 직접 스크랩한 심층적인 프로그래밍 세부 사항에 중점을 두고 세밀하게 튜닝했습니다. 더불어, 고릴라팀은 성공 여부를 테스트하기 위한 자체적인 API 중심 벤치마크 모음도 제공합니다. 이는 AI를 코딩 비서로 활용하고자 하는 프로그래머에게 중요한 추가 기능이라 할 수 있습니다.
- Gorilla: https://gorilla.cs.berkeley.edu/
오라: 나만의 챗봇
하루하루 발전하는 AI 기술은 이제 우리에게 개인화된 도우미를 제공합니다. ‘오라’를 예로 들면, 사용자가 특정 작업에 최적화된 자신만의 맞춤형 챗봇을 만들 수 있는 시스템을 제공합니다. 오라의 주요 기능 중 하나인 라이브러리안GPT는 책에 나온 구절을 그대로 사용해서 질문에 답합니다. 예를 들어, “프로페서 칼 세이건”이라는 봇은 세이건의 모든 저서에서 지식을 가져와 질문에 답해 줍니다. 이처럼 나만의 봇을 만들어볼 수도 있고, 이미 다른 사람들이 만든 수백 개의 봇 중 하나를 사용해볼 수도 있습니다.
- ora.ai: https://ora.ai/
에이전트GPT: 애플리케이션 개발의 도우미
‘에이전트GPT’는 애플리케이션에 필요한 모든 코드를 엮어주는 또 다른 도구입니다. 휴가 계획을 세우거나, 게임을 위한 코드 작성 등 다양한 작업에 사용할 수 있는 에이전트를 생성할 수 있습니다. 기술 스택 소스 코드의 대부분은 GPL 3.0에 따라 사용할 수 있으며, 서비스 형태로 제공되는 버전도 있습니다. 이를 통해 개발자들은 코드 작성 과정을 보다 간편하고 효율적으로 만들 수 있습니다.
- agentgpt: https://agentgpt.reworkd.ai/ko
- agentgpt git: https://github.com/reworkd/AgentGPT
프루글GPT: 효율성과 가치
실용성을 가장 우선시하는 이들에게는 ‘프루글GPT’가 주목받을 만한 모델입니다. 사실, 이것은 특정한 모델을 가리키는 것이 아니라 가장 효율적인 방법으로 질문에 답하는 전략을 지칭하는 용어입니다. 프루글GPT를 개발한 연구진은 “가장 큰, 가장 비싼 모델로 모든 질문에 답해야 한다는 것은 비효율적이다”라는 사실에 주목했습니다.
프루글GPT의 독특한 접근 방식은 가장 단순한 LLM부터 시작하여 효과적인 답변을 얻을 때까지 점진적으로 더 복잡한 모델로 이동하는 것입니다. 연구진의 실험에 따르면, 이런 신중한 방법을 통해 비용을 최대 98%나 절감할 수 있다고 합니다. 이는 특히 비용 문제로 인해 최고 수준의 AI 솔루션을 이용하는 데 어려움을 겪는 사용자나 기업에게 매우 유익한 접근법일 것입니다.
- FrugalGPT: https://arxiv.org/abs/2305.05176
결론
이렇게 다양한 분야에서 AI와 머신러닝 기술이 적용되고 있습니다. 이러한 기술은 우리 일상에서 더욱 효율적이고 스마트한 활동을 가능하게 해주는 중요한 역할을 하고 있습니다. 특히 모델들의 다양성과 끊임없는 발전은 인공지능 분야의 흥미로운 성장을 보여줍니다. 여기서 소개한 모델들은 단지 시작에 불과한 만큼, 미래에는 이들을 뛰어넘는 다양하고 신선한 아이디어가 등장할 것으로 기대됩니다.