현대 기술의 중심에 있는 생성형 AI, 즉 인공지능 알고리즘은 우리의 세상을 혁신하고 있으며, 이런 혁신적인 기술이 미래를 어떻게 바꿀지에 대한 관심은 더 커지고 있습니다.
생성형 AI 알고리즘은 예술 작품을 창작하거나 놀라운 형식의 긴 글을 작성하는 데에도 사용되며, 모든 기업의 최고 정보 책임자와 최고 경영자들은 이러한 AI 기술이 비즈니스 영역을 어떻게 혁신시킬지에 대한 논의를 이어가고 있습니다.
이런 모든 변화들은 비즈니스 환경을 예전과는 다른 모습으로 바꾸고 있지만, 아직 생성형 AI 기술은 아직 초기 단계에 있습니다. 하지만, 그 가능성은 이미 주목할 만하며, 이 기술은 비즈니스 워크플로우의 여러 단계에서 사용될 것으로 예상됩니다. 또한, 이를 위한 여정은 계속되고, 또 발전할 것입니다.
그렇지만 이러한 기술이 현실로 구현되면서 다양한 문제와 고민도 동반되고 있습니다. 이에 따라 우리는 생성형 AI의 어두운 면을 한번 쯤 짚어 볼 필요가 있습니다. 많은 종말론자들은 영화 “터미네이터”와 같은 경제적인 파괴와 인간 및 동물의 노예화가 진행될 것이란 우려를 표하고 있지만, 이런 최악의 시나리오가 아니더라도 여기에는 여전히 중요한 고려사항들이 존재합니다.
우리가 고려해야 할 생성형 AI 알고리즘의 어두운 면은 무엇일까요? 오늘은 이에 대해 자세히 알아보겠습니다. 이것은 단순히 기술적인 성취에 대한 관점이 아니며, 기술을 적절하게 활용하고 조절하기 위한 관점이기도 합니다.
1. 느닷없는 오류를 생성하는 LLM의 무작위성
생성형 AI를 사용하다 보면, 대규모 언어 모델이 가히 마법과도 같은 능력을 보이는 순간이 있습니다. 예를 들면, 1,000단어 분량의 에세이를 순식간에 작성하거나, 모래두루미의 짝짓기 의식부터 17세기 동유럽 건축에서의 크레뉼레이션의 중요성에 이르기까지 다양한 주제에 대해 탁월한 글을 쓰는 순간들입니다. 그렇지만 이 마법같은 힘은 때때로 느닷없는 오류를 생성하는데 사용되기도 합니다.
LLM은 대학 교육을 받은 영어 전공자 수준의 언어 능력을 갖추고 있으며, 대부분의 경우 문법적으로 정확한 내용을 생성합니다. 그렇지만, 무작위성의 오류로 LLM은 가끔 초등학교 4학년생처럼 속임수를 부리거나 허구의 정보를 만들어냅니다.
이런 현상은 LLM의 동작 원리 때문에 불가피한 부분입니다. LLM은 단어를 선택하고 문장을 조립할 때 확률을 기반으로 선택하기 때문이죠. 이 과정에서 가끔 잘못된 선택을 하기도 합니다. LLM은 대규모 데이터를 기반으로 한 통계적 확률을 기초로 하기 때문에, LLM을 가르칠 수 있는 진정한 “지식”이나 “의식”은 존재하지 않습니다.
이를 매우 단순화해서 말한다면, LLM 그저 확률적인 계산에 의해 작동하는 기계일 뿐이라는 것이죠. 때문에 가끔은 주사위를 던져 규칙을 찾는 라스베가스의 도박꾼과 유사한 행동을 하기도 합니다.
LLM의 이런 무작위성은 LLM의 창의성과 예측 불가능한 특징을 부각시키지만, 동시에 오류를 생성하는 원인 중 하나입니다. 그렇기 때문에 우리는 항상 LLM이 생성한 내용을 신중하게 검토하고, 정보의 정확성을 확보하기 위해 인간의 판단력을 추가로 투입해야 합니다.
2. LLM과 정보의 복잡한 관계로 인한 데이터 필터링의 난제
어떤 정보는 공개하고, 어떤 정보는 내부에만 알리는 정교한 지식 계층은 인간 사회의 중요한 특성 중 하나입니다. 이런 계층 구조는 군대의 분류 체계와도 비슷한 면이 있습니다. 또한 많은 기업도 이와 유사한 계층 구조를 가지고 있습니다. 그러나 이러한 계층 구조를 유지하고 관리하는 것은 IT 부서 및 CIO의 매우 번거로운 과제 중 하나입니다.
하지만 대규모 언어 모델은 이러한 분류 작업에는 미숙합니다. 컴퓨터는 엄격한 규칙을 따르며 거대한 데이터 카탈로그를 관리할 수 있지만, 정보를 공유하거나 숨기는 데는 한계가 있습니다. LLM은 모든 정보를 거대한 확률 집합으로 다루며, 마르코프 체인을 따라 연쇄적으로 생성합니다.
때로는 LLM이 확률을 활용하여 민감한 정보와 일반 정보를 조합하고 비밀을 유추하는 것으로 보이는 순간들이 있습니다. 하지만 현재로서는 LLM은 매우 공개적인 시스템이며, 유출이 되어도 큰 문제가 되지 않는 정보만을 다루는 것이 바람직합니다.
LLM의 사용이 일반화 됨에 따라, 이미 데이터 유출 및 LLM의 가드레일 우회와 관련된 일부 사례가 발생하고 있습니다. 일부 기업은 데이터 유출 방지 도구를 개발하려고 노력하고 있지만, 이러한 문제를 해결하는데는 시간이 필요합니다. 그 동안 기업의 CIO는 제공되는 데이터에 대한 엄격한 통제를 유지하고, 모든 신중하게 다룰 필요가 있습니다.
마르코프 체인이란 확률 이론과 통계학에서 사용되는 수학적 모델 중 하나로, 시간에 따른 확률적인 변화를 모델링하는 데 사용되는데, 특정 조건 아래에서 현재 상태에만 의존하여 미래 상태를 예측하는데 활용되는 모델입니다.
3. 게으름을 유발시키는 AI와 인간의 상호작용
인간은 종종 기계나 인공지능을 믿음직한 도구로 여깁니다. 특히 업무 부담을 줄여주는 경우, 이 신뢰는 더욱 강화되기 마련이죠. 그래서 우리는 대부분의 경우, 대규모 언어 모델이 정확하게 작업을 수행해주면 우리는 이를 신뢰하고 의존하게 됩니다.
때문에 인간에게 AI를 이중으로 점검하도록 요구하는 것은 종종 효과가 없습니다. AI의 정확성에 익숙해지면, 인간은 기계가 올바르게 작동할 것이라 믿고, 결과적으로 나태해지는 경향이 있습니다.
생성형 AI의 덕분에 인간은 더 생산적이고 창의적인 작업에 집중할 수 있게 되었지만, 이러한 혜택과 함께, 인간은 스스로 사고하는 것을 멈추고 기계에 의존하는 경향이 생기고 있습니다. 이는 기업에서도 문제가 될 수 있는데, 모든 사람이 생각하거나 문제를 해결하는 능력을 상실한다면, 기업은 결국 창의적이고 혁신적인 아이디어를 생각해내는 것을 포기할 수 밖에 없기 때문이죠.
이런 게으름의 유발은 결국, AI와 인간의 상호작용의 결과라고 할 수 있습니다. 우리는 AI를 도구로 활용하되, 항상 인간의 창의성과 사고 능력을 유지하고 향상시키는 노력을 하는 것이 중요합니다. AI가 일상적인 작업을 처리하는 동안, 우리는 비즈니스 및 사회적인 문제에 대한 심층적인 분석이나 창의성을 유지하기 위해 깊은 사고를 하는 등의 노력을 해야 합니다.
4. LLM 사용에 따른 알 수 없는 실제 비용
대규모 언어 모델의 사용에 따른 정확한 비용은 누구도 정확히 알지 못합니다. 많은 API 서비스에는 토큰당 비용이 명시되어 있는 가격표가 있지만, 이러한 가격은 대개 벤처 캐피털로부터 많은 보조금을 받아 책정된 경우가 많다고 합니다. 이런 보조금 덕분에, 초기에는 LLM 사용이 비교적 저렴하게 느껴질 수 있습니다.
하지만 이런 가격이 예상대로 계속 유지될 것이라고 확신하기는 어렵습니다. 비즈니스 모델과 투자자들의 지원에 따라 가격이 크게 변동할 수도 있습니다. 예를 들어, 우버와 같은 서비스도 투자자들의 지원이 줄어들면서 가격을 올린 사례가 있었습니다.
또한 LLM을 로컬 환경에서 실행하려면 고성능 비디오 카드와 같은 하드웨어를 갖추어야 하는데, 이로 인한 추가 비용도 무시할 수 없습니다. 물론 LLM을 로컬에서 실행하는 것이 더 저렴한 옵션이 될 수도 있지만, 하드웨어를 유지하고 관리함에 따라 발생되는 비용은, 필요할 때만 비용을 지불하면 되는 클라우드 서비스보다 저렴하지 않을 수도 있습니다.
따라서 LLM 사용에 따른 실제 비용은 현재로서는 확실하지 않으며, 앞으로의 경제적 부담에 대한 불확실성이 존재할 수 밖에 없습니다. 비용은 기업이나 개인이 LLM을 활용할 때 고려해야 할 중요한 요소 중 하나입니다.
5. 생성형 AI의 저작권에 대한 법적 문제
ChatGPT와 같은 고성능의 대규모 언어 모델은 학교 숙제나 대학 입학 에세이 작성과 같은 일반적인 업무를 처리하는 데에도 사용될 수 있을 만큼 발전하고 있습니다. 그러나 대부분의 기업에서는 업무에 특수한 요구사항을 가지는데, 각 비즈니스에 따라 결과를 맞춤화해야 하기 때문입니다. 이에 따라 기본적인 LLM은 기반을 제공할 수 있지만, 여전히 많은 훈련과 미세 조정이 필요할 수 있습니다.
하지만, 이러한 훈련 데이터를 어떻게 구성해야 하는지에 대한 탁월한 방법은 아직 없습니다. 일부 기업은 자체적으로 통제할 수 있는 데이터 세트를 보유하고 있지만, 대부분의 기업은 저작권과 관련된 법적 문제가 아직 해결되지 않았음을 인지하고 있어야 합니다.
일부 작가들은 자신의 글이 AI 훈련에 사용되는 것에 대한 동의를 구하지 않았다며 소송을 제기하고 있으며, 일부 아티스트는 자신의 작품이 무단 도용되었다고 주장하고 있습니다. 또한 개인 정보 보호 문제도 여전히 미해결 된 상태입니다. 이로 인해 기업들은 다음과 같은 중요한 질문들을 고민해 봐야 합니다.
- 고객 데이터로 AI를 훈련시킬 수 있을까?
- 저작권 문제는 어떻게 해결할 것인가?
- 올바른 법적 절차와 혁신을 충족시킬 수 있는가?
- 데이터는 올바른 형식으로 사용될 수 있는가?
기업들은 이러한 법적 문제와 윤리적 고민을 해결하기 위해 노력하고 있지만, 아직 완벽한 해결책은 나오지 않았습니다. 이는 맞춤형 AI를 개발하는 것이 어려운 이유 중 하나입니다.
6. 특정 벤더에 대한 종속 문제
이론적으로 AI 알고리즘은 사용자 인터페이스의 다양한 복잡성을 추상화한 도구로서, 유연성과 상호 운용성을 갖춰야 합니다. 그렇지만 실제로는 이러한 이상과 괴리가 발생하고 있으며, AI 시스템의 벤더 종속성이 문제의 원인 중 하나로 지목됩니다.
API는 개념적으로 간단하지만, JSON 구조와 같은 호출에 필요한 세부 정보의 차이로 인해 각각의 벤더 간에 호환성 문제가 발생합니다. 더욱 중요한 것은 깊숙이 숨겨진 벤더 종속성 요소입니다. API가 비슷하더라도 프롬프트 구조와 같은 미묘한 차이로 인해 AI 시스템의 전환이 어려워질 수 있습니다.
이러한 벤더 종속성은 특히 AI 시스템을 다른 벤더로 마이그레이션하려는 기업에게 큰 도전입니다. 기존 벤더와의 종속성으로 인해 코드를 재작성하고 다양한 호환성 문제를 해결해야 할 수도 있습니다. 이는 시스템의 전환 과정을 복잡하게 만들며, 비즈니스 연속성에 영향을 미칠 수 있습니다.
따라서 기업은 AI 솔루션을 선택할 때 벤더 종속성 문제를 신중하게 고려해야 하며, 장기적인 유연성과 호환성을 고려하는 것이 중요합니다.
7. 여전히 피상적인 AI의 지능
AI 기술이 빠르게 발전하고 있지만, 이러한 발전이 피상적인 지능의 한계를 넘어서진 못하고 있습니다. 많은 사람들이 AI에 대한 오해와 착각을 품고 있는데, 이미 친숙한 자료나 정보에 익숙하다고 해서 깊이 있는 이해를 가지고 있다는 것을 의미하는 것은 아니기 때문입니다.
알렉산더 포프는 “어설프게 배우는 것은 안 배우는 것만 못하다”라고 지적했으며, 이는 단순히 정보를 습득하는 것만으로는 진정한 지능을 갖추지 못한다는 것을 의미합니다.
어설프게 배우는 것은 안 배우는 것만 못하다.
알렉산더 포프
고대 철학자들도 비슷한 주제를 다뤘습니다. 소크라테스는 “이 모든 지식에도 불구하고 나는 사실 아무것도 모른다”라고 결론 내렸으며, 세익스피어는 “현명한 사람은 자신이 어리석다는 것을 안다”라고 말했습니다. 이러한 철학적인 관점은 지식과 지능은 표면적인 정보 습득이 아니라 깊은 이해와 사고 과정을 필요로 한다는 것을 의미합니다.
이 모든 지식에도 불구하고 나는 사실 아무것도 모른다.
소크라테스
현명한 사람은 자신이 어리석다는 것을 안다.
세익스피어
따라서 생성형 AI이 내놓는 대답들이 그럴듯하게 보일 수는 있지만, 실제로는 확률적 통계에 의한 단어들의 얄팍한 조합에 불과하고, 진정한 깊이 있는 이해나 지능은 아직 갖추지 못하고 있는 것으로 보입니다.
마치며: AI의 현재와 미래
이번 글에서는 다양한 주제에 대한 AI 기술의 어두운 면을 살펴보았습니다. 우리는 이 모든 주제에서 AI 기술의 현재 상태와 함께 앞으로의 도전과 발전 가능성을 염두에 두어야 합니다.
AI는 우리에게 많은 혁신과 기회를 제공하지만, 그에 따른 책임과 윤리적 고민도 함께 고려할 필요가 있습니다. AI와의 건설적인 미래는 우리의 선택과 노력에 달려 있으며, 이를 현명하게 활용함으로써 더 나은 세상을 구축하는 데 도움이 될 것이라 생각됩니다.
참고 자료: Peter Wayner, “7 dark secrets of generative AI”