BlindTest: 시각적 작업의 한계를 평가하는 새로운 벤치마크
최근 8개월 동안 GPT-4V와 같은 비전 언어 모델(VLM)의 등장으로 이미지-텍스트 처리 응용 프로그램이 급증했습니다. 이 모델들은 장면 내 객체를 정확하게 식별하고, 복잡한 작업을 수행할 수 있습니다. 예를 들어, 장면의 이미지와 메뉴 이미지를 바탕으로 테이블 위 맥주의 비용을 계산하는 것과 같은 작업이 가능하죠. 그러나 오늘 살펴볼 논문은 VLM이 특정 작업에서 놀라운 한계를 드러내며, 인간처럼 이미지를 인식하지 못하는지에 대한 의문을 제기합니다.
VLM의 한계를 드러내는 BlindTest
이 논문은 BlindTest라는 7개의 시각적 작업 세트를 제안합니다. BlindTest는 인간에게는 매우 쉬운 작업이지만, 최신 VLM에게는 큰 도전이 됩니다. 예를 들어, 두 원이 겹치는지 확인하거나, 이미지에서 모양의 개수를 세는 작업 등이 포함되어 있습니다.
Task 1: 교차점 수 세기
이 과제에서는 두 개의 선형 함수가 몇 번 교차하는지를 묻습니다. GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet, Claude-3.5 Sonnet 모델이 각각 48.67%, 69.67%, 64.00%, 77.33%의 정확도를 보였습니다. 이 결과는 VLM이 선의 교차 여부를 판단하는 데 어려움을 겪고 있음을 보여줍니다.
Task 2: 두 원의 상태 확인
이 과제에서는 두 개의 원이 서로 접촉하거나 겹치는지를 평가합니다. GPT-4o는 72.69%, Gemini-1.5 Pro는 92.78%, Sonnet-3는 84.52%, Sonnet-3.5는 91.66%의 정확도를 보였습니다. 이는 VLM이 원의 겹침 여부를 판단하는 데 어느 정도 성능을 보이지만, 여전히 개선이 필요함을 보여줍니다.
Task 3: 동그라미 친 문자 확인
이 과제에서는 다양한 문자열에 각 문자를 순서대로 동그라미 친 이미지를 생성하여, VLM이 어떤 문자가 동그라미로 표시되었는지 인식할 수 있는지 평가합니다. GPT-4o는 70.18%, Gemini-1.5 Pro는 92.81%, Sonnet-3는 73.34%, Sonnet-3.5는 89.22%의 정확도를 보였습니다. 이는 VLM이 동그라미 친 문자를 인식하는 데 어려움을 겪고 있음을 보여줍니다.
VLM의 한계와 향후 연구 방향
이 실험 결과는 VLM의 시각 인식 능력이 제한적임을 보여줍니다. 특히, 선분 교차점 세기, 두 원의 상태 확인, 동그라미 친 문자 확인 등의 작업에서 현저히 낮은 성능을 보였습니다. 이는 VLM이 세부적인 시각 정보를 정확하게 인식하지 못함을 시사합니다.
결론
VLM이 인간처럼 이미지를 인식하지 못하는 이유는 무엇일까요? BlindTest의 결과는 VLM의 시각적 이해 능력이 제한적임을 보여줍니다. 이러한 결과는 VLM의 시각적 기능을 향상시키기 위한 추가 연구와 개발의 필요성을 강조합니다. 향후 연구에서는 VLM의 시각적 인식 능력을 개선하기 위한 새로운 접근법이 필요할 것으로 보입니다. 예를 들어, 초기 융합(early fusion) 접근법을 사용하여 비전 모듈을 개선할 수 있습니다.