상세 컨텐츠

본문 제목

구글·오픈AI, AI 모델 환각률 0%대 진입

AI

by spacenews 2025. 2. 10. 16:34

본문

반응형

구글과 오픈AI의 최신 인공지능(AI) 모델이 환각률 0%대를 기록하며 성능 개선의 새로운 이정표를 세웠다. 환각률은 AI가 부정확한 답을 생성하는 비율로, 이제 AI는 질문 100개 중 99개 이상에 대해 옳은 답을 제공할 수 있는 수준에 도달했다.

9일 벡타라의 환각률 벤치마크(HHEM)에 따르면, 구글의 제미나이 2.0은 환각률 0.7%를 기록하며 상용 모델 중 가장 낮은 수치를 보였다. 이는 전작 제미나이 1.5 플래시(3.4%) 대비 2.7%p 개선된 수치다. 오픈AI 역시 최근 발표한 o3 미니 하이 모델이 환각률 0.8%를 기록하며 1% 미만 진입에 성공했다.

 

https://github.com/vectara/hallucination-leaderboard?tab=readme-ov-file

 

벤치마크에서 0%대를 기록하고 있는 것은 두 기업뿐이다. 해당 벤치마크는 특정 문서를 AI에 준 다음 답변 성능을 분석하는 방식으로 산정됐다. 업계에서는 모든 사례의 환각을 측정하지 못한다는 한계가 있지만 추론 정확도가 빠르게 개선되는 추이는 볼 수 있다고 설명했다. 환각률이 0%대에 진입했다는 것은 AI가 실수할 확률이 낮아지고 있음을 의미한다. AI 모델 사용 초기에는 이 같은 환각 현상이 상대적으로 심했으나 사후 훈련이 강화되고 문서 해석 중 AI가 맥락을 놓치는 문제 등도 해결되면서 꾸준히 환각률도 좋아졌다.

 

업계에서는 환각률이 꾸준히 개선되면서 자연스럽게 AI 모델에 대한 신뢰성이 계속 상승할 것으로 보고 있다. 이는 답변을 넘어 AI가 보다 많은 행동을 수행하도록 하는 에이전트 서비스 활성화 흐름과도 맞물린다. 가령 판례를 분석하고 법률 자문을 해주는 법률 에이전트나 보험상품 관련 업무에 응대하는 보험 에이전트 등 실수가 용납되지 않은 영역에서 AI 활용도 늘어날 수 있다. AI의 성능 향상은 단순 답변을 넘어 다양한 도메인에서 인간의 역할을 대체하거나 보완할 플랫폼으로의 발전 가능성을 열고 있다.

 

중국의 딥시크 모델은 상대적으로 높은 환각률을 기록하고 있다. 딥시크의 거대언어모델(LLM)인 딥시크 v2.5가 환각률 2.4%를 나타냈다. 추론에 특화한 딥시크 r1은 이보다 높은 14.3%를 보였다. 벡타라 연구진은 딥시크의 결과에 대해 "보다 정밀하게 모델을 훈련시켰다면 적어도 이러한 수준의 성능 저하는 피할 수 있었을 것"이라고 분석했다.

 

은이은 | unyiun@outlook.kr 

반응형

관련글 더보기