AI 인터뷰 및 최신 동향

Cohere 에이단 고메즈, "지능이 계속해서 기하급수로 증가하진 않을 것"

MinasAnor 2024. 7. 8. 13:59

CNBC 와의 인터뷰 직후, 에이단 고메즈는 추가 설명을 덧붙였다

 

이번 인터뷰 및 에이단 고메즈의 추가설명을 통해 핵심을 정리하면 다음과 같다.

  1. 2024년 7월 현재 및 직전의 모델들은 '이미' 인데이터와 합성데이터를 혼합해서 훈련시키고 있다. (이는 OpenAI의 샘 알트만의 최근 인터뷰를 통해서도 짐작할 수 있다. 샘은 다음 모델이 '처음으로' 합성데이터를 대량으로 훈련에 투입한 모델이 될 것이다고 언급)
  2. 앞으로의 모델은 분명히 '자기개선'을 할 것이다.
  3. 하지만 이 자기개선이 영원히 지속될 수는 없다. 스케일링이나 데이터에서 들인 노력과 마찬가지로 '선형적인 성능 증가'를 위해서도 '기하급수적인 노력'이 필요하고 동반될 것이다.
  4. 때문에 어느 시점이 되면 AI가 자기개선을 시작해 인류를 압도할 것이라는 주장들처럼 되긴 어렵다.

 

이미 합성데이터의 모델 투입은 시작되었다. 최근 에이단 고메즈는 Machine learning street talk 인터뷰에서 '합성데이터'의 활용법에 대해 재미있는 이야기를 한 바 있다.

 

인터넷 데이터는 마치 발자국과 같아서 '결과 값'만이 남아있다. 인간들이 생각하는 그 과정이나 중간 생각 흔적 등이 남아있지 않다. 생각의 끝에 생겨난 결과만이 남아있는 것이다. 이를 통해 모델을 학습하기 때문에 모델들의 추론능력이 '없는' 것이 아니라 '약하다'는 것이 그의 말이다.

 

그렇기 때문에 생각과정, 즉 추론의 중간단계를 '합성데이터'를 통해 만들어내 모델에게 학습시킨다는 것이다. 그는 시각데이터를 학습시키는 법에 대해서도 실제 촬영된 비디오 데이터가 제 1순위로 중요하며 그것이 부족하거나 없을 때에만 물리엔진을 통한 합성데이터를 첨가하는 것이 옳은 방법이라고 말했다.

 

그렇다면, LLM에서도 최대한 고퀄리티의 인간데이터를 수집하고, 그 결과값까지의 도출과정을 합성해서 모델에게 제시하는 방식으로 학습시키는 것이 현 시점 가장 추론능력이 높은 모델을 만들어가는 여러 방법 중 하나가 된다는 뜻이다.