딥마인드 출신의 Reflection AI founder Misha Laskin가 아주 중요한 내용을 몇가지 언급했다.
그가 구글-딥마인드에서 나온 이유는 뭘까. 그의 흥미로운 이야기를 들어보자.
우선 Misha Laskin이 어떤 사람인지에 대해 파악해보면
2019년 이후, 특히 2023, 2024년의 인용수가 각각 1613, 2097로 최근 AI 업계에서 연구를 선도하고 있는 유망한 과학자다. Reflection AI의 공동창립자 Ioannis 는 알파고를 만들어낸 주축이자 Gemini의 RLHF 팀을 이끈 사람이기도 하다. 구글-딥마인드의 상당한 인력들이 '왜' 나온 것일까.
인터뷰를 들어보자.
Misha Laskin - 저는 물리학을 전공했고 박사학위까지 땄습니다. 하지만 알파고의 37수(move 37)을 보고, 신경망이 단순히 실수를 한 것인 줄 알았지만 그 수로부터 10수 후, 그 수가 최적의 수가 되어 알파고가 승리를 따내는 것을 보았습니다. 저는 그걸 보고 이건 무작위적인 통계가 아니고 창의적인 시스템이라는 것을 느꼈습니다. 이때부터 저는 에이전트에 빠지게 되었고 에이전트를 구축하기 위해 AI에 뛰어들게 되었죠.
- 처음에는 OpenAI 연구과학자들에게 질문을 퍼붓고 차갑게 비판하는 듯한 이메일을 주고 받으면서 시작했습니다. 지나고보니 제가 참 성가시게 한 것 같은데도 OpenAI 과학자들은 친절하게 답해주었죠. 그들 중 한 명이 제게 Pieter abbeel을 소개시켜주었습니다. 그는 강화학습과 로보틱스 분야에서 위대한 연구자로 손꼽는 사람입니다. 운이 좋았습니다. 그렇게 AI를 시작하게 되었으니까요.
- 현재 LLM 기반 에이전트들의 문제점은 다음과 같습니다. 우선 여러 단계에 걸쳐 생각해내야 하는데, 각 단계에서 오류율이 존재합니다. 그 오류들이 누적되죠. 이를 오류 누적이라 합니다. 그래서 의미있는 작업에서조차 각 퍼센트가 누적되면 나중에는 결코 신뢰할 수 없게 되는 오류율이 누적됩니다. 이를 '검색*'과 '계획'을 통해 해결해가야하죠. (*몬테카를로 트리 검색 Monte Carlo Tree Search, MCTS - 선택, 확장, 시뮬레이션, 역전파 순으로 각 플랜을 평가하고 최적을 선택하는, '수'를 검색하는 방식)
- 많은 것들이 병목현상이 될거라 예상했지만 첫째 컴퓨팅 규모가 커지는 것, 둘째 스케일링 법칙 이들로 인해 병목현상들이 사라지고 있습니다. 예를 들어 긴 컨텍스트창은 새로운 아키텍처나 새로운 돌파구가 필요할 것이라 생각했는데 지금은 1, 2년 전 '한계'라 생각했던 것보다 더 긴 컨텍스트 창을 가진 모델들이 출시되고 있습니다.
- 에이전트의 뜻은, "주어진 목표를 달성하기 위해 스스로 추론하고 단계를 밟아가며 작업을 수행할 수 있는 AI 시스템"입니다. 그게 다입니다. 딥 강화학습 시대에는 목표가 보상함수에 의해 지정되었습니다. 알파고의 경우 바둑을 이겼다면 보상을 주는 방식이었죠.
- 미래의 에이전트들은 현재의 LLM처럼 '프롬프트' 위주가 아닐 것입니다. 핵심은 에이전트가 사고하고 계획하는 계층이 '프롬프트'가 아니라 AI 시스템 내에서 이루어져야한다는 것입니다. 프롬프트를 통해 어느정도 성과를 내는 에이전트를 만들어내는 것은 기적과도 같은, 불가능에 가깝습니다.
- 하지만 SWE-에이전트나 데빈과 같은 LLM을 통해 만들어낸 에이전트는 강화학습을 시작하기에 가장 좋은 지점이기도 합니다. 강화학습의 메커니즘은 행동이 있어야 그것에 대해 평가하고 좋은 행동은 강화, 나쁜 행동은 억제하는 것입니다. 에이전트가 '뭔가' 행동을 하기 시작해야 하지 않습니까. 따라서 SWE-에이전트, 데빈과 같은 에이전트들은 좋은 스타트라인이 된다는 뜻입니다.
(*주 - SWE-에이전트나 데빈 모두 LLM을 기반으로 만들어진, 코딩을 스스로 할 수 있는 소프트웨어 에이전트 엔지니어입니다. swe-agent는 프린스턴대에서 만든 오픈소스, 데빈은 cognition 사에서 만들었습니다. 이들은 깃허브 이슈 문제들을 스스로 해결하는데 그 성공률이 10% 후반대로 아직은 갈길이 먼 상황입니다. 혼자 알아서 코딩을 해내는데는 역부족이라는 뜻이니까요.)
- 현재의 AI는 크게 두 가지입니다.
- 알파고와 같이 '깊이 있는' 능력을 보여주지만 한 영역(도메인)에만 치중된 AI. 알파고는 바둑은 할 수 있어도 틱택토는 할 수 없습니다.
- 반면 Gemini, Claude, ChatGPT는 아주 넓은 영역에서 유능하지만 깊이가 없습니다.
- GPT-4o나 최신 Gemini를 보면 멀티모달까지 도입해 그 폭은 더 넓어졌습니다. 하지만 '깊이'를 위해 훈련된 것은 없습니다. 인터넷에는 사람들의 내적독백, 사고의 중간과정이 생략되어있습니다. 사람들은 이 중간 과정을 데이터세트로 만들어내 학습시키는 것을 목표로 하고 있죠. 특히 수학, 코딩에서 말입니다.
- 우리는 이제 이 '깊이' 문제를 해결해야합니다. 하지만 해결해야할 난제들이 몇가지 남아있죠. 바로 그라운드 트루스 보상(ground truth reward)가 없다는 것입니다. 알파스타(AlphaStar)는 알파고의 스타크래프트 버전인데요, 저는 스타크래프트 유저이기 때문에 더 알파스타의 전략을 보고 완전 놀랐습니다. 마치 우리보다 훨씬 더 똑똑한 외계인이 우리 사이에서 게임을 하고 있는 것처럼 보였죠. 알파고, 알파스타의 그라운드 트루스 보상은 '이기면' 되는 것이었습니다. 게임을 이기면 보상을, 지면 그 행동을 억제하면 됩니다. 명백하고, 신뢰할 수 있는 보상 기준입니다. 승패가 확실하니까요.
- 하지만 코딩의 경우, 확실한 보상이 무엇일까요. 일반적인 작업들에 대해서도 확실히 어느정도의 일을 해야 얼마나 점수를 줘야할까요. 이런 기준들은 명확하지 않습니다. 인간의 선호도를 기준으로하는 영역에는 명백한, 신뢰할 수 있는 그라운드 트루스 보상 기준이 없습니다.
- 이것을 해결하기 위한 방법은, 바로 보상모델을 훈련시키는 것입니다. 보상모델은 어떤 작업이 올바르게 이루어졌는지를 예측하는 언어모델입니다.
- ChatGPT가 에이전트라 하고, 그 LLM이 잘 대답했는지를 점검하는 것이 보상모델이라고 합시다.
- 유해한 프롬프트에 답변하지 않도록 하기 위해서 훈련데이터에 "죄송합니다. 저는 이 질문에 대답할 수 없습니다."를 포함시킨다고 하죠.
- 그럼 이 에이전트가 민감한 질문에 대답하지 않으면 보상모델은 높은 점수를 줍니다.
- 애매할때마다 답을 회피하면 보상모델은 높은 점수를 줘버립니다.
- 에이전트는 이 헛점을 파악해, 조금만 민감하다 싶으면 답을 거부합니다.
- 그럼에도 보상모델은 높은 점수를 주니까요.
- 이런 식으로 ChatGPT 와 같은 곳에서 답을 피해버리는 경우를 많은 분들이 경험해봤을 것입니다. 이렇게되면 사용자경험이 안좋아지죠.
- 이런 악용 케이스가 있기 때문에 보상모델이 제대로 작동할 수 있도록 하는 것은 매우 까다로운 일이며 잘못 행동하지 않도록 데이터를 추가해야합니다.
- 다음은 사전 훈련(pre-training)과 사후 훈련(post-training)에 대한 내용입니다. 알파고로 예시를 들면, 사전훈련은 "0"인 실력에서 "꽤 괜찮은 레벨"까지 키우는 것입니다. 신경망이 무수히 많은 기보와 전문 바둑기사들을 '모방'시키는 것이죠. 모든 언어모델은 사전훈련에서 이런식으로 '꽤 괜찮은 수준'까지 성장합니다. 사전훈련은 기초적인 룰을 배우고 기본기술을 배우는, 인간으로치면 5살 아이정도로 성장하고 배우는 겁니다.
- 이후의 사후 훈련은 좋은 행동을 '강화'하는 것입니다. 알파고로 치면 이제 직접 플레이를 하면서 내부에서 계획을 생성하고, 행동하며, 몬테카를로 트리 검색을 통해 다시 피드백까지 하는 것이죠. 이 과정으로 게임 결과에서 이기면 좋은 수는 '강화'되고 나쁜 수는 억제 됩니다.
- 이 사전훈련과 사후훈련은 놀랍게도 언어모델, 챗봇에도 거의 흡사합니다. 언어모델도 '기보' 대신 '인터넷의 텍스트'를 통해 사전훈련하며 5살짜리 아이로 세상에 나옵니다. 이후는 인간들과의 채팅이라는 '플레이'를 통해 직접 피드백을 받으며 RLHF 하는 것이죠.
- 하지만 왜 언어모델이 알파고처럼 창의적이며 놀라운 수를 두는 '깊이'를 보여주지 못하는가? 이는 알파고의 경우 '승/패' 라는 확실한 그라운드 트루스 보상이 존재하지만 언어모델에 인간이 주는 피드백은 일관적이지 않고 노이즈가 섞이며 허점이 생기게 됩니다. 이 허점을 에이전트는 놓치지 않고 악용하죠. 결국 에이전트가 보상모델을 속이는 방법을 찾아내 최적의 결과물, 작업물을 내놓기보다는 단순히 보상모델의 보상만 극대화하는 꼼수를 이용하게 될 수 있습니다. 이렇게되면 붕괴되는 것이죠.
- 때문에 알파고 측은 단순한 몬테카를로 트리 검색으로도 언어모델 측보다 더 깊이 있는 에이전트가 되는 것입니다. 언어모델 측은 훨씬 더 정교하고 복잡한 알고리즘을 쓰는 강화학습 알고리즘을 사용하더라도 보상에 '명확한, 신뢰할 수 있는 기준' 이 없고 인간의 피드백은 '일관성이 떨어지며 노이즈가 섞이기 때문'입니다.
- 이것이 왜 그렇게 큰 문제인가. 예를 들어봅시다. 체스를 둔다고 할 때 아무리 몇 수 뒤를 내다보며 계획한다고 해도 매 수마다 판단이 나쁘다면 그 예측이 의미가 있을까요. 이는 앞서 말한 오류율이 누적되는 것을 의미합니다. 이 현상을 연구한 OpenAI의 Scaling Laws for reward model over-optimization 이라는 훌륭한 논문이 있습니다.
- 이 논문은 굉장히 과소평가 된 논문입니다. '모든' 규모, '모든' 알고리즘에서 RLHF 알고리즘을 시도해본 결과, 모두 과최적화가(over-optimization) 관찰된 것입니다. 과최적화란 에이전트가 실제로 '옳지 않은 행동'을 했음에도 보상모델이 높은 보상을 줘버리는 것을 말합니다. 이 현상이 모든 규모와 모든 알고리즘에서 발견되었다는 것은 과최적화가 사후훈련에서 근본적인 문제라는 것을 의미합니다.
왜 Deepmind를 나왔나?
- 사실 Ioannis와 저는 딥마인드에 남아서 계속 에이전트를 밀어붙일 수도 있었습니다. 하지만 앞서 표현한 '보편적', '일반적'인 디지털 AGI 에이전트까지 3년 정도 밖에 남지 않았다고 생각했습니다. 그 안에서 작업하는 것보다 나와서 일을 하는 것이 우리가 그들보다 더 빠르게 나아갈 수 있겠다고 여겼죠. 제가 말하는 디지털 AGI란, '폭넓고' '깊이있는' AI를 말합니다.
- 많은 사람들은 최적화할만큼 다 한거 아니야? 생각하시는데 저는 그렇게 보지 않습니다. 우린 여전히 기하급수적인 성장을 하고 있습니다. AGI까지 100%라고 한다면, 앞으로 몇 달이면 5%가 더 찰 겁니다. 뿐만 아니라 AGI에 가까운 모델이 만들어질수록 우리가 그 목표에 도달하는 것을 더 가속해줄 것입니다.
- 과거엔 사람들이 컴퓨터를 망치, 끌, 낫 처럼 도구로 여겼습니다. 이 도구를 사용하는 법을 익히곤 했죠. 하지만 이젠 시대가 달라지고 있습니다. 그런 도구를 익히는 법에 시간을 뺏기지 않고, 개인의 목표에 집중할 수 있는 시간을 갖게 됩니다. AI 에이전트를 갖게 되니까요. 이는 매우 흥미로울 겁니다. 이미 사회 각 개인의 야망은 커지고 있습니다. 우린 많은 작업들을 AI 에이전트들에게 맡기면서 우리의 야심찬 목표들에 집중하게 될 겁니다.
- 앞으로는 여러분이 정말 하고 싶은 일을 하십시오. 주변에서 어떤 일이 일어나든, 상황이 나빠지든 말든, 본인이 정말로 중요하게 생각하고 중요하게 여기는 그 일을 하십시오. AI 시대에는 아주 강한 내적 나침반이 있어야할 것입니다. 어려운 시기를 헤쳐나가기 위해서는 내적 동기와 끈기, 집착이 필요합니다.
- "자신의 경기장에서 놀고, 다른 사람 경기장의 화려함에 눈길을 빼앗기지 마십시오"
https://www.youtube.com/watch?v=pYBOWDJ5HJc
'AI 인터뷰 및 최신 동향' 카테고리의 다른 글
샘 알트먼 TED Rethinking 라디오 인터뷰 (25.01.07) (2) | 2025.01.19 |
---|---|
제프리 힌튼 인터뷰 (25.01.19) (0) | 2025.01.19 |
MS CTO 케빈 스콧 세쿼이아 캐피탈 인터뷰(2024.07.10) (2) | 2024.07.10 |
OpenAI 무라티, 카라 스위셔 인터뷰(2024.07.10) (1) | 2024.07.10 |
구글은 현재 AI 업계에서 어느 정도의 위치에 있나? (하사비스 Stripe Tour) (1) | 2024.07.09 |