AI 인터뷰 및 최신 동향

구글은 현재 AI 업계에서 어느 정도의 위치에 있나? (하사비스 Stripe Tour)

MinasAnor 2024. 7. 9. 16:29

현재 구글의 AI 사령탑에 있는 데미스 하사비스

 

순다 피차이 구글 CEO를 두고 세간에서는 'AI업계의 조 바이든'이라 빗대고 있다. 그만큼 훌륭한 인재와 컴퓨팅 자원, 가장 앞서던 알고리즘까지 갖췄던 기업이 OpenAI에게 계속해서 뒤쳐지는 것을 두고 굼뜨며 실력이 없다는 점을 지적하는 것이다.

 

하지만 현재 실제 지휘봉을 쥐고 있는 것은 단연 데미스 하사비스일 것이다.

 

그가 스트라이프 투어에 등장해 최근 AI의 동향에 대해 여러 힌트를 주었다. 살펴보도록 하자.

 

https://www.youtube.com/watch?v=D-eyJhJXXsE

 

 

 

데미스 하사비스 : 구글의 Astra 프로젝트는 범용 AI 에이전트의 시작이다. Astra는 멀티 모달리티가 핵심이다. 언어 에이전트들이 공간적 이해, 주변 환경을 놓치는 단점을 막기위해 비디오 데이터, 사운드 데이터를 '입력'으로 받아들이기 시작했다. 구글-딥마인드는 제미나이를 처음부터 멀티모달로 구축했다.

 

이는 어떤 종류의 입력도 처리할 수 있음을 의미한다. 어떤 종류의 출력도 마찬가지다. 향후 1~2년 내로 진정한 스마트 어시스턴트를 갖게 될 것이다. 게임 체인저가 될 것이다.

 

만약 아스트라 데모를 보지 않으셨다면 꼭 보시길 바란다. 스포일러는 아니지만, 영상 뒷부분은 이러한 시스템이 비디오로도 아주 긴 컨텍스트창을 갖는 '힘'을 확인할 수 있다.

 

https://www.youtube.com/watch?v=nXVvvRhiGjI

 

상당히 흥미로운 데모다.

 

특히 하사비스가 언급한 마지막 부분은 다음과 같다.

 

 

폰을 들고 비디오 데이터를 인식시키며 대화를 나누다가, 어떤 시점에 "어, 내 안경 못봤니?" 하고 Astra에게 물으니, "그 안경 아까 그 책상에 있던 사과 옆에 있어" 라고 알려주는 부분이다. 

 

그만큼, 비디오 데이터로도 컨텍스트창이 커지니 흘려지나갈 수 있는 데이터도 모두 챙겨둔다는 셈인데, 이런 능력이 다양한 도메인에 확장되면 어떻게 될까?

 

이어지는 인터뷰 내용에서 하사비스는 컨텍스트 길이에 대해서도 차분히 언급한다.

 

하사비스 : 우리는 현재 백만 토큰의 컨텍스트창을 처리할 수 있지만 이를 두 배, 이백만토큰으로 확장시켰다. 이는 한 시간짜리 비디오를 입력하고 그 질문을 할 수 있다는 것을 의미한다. 이는 Glass나 기타 비디오 입력장치를 통해 실시간으로 Astra에게 비디오 데이터를 입력할수만 있다면, 노인들이 자기들이 약을 어디에 두었는지, 자동차 키를 어디에 뒀는지를 찾는데에도 사용할 수 있다. 물론 이러한 예시들은 유용성의 '표면'만 언급한 것일 뿐, 무궁무진하다.

 

진행자 : AI 비서 구축에 필요한 미해결 도전과제는 무엇이 남았습니까?

 

하사비스 : 부족한 점은 명확하다. 멀티모달리티와 메모리는 우리가 작업중이므로 큰 문제가 안되지만 계획과 행동, 일정 추론이 부족하다. 

 

진행자 : 계획이란 뭘 의미합니까?

 

하사비스 : 계획은 AI에게 목표를 설정했을 때 그 목표를 달성하는 능력을 의미한다. 목표를 설정하면 그것을 달성하기 위한 세부적인 해야할 일을 스스로 만들어내야 한다. 다양한 분기점을 생각해내고 각 시나리오에 따라 어떤 일이 일어날지에 대해 3D로 상상하는 능력도 필요하다. 

 

우리가 알파고에서 만들어낸 강화학습, 목표 설정, 에이전트 등의 프로그램에서한 계획 작업을 언어와 멀티모달리티에 연결하면 전체적인 계획을 세우는 능력이 생겨날 것이다. 저는 이것이 다음 혁신이라 생각한다.

 

진행자 : 그렇다. 일부에서는 '스케일링이 전부다'고 말하고 있지만 당신이 말한 부분을 고려하면 단순한 스케일링으로 해결되지 않는 부분이 있을 것 같다.

 

하사비스 : 스케일링은 분명히 필요하다. AGI의 해결책 일부는 분명 스케일링이다. 하지만 문제는 그것만으로 충분한가 이다. 계획과 같은 능력은 약간 다른 종류의 연산처럼 보인다. 제 추측으로는 인간 수준 AI에 도달하기 위해서는 여전히 주요 돌파구가 몇 개 더 남은 것으로 생각된다. 

 

진행자 : 알파폴드에 대해 이야기해주시라

 

하사비스 : 기존에는 박사과정의 한 학생이 그 전 과정을 바쳐야 겨우 하나의 단백질 구조를 밝혔다. 그런 단백질이 인간에게는 2만개가 넘으며 자연에는 2억개가 넘는다. 그런 방식으로는 영원히 단백질만 연구해도 끝이 안날 것이다. 그래서 만든 해결책이 알파폴드다.

 

알파폴드2는 1년 동안 2억개가 넘는 단백질 접힘 구조를 규명했다. 이전의 박사과정 식으로 했다면 10억 년이 걸리는 시간이다. 이를 1년 안에 해결 한 것이다. 그리고 몇 주 전에 발표한 알파폴드3는 이를 한 단계 더 발전시켰다. 알파폴드2는 단백질의 '정적인' 모습을 규명했다면 알파폴드3는 이제 그런 단백질들이 다른 생체분자들과 어떻게 상호작용하는지를 이해하게 한다. 다른 단백질 뿐 아니라 DNA, RNA 가닥, 리간드(단백질에 특이적으로 결합하는 물질)과의 상호작용도 포함한다. 이는 약물 발견에 대단히 유용할 것이다. 

 

지금은 알파폴드처럼 특정 도메인에 특화된 AI가 필요하지만, 후에 AGI가 등장하면 그 AI가 모든 일을 아주 높은 수준으로 처리하게 될 것이다. 하지만 지금은 대규모 언어모델과, 특정 도메인의 AI 모두가 필요하다.

 

진행자 : 당신은 한때 체스선수였고 디플로메시라는 외교게임 챔피언이기도 하다. AI가 아직 이길 수 없는 게임이 있나?

 

하사비스 : 아타리 게임이나 단백질 접힘 등은 적절한 중간목표이자 '진전을 증명'하는데 좋은 소재였다. 게임은 늘 제 안에 있어왔다. 게임을 많이 했고 게임을 통해 정신을 훈련했기 때문이다. 어린 시절부터 체스를 꾸준히 한 것이 제 정신을 형성하는데 큰 역할을 했다. 게임은 AI 알고리즘을 테스트하는데 적합한 모든 속성을 갖고 있다고 생각한다. 

 

하지만 이제 AI는 거의 모든 게임을 아주 높은 수준으로 플레이할 수 있는 경지에 올랐다. 알파고의 진화버전, 알파제로가 그 정점이다. 알파제로는 모든 2인용 완전 정보(모든 데이터가 드러나는) 게임을 플레이할 수 있다. 다만 포커와 디플로메시는 약간 다르다. 포커는 숨겨진 정보가 있고, 디플로메시는 언어가 결합되어있다. 하지만 이러한 분야에서도 현 AI들은 꽤 잘 플레이한다. 

 

다만 언어모델이 단순한 체스조차도 제대로 플레이하지 못하는 것은 조금 놀랍다. 상당히 짜증나는 부분이며 해결하기 위해 노력하고 있다. 게임처럼 정확한 상황 인식이 필요한 부분에서 환각이 와버린다. 체스로 예를 들면 중간에 자기 말의 위치를 잊어버린다든지, 자기 말을 적으로 인식한다든지 하는 식이다. 물론 해결될거라고 확신하지만 단순히 스케일링으로 해결될지는 모르겠다.

 

하사비스 : 최근 1년 동안 AI 업계에 새로 들어온 사람들이 꽤 재미있다고 생각한다. 아마도 작년에는 암호화폐에 집중하다가 올해에 AI에 집중하는 사람들인데 이들은 '가속주의자'라 불린다. 아이러니한 것은 이 '가속주의자'들이 진정으로 '가속주의자'라면 더 신중하고 시간을 들여 제대로 기술에 접근해야만 AI를 제대로 활용할 수 있다는 것을 잘 모른다는 점이다. 그렇게 신중하게 나아간다면 10년 후 우리는 놀랍고 번영하는 사회를 구축할 수 있을 것이다.