• 트위터
  • 페이스북
  • 검색
  • 전체메뉴

실시간뉴스 전체보기

닫기
더보기닫기

[비바100] AI의 하루·사람의 180년… 알파고에 이은 또 한 번의 충격 ‘오픈AI 파이브’

[김수환의 whatsup] AI, 바둑 이어 E스포츠에 도전장

입력 2018-07-02 07:00   수정 2018-07-01 17:15
신문게재 2018-07-02 13면

 

90

 

 

“인간이 여전히 AI보다 스타크래프트를 잘한다. 지금까지는.”

 

지난해 한국의 프로게이머 송병구가 AI와의 스타크래프트 대결에서 4대 0으로 완승한 소식을 외신은 이렇게 전했다. 바둑에서 이세돌을 꺾은 알파고에 100전 100승을 거둔 ‘알파고 제로’가 등장해 바둑계가 충격에 휩싸인 후 얼마 지나지 않았을 때였다. AI가 여전히 인간을 따라올 수 없는 영역이 있음을 강조한 것이기도 했다. 하지만 그로부터 불과 7개월이 지난 시점에 AI는 세계에서 가장 복잡한 게임의 하나에서 인간들을 이기고 있었다. 이 AI는 하루라는 시간을 인간의 180년처럼 쓰고 있다는 소식과 함께 세계 최강의 프로게이머들에게 도전장을 내밀었다.

 

(1) group-laptop
오픈AI 도타 팀이 지난해 ‘디 인터내셔널’에서 세계 최고 수준의 도타게임 프로게이머와 1:1 대결에서 승리를 거둔 랩탑(AI봇)을 들고 기념사진을 촬영하고 있다. [사진=오픈AI 공식웹사이트 캡쳐]

 

 

◇ 인간의 압승, 그러나 뭔가 달랐던 AI

지난해 송병구가 AI와의 스타크래프트 대결에서 4번 연달아 이기는 데는 모두 합해서 27분이 걸리지 않았다고 한다. 인간의 압도적인 승리라고 할 수 있는 이 대결을 그는 스스로 어떻게 느꼈을까. 그는 대결 후 “AI가 공격을 방어할 때 보유하고 있는 유닛들을 처리하는 방식이 놀라울 정도였다”는 소감을 ‘MIT 테크놀로지 리뷰’에 남겼다.

AI는 인간보다 컨트롤이 더 빠르고 동시에 다양한 작업을 제어할 수 있다. 노르웨이에서 개발된 스타크래프트 봇(bot)은 분당 1만9000개의 작업을 할 수 있다. 그러나 대부분의 프로게이머들은 1분에 수백 번 이상의 컨트롤을 할 수는 없다고 한다. 일부 전문가는 바둑에서 인간을 이긴 알파고와는 달리 이용가능한 스타크래프트 훈련 데이터가 부족한 점을 AI가 당시 인간과의 대결에서 진 이유로 꼽기도 했다. 

 

(2) open ai
최고 실력의 오픈AI 직원팀이 AI와 ‘도타2’ 5:5 대결을 하고 있는 모습. [사진=오픈AI 공식 웹사이트 캡쳐]

 


◇ 이번엔 5:5 팀 대결이다

비영리 AI 연구기업인 오픈AI는 도타2에서 ‘인간 vs AI’의 5:5 대결을 위해 5개의 신경네트워크로 구성한 ‘오픈AI 파이브(five)’라는 AI를 소개했다. 오는 8월에 열리는 도타2 ‘디 인터내셔널’에서 세계 최강의 게이머들을 물리치는 것을 목표로 하고 있다. 1:1 대결에서는 이미 지난해에 오픈AI가 개발한 AI가 세계 최정상의 게이머들을 제압한 바 있다. 그러나 도타2의 정식 E스포츠 경기는 5:5 대결로 진행된다. 현재 오픈AI 파이브는 아마추어 게이머들과의 5:5 대결에서도 이길 수 있는 수준까지 왔다고 한다.

MS창업자 빌 게이츠는 이에 대해 “AI 발전에 획기적인 이정표”’라고 평가했다. ‘도타2’ 게임에서 승리하기 위해서는 AI 간에도 팀워크와 협업이 필요하기 때문이다.

‘도타2’라는 게임이 생소한 이들을 위해 설명을 덧붙이자면, 전략 롤플레잉이라는 점에서는 월드오브워크래프트와 다소 닮았고 전장(戰場)은 스타크래프트와 비슷한, 이 두 가지를 결합해 놓은 듯 한 게임이다. 밤이든 낮이든 50만~100만명 정도는 이 게임을 하고 있을 만큼 인기가 많다.

‘오픈AI 파이브’는 256개의 GPU와 12만8000개의 CPU 코어에서 작동되는, 확장된 규모의 강화학습 알고리즘 버전 ‘Proximal Policy Optimization’(PPO)를 사용해 훈련한다. 사람이 180년 동안 해야 할 만큼의 게임량을 매일 소화하면서 스스로 게임을 터득하고 있다.

AI는 전략의 실패를 피하기 위해 80%의 자가 플레이와 20%의 과거에 자신이 한 플레이를 통해 훈련을 진행한다고 한다. 처음 하는 게임에서는 히어로들이 목적 없이 지도 주변을 걸어 다닌다. 훈련이 시작된 지 몇 시간 후에는 게임의 주요 개념들을 파악한다. 며칠 후면 기본적인 인간의 전략을 지속적으로 채택한다. 그리고 훈련을 좀 더 거치면서 AI는 고수준의 전략에도 능숙해지게 된다.

 

(4) 도타2 게임 화면-오픈AI
‘도타2’ 게임 화면. [사진=오픈AI 공식웹사이트 캡쳐]

 

◇ AI의 ‘도타2’ 도전, 체스·바둑과 다른 점은?

‘도타2’는 5명의 게이머들이 두 팀으로 나뉘어 대결을 펼치는 실시간 전략 게임이다. 각각의 게이머들은 ‘히어로’(영웅)라는 캐릭터를 컨트롤한다. AI가 이러한 게임에서 인간들과 대결을 펼치려면 다음과 같은 문제들을 극복해야 한다.

① 판단해야 할 수가 평균 8만개 = 통상적으로 한 경기에 체스가 40수, 바둑이 150수 정도를 두는 것과 달리 도타 게임에선 AI가 판단해야 할 수가 훨씬 많다. 도타 게임의 화면은 초당 30프레임이다. 1회 평균 게임시간이 45분 정도라고 할 때, AI가 판단해야 할 화면의 수는 게임당 8만개가 된다. ‘오픈AI 파이브’는 매 4프레임마다 1개씩의 화면을 분석해 2만개의 화면 수에 대해 판단을 내린다.

② 부분적으로만 보이는 게임 시야 = 체스나 바둑이 게임의 전체 진행상황을 한눈에 볼 수 있는 것과 달리 도타 게임은 유닛이나 건물들의 주변만 볼 수 있다. 나머지 지역은 안개에 쌓여있어 적의 움직임과 전략을 숨겨준다. 불완전한 데이터로부터 추론을 끌어내야 한다.

③ 고차원적이고 연속적인 액션 공간 = 한 수를 둘 때 고려해야 할 공간의 수는 체스가 35개, 바둑이 250개 정도다. 그에 비해 도타 게임의 캐릭터인 ‘히어로’가 취할 수 있는 액션의 가짓수는 수십 가지다. 상대하는 유닛이나 위치를 감안하면 히어로당 17만개의 액션으로 나눌 수 있다. 연속적인 부분을 계산하지 않으면 각 화면마다 평균 1000개 정도의 유효한 액션이 있다.

④ 고차원적이고 연속적인 관찰공간 = 체스판은 가로·세로 8개씩 64개의 칸으로 구성돼 있고, 바둑은 가로·세로 19줄로 착점할 수 있는 자리가 361개다. 도타 게임은 10종류의 히어로와 수십 개의 건물, 수십 개의 비(非)플레이어 캐릭터(NPC) 유닛 등을 포함하는 커다란 맵에서 연속적으로 플레이된다. AI는 이런 도타 게임의 공간을 2만개의 숫자(대부분이 부동소수점)로 파악한다.

⑤ 바둑보다 연산처리 시간 100만배 = AI가 도타 게임의 로직을 처리하는데 한 화면당 1000분의 1초가 걸린다. 10억분의 1초가 걸리는 체스나 바둑 엔진보다 처리시간이 100만배 가량 더 소요된다. 또한 게임은 매 2주에 한번 업데이트가 되고 환경이 끊임없이 변화한다.

(3) 오픈AI 파이브 봇-유튜브
‘도타2’ 게임에서 AI(게임봇)가 각각의 ‘히어로’를 컨트롤해 인간팀과 5:5 대결을 준비하고 있다. [사진=유튜브 캡쳐]

 

◇ AI 기술, 도타 게임 넘어선 다음은?

짐작했겠지만 오픈AI의 목표는 도타 게임을 넘어선다. 궁극적으로는 여기서 개발된 AI를 실제 세계에서도 성공적으로 적용할 수 있는지를 가늠해 볼 계획인 것으로 알려졌다.

체스가 AI에게 정복당할 때 사람들은 바둑이 인간의 영역이라 했다. 바둑마저 정복을 당하자 어떤 분야에서는 AI가 인간을 따라올 수 없다고 말한다. AI와 인간의 간극이 아직은 멀게 만 보이는 분야가 있는 것도 사실이다. 하지만 문제는 인간에게 하루가 AI에겐 180년이라는 점이다. 1년이면 6만 5700년이 된다. 


김수환 기자 ksh@viva100.com 

 

기자의 다른기사보기 >

   이 기사에 댓글달기