출처: 퀀텀
뉴욕타임즈에 따르면 2025년 튜링상은 ChatGPT와 같은 챗봇에 필수적인 강화학습 기술을 개발한 두 명의 AI 선구자 앤드류 바토와 리처드 서튼에게 수여됐다.

매사추세츠 애머스트 대학교의 앤드류 바토 Branch의 앤드류 바토(왼쪽)와 리처드 서튼의 연구는 오늘날의 AI 시스템에서 핵심적인 역할을 담당하고 있습니다. (이미지 출처: 컴퓨팅 기계 협회 제공)
1977년 매사추세츠 애머스트 대학교의 연구원이었던 앤드류 바토는 뉴런이 쾌락주의자처럼 행동한다는 새로운 이론을 탐구하기 시작했습니다. 인간의 뇌는 수십억 개의 신경 세포에 의해 움직이며, 각 신경 세포는 쾌락을 극대화하고 고통을 최소화하기 위해 노력한다는 것이 기본 아이디어였습니다.
1년 후, 또 다른 젊은 연구자 리처드 서튼이 그의 팀에 합류했습니다. 두 사람은 이 간단한 개념을 인간 지능을 설명하는 데 사용하고 이를 인공지능에 적용했습니다. 그 결과 인공지능 시스템이 디지털 세계에서 쾌락과 고통을 학습하는 방법인 강화 학습이 탄생했습니다.
세계 최대 컴퓨터 전문 학회인 미국 컴퓨터 학회는 수요일, 바토 박사와 서튼 박사가 강화 학습에 대한 연구로 올해의 튜링상을 수상했다고 발표했습니다. 1966년에 제정된 튜링상은 컴퓨팅 분야의 노벨상이라고도 불립니다. 두 과학자는 100만 달러(7,259,600루피)의 상금을 공유하게 됩니다.
강화 학습은 지난 10년간 구글의 알파고와 OpenAI의 ChatGPT와 같은 획기적인 기술을 포함해 인공지능의 부상에 중요한 역할을 해왔습니다. 이러한 시스템의 기술은 바토우 박사와 서튼 박사의 연구에서 비롯되었습니다. 워싱턴 대학교의 컴퓨터 과학 명예교수이자 앨런 인공지능 연구소의 설립자 겸 CEO인 오렌 에치오니는 "그들은 강화 학습 분야의 확실한 선구자입니다."라고 말합니다. "그들은 핵심 아이디어를 생각해냈고 이 주제에 관한 책을 썼습니다."
1998년에 출간된 이들의 저서 '강화 학습: 입문'은 강화 학습에 대한 결정적인 탐구로 남아 있으며, 많은 전문가들은 강화 학습의 잠재력을 이제 막 실현하기 시작했다고 생각합니다.
심리학자들은 오랫동안 인간과 동물이 경험을 통해 학습하는 방식을 연구해 왔으며, 1940년대에 영국의 선구적인 컴퓨터 과학자 앨런 튜링은 기계도 비슷한 방식으로 학습할 수 있다고 제안했습니다.
바토우 박사와 서튼 박사는 정부에서 일하던 컴퓨터 과학자 해리 클로퍼가 제안한 이론을 바탕으로 이러한 학습 방식의 수학을 탐구하기 시작했습니다. 이후 Bartow 박사는 매사추세츠 애머스트 대학교에 이 아이디어를 전담하는 실험실을 설립했고, Sutton 박사는 캐나다 앨버타 대학교에 유사한 실험실을 설립했습니다.
"인간과 동물에 대해 이야기할 때는 당연한 아이디어입니다."라고 인공 지능 스타트업인 Keen Technologies의 연구 과학자이자 캐나다의 3대 국립 인공 지능 연구소 중 하나인 앨버타 기계 지능 연구소의 연구원이기도 한 Sutton 박사는 말합니다. 기계 지능 연구소이기도 합니다. "우리가 그것을 되살렸을 때는 기계에 관한 것이었습니다."
2016년 알파고가 등장할 때까지만 해도 인공지능은 학문적인 연구 분야로만 남아있었습니다. 대부분의 전문가들은 바둑에서 세계 정상급 선수를 이길 수 있는 AI 시스템을 개발하려면 10년이 더 걸릴 것이라고 생각했습니다. 하지만 알파고는 한국 서울에서 열린 대국에서 지난 10년간 최고의 바둑 기사로 꼽히는 이세돌 9단을 꺾었습니다. 그 비결은 이 시스템이 수백만 번의 대국을 치르며 시행착오를 통해 학습했기 때문입니다. 어떤 수가 성공(즐거움)을 가져다주는지, 어떤 수가 실패(고통)를 가져다주는지 학습한 것입니다.
이 시스템을 구축한 Google 팀은 앨버타 대학교에서 서튼 박사 밑에서 강화 학습을 연구한 연구원 데이비드 실버가 이끌었습니다.
많은 전문가들은 강화 학습이 게임 밖에서도 작동할 수 있는지에 대해 여전히 의문을 제기합니다. 게임 승리는 점수에 따라 결정되기 때문에 기계가 성공과 실패를 쉽게 구분할 수 있습니다.
그러나 강화 학습은 온라인 챗봇에서도 중요한 역할을 합니다.
2022년 가을에 ChatGPT가 출시되기 전에 OpenAI는 수백 명의 직원을 고용하여 초기 버전을 사용하고 챗봇의 기술을 연마하기 위한 정확한 조언을 제공했습니다. 이들은 챗봇에게 특정 질문에 답하는 방법을 보여주고, 답변을 평가하고, 실수를 수정했습니다. 챗봇은 조언을 분석하여 더 나은 챗봇이 되기 위한 방법을 배웠습니다.
연구자들은 이를 "인간 피드백을 통한 강화 학습"(줄여서 RLHF)이라고 부르며, 오늘날의 챗봇이 놀랍도록 현실적인 답변을 제공할 수 있는 주요 이유 중 하나입니다.
(뉴욕 타임즈는 인공지능 시스템과 관련된 뉴스 콘텐츠의 저작권 침해로 OpenAI와 파트너인 Microsoft를 고소했으며, OpenAI와 Microsoft는 혐의를 부인했습니다.)
최근 OpenAI와 DeepSeek 같은 기업들은 알파고처럼 챗봇이 스스로 학습할 수 있는 강화 학습을 개발했습니다. 예를 들어, 챗봇은 다양한 수학 문제를 풀면서 어떤 방법이 정답으로 이어지는지, 어떤 방법이 그렇지 않은지 학습할 수 있습니다.
이 과정을 많은 수의 문제와 함께 반복하면 챗봇은 적어도 어떤 면에서는 인간의 추론을 모방하는 방법을 배울 수 있습니다. 그 결과 OpenAI의 o1이나 DeepSeek의 R1과 같은 추론 시스템이 탄생했습니다.
바토 박사와 서튼 박사는 이러한 시스템이 앞으로 기계가 학습할 방식을 암시한다고 말했습니다. 결국 AI를 탑재한 로봇은 인간과 동물처럼 현실 세계에서 시행착오를 반복하며 학습하게 될 것이라고 그들은 말했습니다.
"강화 학습을 통해 신체를 제어하는 법을 배우는 것은 매우 자연스러운 일입니다."라고 바토우 박사는 말했습니다.