AlphaGo에 대한 몇 가지 오해
최근 알파고고 게임 속 인공지능에 대한 기사를 읽었는데, 특히 미국 인공지능 교수들의 기사를 보니 언론에서 홍보하는 내용이 거의 다 틀리고 과장된 내용이었다. 나의 독서 경험을 요약해 보았습니다.
먼저 언론의 허위선전 정정:
1. 알파고는 획기적인 역사를 창조했다고 할 수 있지만 그다지 혁신적인 기술을 만들어내지는 못했다. 반면 Deep Mind는 이미 존재하는 인공지능 기술 중 일부(특히 체스에 기계 이미지 인식 기술을 적용하는 것)는 이전에는 생각해 본 적이 없는 혁신입니다.
2. 알파고는 체스 감각도 없고 실제로 생각하고 전략을 세우는 방법도 모릅니다. 바둑 해설자들이 알파고를 인간으로 대하는 것은 잘못된 것입니다. 알파는 다음 단계에서 내 승률이 얼마나 증가할지 계속 자문합니다.
3. 알파고는 학습 능력이 뛰어나지 않습니다. 현재의 체스 강점은 1억 개에 가까운 체스 게임의 모방과 추측을 기반으로 합니다. 초기에는 알파고가 체스 게임을 16만 개만 배웠을 때, 체스의 강점은 다음과 같습니다. 매우 약했습니다. 그는 인간보다 덜 효율적으로 배울 뿐만 아니라 서커스 동물보다 덜 효율적으로 배웁니다. 그러므로 리를 상대로 모든 경기를 향상시키는 것은 불가능하다. 한 경기의 경험은 알파고에 아무런 영향을 미치지 않는다.
4. Alphago는 실제로 무차별 대입 피로를 기반으로 하지만 새로운 기계 학습 방법을 사용합니다. 철저한 방법과 머신러닝 사이에는 모순이 없습니다
5. 알파가 딥블루만큼 빠르지 않다는 기사를 본 적이 있습니다. 사실 알파는 딥블루보다 50,000배 빠릅니다. 오늘날 사용되는 iPhone 6s의 컴퓨팅 성능은 Deep Blue의 수십 배입니다.
6. 인간 두뇌의 계산 속도가 느리다는 것은 잘못된 것입니다. 컴퓨터의 계산 속도에 상응하는 것은 인간 두뇌의 뉴런의 계산 속도입니다. 인간 두뇌의 계산 속도는 초당 1,000조회, 그 능력은 딥블루의 10만배에 이른다.
7. 알파는 완전히 학습되지 않습니다. 우선, 바둑 규칙을 사람들이 프로그래밍해야 합니다.
읽기 경험에 대한 간략한 요약: 첫째, 알파 바둑이 포함되어 있습니다. 프로그램과 Deep Blue의 체스는 모두 무차별 검색 방법입니다. 즉,
1. 향후 가능한 모든 변경 사항을 고려합니다.
2. 다음 몇 단계에서 이동의 승률을 계산합니다.
3. 움직임. 하지만 바둑의 모든 움직임은 체스보다 더 많이 변하며, 우주의 총 원자 수보다 더 많은 종류의 변화가 있을 수 있습니다. 사실 이것은 체스에서도 마찬가지입니다. 딥블루는 프로 체스 선수들을 대거 고용해 폰의 가치가 얼마나 되는지, 상대의 루크를 잡으면 승률이 얼마나 오르는지 등의 점수 시스템을 구축했는데, 이 점수 시스템은 매우 정확하며 딥블루의 것입니다. 사고 범위는 12단계로 압축됩니다.
하지만 Go는 이런 식으로 평가할 수 없습니다. 이전 Go 프로그램은 단순한 인간 입력이었고 상황에 따라 행동하는 것이 매우 엄격했습니다. 이 프로그램의 체스 파워는 약 400입니다.
2006년에는 몬테카를로 트리라는 검색 방법이 발명되었습니다. 이는 확률 시뮬레이션 방법(주사위 던지는 시뮬레이션과 유사)을 사용하며 최종 결과만 결정하면 되기 때문에 이를 보완할 수 있습니다. Go에서 확실한 움직임을 설정합니다. (알파고도 몬테카를로 트리 방식을 사용합니다.) 그러나 이 방식은 최종 게임까지 수행하기에는 너무 많은 계산이 필요하므로 계산량을 줄이기 위해 바둑 전문가에게 체스 규칙을 공식화하는 데 도움을 요청할 필요가 있습니다. . 이 방법을 사용하면 인공지능 체스 능력을 아마추어 레벨 5까지 향상시킬 수 있습니다.
그러나 지난 10년간 컴퓨터 체스의 발전은 알파고 전까지 비관적이었습니다. 이를 기반으로 심층 인공 네트워크를 소개합니다. 신경망은 50년 동안 개발되어 직관적인 인과 관계가 없는 프로그래밍에 적합하며, 소프트웨어가 스스로 학습하고 조정할 수 있습니다. 그러나 프로그래밍이 너무 어렵고, 과거에는 컴퓨팅 파워 문제가 심각하게 다루어지지 않았습니다.
6년 전부터는 기술적으로 10개 층의 뉴런에 도달하는 것이 가능해졌고, 신경망도 성장하기 시작했다. 빅데이터와 클라우드 컴퓨팅 기술을 결합해 신경망이 대중화됐다. 이미지 처리, 얼굴 인식 등의 프로그램은 프로그래머가 직관적으로 프로그래밍하기 어렵습니다. 딥 콘볼루션 네트워크(Deep Convolutional Network) 기술이 이 분야를 지배하고 있는 곳이 바로 이 분야입니다. Alpha Dog 팀의 혁신은 이러한 이미지 인식 기술이 체스 게임에 사용될 수 있다는 사실을 깨달은 것입니다. Alpha Dog 팀은 인간 체스 선수의 움직임을 예측하기 위해 신경망을 13개 계층으로 업그레이드했습니다.
우선 알파독이 인간의 움직임을 추측하는 정답으로 바둑배틀 플랫폼의 3천만 건의 아마추어 고급 게임 기록을 학습했다. 즉, 알파는 처음에는 아마추어 마스터의 평균적인 게임 플레이를 모방했습니다. 동시에 팀에서는 Go 지식을 수동으로 입력합니다. 알파는 신경망과 수동 프로그래밍의 혼합입니다.
이런 인간의 게임 플레이에 대한 예측을 전략 네트워크라고 하며, 이때의 알파 버전을 rp 버전이라고 합니다. 알파독 팀의 논문에 따르면 아마추어 3단계 체스 능력을 갖춘 바둑 프로그램에 전략 네트워크가 추가되어 체스 능력이 아마추어 6단계에 도달할 수 있다고 합니다. 체스 파워는 950포인트 증가한 2600(체스 파워 포인트 230포인트마다 양측 간 5전승률이 더 높은 쪽의 승률은 95%)이다. , 알파는 세계에서 가장 강력한 바둑 프로그램이 되었습니다.
계산량을 줄이기 위해 알파독은 가치 네트워크라는 심층 컨벌루션 네트워크를 평가 함수로 사용하고, 알파의 예측 결과와 실제 확장 결과의 평균을 승률 기준으로 사용합니다. 정보. 이 기능을 추가한 알파독을 정식 버전이라고 합니다. 그의 체스 능력은 450 포인트 증가했습니다. 3100에 도달했습니다.
(체스 실력이 500씩 차이가 나는 플레이어들 사이에서는 체스 실력이 낮은 플레이어가 게임에서 승리하기 어렵다는 사실을 모두가 알아야 합니다. 차이가 1,000이면 체스 실력이 낮은 플레이어의 승률은 체스강도는 거의 0입니다)
우선 이제 막 시작해서 규칙만 아는 플레이어의 체스강도는 0입니다.
손으로 쓴 체스 규칙이 있는 바둑 프로그램의 체스 파워는 약 400입니다. 즉, 상대가 어떤 수를 써야 할지, 프로그램이 어떻게 움직여야 할지를 프로그램이 결정하는 것입니다. 이러한 종류의 체스 파워는 전적으로 수동 프로그래밍 소프트웨어에 의존합니다.
아마추어 체스 선수의 최저 레벨(레벨 1)은 1,000명 내외이다.
신경망에 추가된 알파고 파워는 1500입니다. 아마추어 레벨 4와 동일합니다. 당시 알로하 바둑도 프로그램 규칙 소프트웨어였지만 바둑 지식을 추가하기 위해 신경망 훈련에만 의존했습니다.
알파고 r버전의 체스강도는 1700입니다. 아마추어 5단과 동일하다. 이때 알파고에는 몬테카를로 트리 검색 기능이 추가됐으나 주로 손으로 쓰는 프로그램을 기반으로 했다.
알파고 r 버전과 유사한 프로그램의 젠 체스 파워는 2200이다. 아마추어 7단과 동일하다.
알파고 rp버전의 체스파워는 2700입니다. r 버전과 비교하여 rp 버전의 개선점은 수동 프로그래밍의 가장 기본적인 바둑 전략을 기반으로 하는 "전략 네트워크"를 추가한 것입니다. 이 기능은 상대의 위치를 예측하는 신경망입니다. 따라서 알파고의 체스 파워는 거의 1000에 가까운 체스 파워로 크게 증가했습니다. 그것은 세계에서 가장 강력한 Go 소프트웨어가 되었습니다. 이 체스 능력은 아마도 가장 낮은 수준의 프로 선수(Professional Level 1)의 능력일 것입니다.
2015년 하반기 알파고를 휩쓸었던 유럽 챔피언 판후이의 체스 파워는 약 2900이다. 직업 2~3레벨 사이의 레벨에 해당합니다.
알파고 정식 버전의 체스 위력은 3100 이상(2015년 말 기준)이다. 이번 Alpha Go 버전에는 이전보다 "가치 네트워크" 심층 컨벌루션 네트워크 DCNN이 추가되었습니다. 그는 게임을 끝까지 계산하지 않고도 양 당사자의 승률을 평가할 수 있는데, 이는 이전 기사에서 언급한 것처럼 계산이 크게 감소한 것입니다. 이 기술은 원래 이미지 인식 기술에 사용되었습니다.
이때 이세돌의 체스력은 3,500이 넘었다. 최고 레벨(경력 9레벨)을 초과하는 것과 동일합니다.
커지에의 체스 파워는 약 3600이다.
실제로 이세돌에 대한 도전이 발표되었을 당시 알파고는 이세돌에게 400점 정도 뒤져 있었다. 스스로 많은 게임을 함으로써 체스 실력을 향상시킵니다. (판휘를 쓰러뜨렸을 때, 인간 아마추어 고레벨 전투의 역사적 데이터를 관찰하여 배웠다. 더 강한 상대를 이기기 위해서는 더 숙련된 플레이어, 즉 자신에게서만 배울 수 있었다.) 프로그램의 체스 능력은 연속 게임을 하는 동안 지속적으로 향상되며, 향상된 체스 능력은 자신과 대결할 때 더 높은 수준의 체스 데이터를 생성합니다.
링 형제가 이세돌을 꺾었을 때 알파 바둑의 체스 실력을 보지는 못했지만, 2016년 3월 이세돌을 꺾었을 때 알파 바둑의 체스 실력이 약 3800이라고 간단히 계산해봤습니다. (5개 게임 중 3개 게임의 230점과 95% 승률의 차이는 단일 게임의 승률 80% 이하로 계산할 수 있기 때문입니다. Li의 체스 파워는 약 3530입니다.) 따라서 Ke Jie는 더 이상 Alpha Go의 상대가 아니었습니다. 그때에.
이제 알파 바둑은 모든 바둑 대가에게 60회 연속 승리에 도전합니다(유일한 무승부는 인간 플레이어가 오프라인 상태일 때였습니다). 현재 체스의 강점은 평가하는 것이 불가능합니다.
왜냐하면 게임에서 패하지 않으면 자신의 체스 실력이 어느 정도인지 알 수 없기 때문입니다. 체스 파워 계산 방식에 따르면 체스 파워는 무한대여야 하는데, 이는 드래곤볼 만화 속 전투력이 차트에서 벗어났다는 뜻이다. 최소한 한 경기를 져야만 그의 실제 체스 실력을 가늠할 수 있습니다.
기타:
알파라고 하면 인간 체스와는 달리 기대감이 없습니다. 인간이 체스를 배우는 동안 체스 게임의 규칙과 게임 방법을 요약하고 인과 관계와 논리적 관계를 분석합니다. 딥블루와 다르지 않지만 평가 방법이 다릅니다.) 별로 현명하지도 않고 온갖 전략을 다 알고 있습니다.
알파고는 동물을 훈련시키듯 학습합니다. 올바른 조치를 취하면 보상을 받고 향후 더 높은 확률로 해당 단계를 밟도록 권장됩니다. 잘못된 조치를 취하면 처벌을 받게 됩니다. 그리고 이 효율성은 사실 매우 낮습니다. 실제로, 높은 수준은 매일 체스를 두는 법을 배우면 달성되는데, 이는 일반 프로 선수가 평생보다 더 오랜 시간이 걸리는 일입니다.
그리고 이 학습 과정은 '고차원적인 사고와 개념이 없는' 단순한 탐색 과정일 뿐입니다.
위에서 언급했듯이 알파고의 학습 효율성은 매우 낮습니다. 알파고는 3천만 개의 체스 게임을 학습했을 때 새로운 상황에 대한 적응력이 부족했기 때문에 분석 결과 이러한 체스 게임 중 상당수가 중복되어 16만 개의 체스 게임에 해당하는 것으로 분석되었습니다. 알파고를 훈련시키기 위해서는 수십만 개의 체스 게임으로는 충분하지 않습니다. 수천만 번의 체스 게임 훈련이 필요합니다. 따라서 TV 속 프로 체스 선수들은 알파고가 매 경기마다 이세돌에게 새로운 기술을 배우는 것은 불가능하다고 설명했다. 대신 이세돌은 알파고에게 배워 혁신적인 방법으로 알파고를 물리쳤다. 인간의 이런 능력은 인공지능이 갖지 못한 것이다.
인공지능 전문가들은 현재의 인공지능이 실제로는 진정한 지능이 아니라고 생각한다. 알파고는 체스 실력이 뛰어난 소프트웨어일 뿐이고, IBM의 왓슨은 질문에 대답하는 지적 능력이 뛰어난 기계일 뿐이다. 진짜 인공지능은 화이트보드 인공지능 기계가 바둑을 보고, 스스로 체스의 규칙을 배우고, 체스를 두는 방법을 스스로 추론하게 하는 것입니다. (현재 Alpha Go의 바둑 규칙과 기본 체스 전략은 모두 수동으로 프로그래밍됩니다.) Deep Mind는 실제 인공 지능 프로그램 개발에 전념하고 있습니다. 즉각적인 목표는 수백 번의 게임에서 인간을 이기는 것입니다. 이는 진정한 인공지능을 향한 첫걸음이다.