주요 기사 바로가기

「アルファ碁」アップグレード…人間の棋譜は入力せずゼロから学習(2)

ⓒ 中央日報/中央日報日本語版2017.10.19 15:42
0
◆人の囲碁とは異なる戦略

このように開発されたアルファ碁ゼロは従来のアルファ碁を上回った。アルファ碁ゼロは以前のアルファ碁のうち最も強力な「アルファ碁マスター」を相手に90%の勝率となった。アルファ碁マスターは5月に中国の柯潔九段に3-0で勝利したバージョンだ。論文によると、アルファ碁ゼロとアルファ碁マスターが制限時間2時間で100回対局した結果、アルファ碁ゼロが89勝11敗と圧倒した。

 
アルファ碁ゼロの驚く棋力は数値でも確認できる。「ELOレーティング」(囲碁の実力を数値化した国際囲碁ランキング)で表記したアルファ碁ゼロの点数は5185点。アルファ碁マスター(4858点)より300点以上高い。昨年3月に李世ドル(イ・セドル)九段と対局したアルファ碁バージョン(3739点)より約1500点、2015年10月に樊麾(Fan Hui)二段と対戦したアルファ碁バージョン(3144点)より2000点以上も高い。

さらに驚く事実は、アルファ碁ゼロが現段階に到達するまで40日しかかかっていないという点だ。論文によると、アルファ碁ゼロが李世ドル九段と対局したバージョンのアルファ碁を上回ったのは学習を開始してからわずか36時間後だった。学習開始から72時間後には李世ドル九段と対戦したバージョンのアルファ碁を相手に100戦100勝と完勝した。

自ら成長したアルファ碁が棋譜入力を通じて成長したアルファ碁を越えたというのは何を意味するのだろうか。グーグル・ディープマインド側は論文を終えながら「学習の初期段階では棋譜を入力したアルファ碁の方が実行能力が上回り、プロ棋士の着手をよく理解した。しかし時間が経過するほど自ら強化学習したアルファ碁の競技力の方が全般的に優れている点を観察することができた」とし「人がこれまで積み上げてきた囲碁に対する接近法とは質的に違う戦略をアルファ碁ゼロが悟ったようだ」と分析した。

◆「強化学習は指導学習より良い結果」

カム・ドングン亜洲大電子工学科教授は「指導学習(棋譜入力学習)はガイドラインを提示し、偏見や固定観念に閉じ込められる限界状況が発生する可能性がある」とし「この論文は囲碁の領域で強化学習が指導学習より良い結果を出すことができるという事実を証明したという点で意味がある」と説明した。


「アルファ碁」アップグレード…人間の棋譜は入力せずゼロから学習(1)

関連記事

最新記事

    もっと見る 0 / 0
    TOP