「アルファ碁」アップグレード…人間の棋譜は入力せずゼロから学習（１）

ⓒ 中央日報/中央日報日本語版2017.10.19 15:41

５月に柯潔九段（左）は「アルファ碁マスター」と３回対局し、全敗した。（写真＝グーグルディープマインド）

人工知能（ＡＩ）囲碁プログラム「アルファ碁」の限界はどこだろうか。すでに人間を越えたアルファ碁がさらに強くなって帰ってきた。帰ってきたアルファ碁は人間の知識に頼らず自ら成長した。

科学専門国際学術誌『ネイチャー』に１９日、「人の知識なしに囲碁をマスターする」（Ｍａｓｔｅｒｉｎｇ　ｔｈｅ　ｇａｍｅ　ｏｆ　Ｇｏ　ｗｉｔｈｏｕｔ　ｈｕｍａｎ　ｋｎｏｗｌｅｄｇｅ）」という論文が掲載された。著者はディープマインド最高経営責任者（ＣＥＯ）のデミス・ハサビス氏、開発者のデビッド・シルバー氏など１５人だ。

論文によると、新しいバージョンのアルファ碁は棋譜を全く入力せず、自ら訓練する強化学習だけで従来のアルファ碁を越えた。新しいバージョンは「０」から新たに始めたという意味で「アルファ碁ゼロ（ａｌｐｈａＧｏ　Ｚｅｒｏ）」と名付けられた。

これを受け、噂が広まっていた「棋譜なしに成長するアルファ碁」の存在が確認された。ハサビス氏は１月に独ミュンヘンで開催された「２０１７デジタル・ライフ・デザイン（ＤＬＤ）カンファレンス」で、「アルファ碁が新しい限界を試している」とし「２番目の段階でアルファ碁に棋譜を入力せず、最初から自らの強化学習だけで棋力を向上するテストをしている」と述べた。しかしその結果については知られていなかった。

◆８０００万件の強化学習…４０日間で成長

名前のように「アルファ碁ゼロ」は出発から以前のバージョンとは全く違う。以前のアルファ碁は先に人の棋譜を入力した後、強化学習を通じて棋力を高めた。このため最初からある程度は従来の囲碁の基本的な枠や形などを習得した状態であった。その後に人のように反復的な訓練過程を通じて棋力を向上する方式で開発が進行された。

しかし「アルファ碁ゼロ」は棋譜を入力しないため、囲碁に関する事前の知識が全くなかった。すべてのことを自ら学習した。訓練は無作為着手から始まり、約８０００万件の強化学習を通じて自ら答えを見つけていった。グーグル・ディープマインド社の表現のように「アルファ碁が自ら自身の師になった」ということだ。

ディープマインド側は論文を通じて「我々は囲碁の基本ルールを除いて棋譜や定石、布石などガイドラインを全く入力していない。強化学習だけを繰り返した結果、アルファ碁ゼロが従来のアルファ碁を越えたことを確認することができた」と明らかにした。続いて「さらに開発期間も過去のバージョンとは大きな差があり、成長速度も安定的で漸進的だった」と伝えた。

「アルファ碁」アップグレード…人間の棋譜は入力せずゼロから学習（２）

みんなの感想ランキング

1 / 2

社会・文化 記事

전체 카테고리 메뉴

「アルファ碁」アップグレード…人間の棋譜は入力せずゼロから学習（１）

関連記事

みんなの感想ランキング

最新記事

포토뷰어

「アルファ碁」アップグレード…人間の棋譜は入力せずゼロから学習（１）