アノテーション

教師データの活用法

機械学習の注目は急速に高まってきているのですが、具体的な活用法となるとまだ漠然としていて抽象的な状況に置かれているといえます。ビッグデータが機械学習には必要であることまでは多くの方が理解できています。しかしそのデータの品質までには注意が行き届いていない状況が散見されます。そういった問題点を考慮して具体的に解説してみます。機械学習というものは、3つの学習方法によってデータを蓄積させていきます。1つめは教師あり学習と呼ばれているものです。この方法では学習するためのデータに正解というタグ付けされたラベリングを行うことになります。動物の画像を1枚1枚見せることでこの画像はサル、この画像はライオンといったようにラベリングしていくのです。この方法では学習させていない分類を言い当てることは不可能となります。2つめの方法として教師データなしの方法というものがあります。この方法でネコを識別できる人工知能がニュースで大々的に取り上げられてかなりの注目を集めることになりました。この方法では画像に対してネコというラベル付けをすることなく1週間画像や動画を取り込み続けた結果として、これはネコですという識別を自立的に行えるまでに到達しているのです。この行程は人間が生まれてから様々な情報に晒されているうちにこれはネコだと認識する流れに非常に近似していると考えられます。この識別方法からさらに進んだのが囲碁の世界で人間に打ち勝つことのできた3つめの強化学習という方法です。現在の状況を正確に認識した後に正解の存在していない解に対して最も将来の価値を最大化できる選択は何なのかを判断することができるようになったのです。教師データなしの方法であれば必ずしも高品質なデータに依る必要がないことが画期的なのです。そしてこういった学習を根本的に支えているのが統計の考え方です。数多くのデータの関係性を探る回帰と正誤判断や特徴を見出していく分類という統計での手法が必要不可欠となっています。

パートナー企業一覧