アノテーション

教師データと文字認識

教師データとは教師あり学習とも呼ばれている機械学習の一種です。 機械学習とは人工知能に人間特有の学習能力、もしくはそれと同等の計算や思考を実現させるための技術であります。その手段である教師データは事前にラベリングされたデータをガイドにして人工知能に学習させ、そしてラベリングされていないデータのタグ付けもとい分類をしていくのが目的です。高品質な人工知能を生み出すためには教師データは欠かせないと注目されています。 言葉にすると難しいものの、教師データは言わば正解とガイドとなるデータを与えて学ばせていくだけです。 例えば1という数字について教える場合、1という数字の表記には様々あります。漢数字や英数字の他に文字フォントによって数多くの形状があるものの、教えられる前の人工知能やプログラムにはその判別ができません。しかしそれらの1に対して「これは1だ」とデータとして教えられれば共通の特徴を見出していきます。この教えるデータが教師データで、その問題となっているデータをデータセットや学習データとも言うのが現状です。用意する量は500から500万とも言われていますが、多ければ多いほど良いのは言うまでもありません。 まだ一般には聞きなれない単語ではあるものの、画像認識や音声認識といったセキュリティ面では浸透しています。 文字及び画像認識なら画像を、音声認識には音声を当てはめていかなくてはいきませんがラベリングとタグ付けを丁寧に行えば精度は高まります。余談ですが、教師データという名称の由来は事前に与えられたデータを先生からの助言のように従い、学習していく様から名付けられたそうです。 そんな教師データは応用もされており、わざと誤った正解を与えたり情報を不十分にしたりして学習していく方法を半教師あり学習と呼んでいます。これはプログラムや人工知能が誤った学習をした状態でも正解を与えれば正解率を上げる事は可能だいう証明です。

パートナー企業一覧