アノテーション

教師データの正確さ

機械学習を行わせるにあたり、精度の高さが問われます。この精度が高いことで機械学習の質がより高まることになります。この時に必要なのが高品質な教師データです。実際に機械学習を行わせ、分類モデルを作る際にはラベリングが正しくなされたものを使う必要があります。人力でラベリングをすることもあるので、この時に正しくラベリングを行っていかないと間違ったものを認識し始めることになり、結果的に間違った機械学習が行われることが考えられます。それぞれに正しくラベリングやタグ付けをして初めて正常に動き出すことになります。 教師あり学習と呼ばれるものでは、入力データと正解データの2つがあります。例えば迷惑メールを振り分けて排除するものを作る場合、人間側でこうした言葉は迷惑に感じるから排除すると入力してタグ付けを行い、それを踏まえて選別が行われます。間違ってちゃんとしたメールを迷惑なものとして扱ったとしてもユーザー側が正しく指摘することで学習できるので結果的にその精度は上がります。言葉を扱うものなどはこれが迷惑かどうかというのは機械だけでは判断できません。そのために、人間側でタグ付けをきちんと行わないと高い精度にはつながらないというわけです。 いわば教師データは機械学習を行って予測をする際の材料です。機械学習を行う際にそのデータが正しいという前提で予測が行われることから、ラベリングやタグ付けが本当に重要になります。精度が低ければ前提が崩れてしまって予測の意味がありません。一方で学習のし過ぎという問題も存在します。できるだけ誤差をなくそうとたくさんの教師データを活用することで不自然な状況を生み出すケースが見られます。これを解決するにはかなり膨大な教師データが必要ですが、中途半端にしか用意できないと不自然な動きをします。 いかに大事かがわかる一方で、高品質なものを作り出すには多くの人力によって成り立たせるか、正解ができるだけ限られる分野での活用が求められます。

パートナー企業一覧