アノテーション

教師データとラベリング

教師ありで機械学習をさせるために使用するデータは、ラベリングをしなければいけません。 しておおくと、システムが自動でデータの内容を判断できます。 ですから機械学習に用いる教師データは、ラベリングが重要です。 誰が見ても同じ分類ができるタグ付けをしなければ、人間と同じように機械も曖昧になってしまいます。 機械にも曖昧になってしまったら、高品質を実現するのは難しくなるでしょう。 高品質なラベリングを人間がするためには、2人以上で行うのが良いです。 2人以上で行う理由は作業を分割して、早く終わらせるためではありません。 作業をするのが2人でも3人でも、全てのデータをタグ付けして下さい。 同じデータを複数の人間がラベリングすることにより、普遍的なタグ付けができるようになります。 人数が少ないと1人の意見に偏り普遍的なタグ付けができなくなるので、ラベリングは複数で行うようにしましょう。 もし一つのデータに対して別々のタグ付けがされてしまったら、あらかじめ決めておいた方法で対応すると良いでしょう。 たとえば意見が分かれた場合は協議して一致させる、不一致になってしまったデータは捨てて使わないなど、あらかじめ決めておくとスムーズにラベリングできます。 ただし協議して一致させる場合は時間がかかるデメリットがあり、時間を節約するために捨てると教師データの数が少なくなってしまう点には注意です。 またラベルの数は、できるだけ少ない方が理想です。 多くなればなるほど難易度が高くなり、期待通りの精度を得られなくなるデメリットがあります。 高品質な教師データを使えば、機械に学習させた内容もレベルが高いものになります。 そのため高品質なシステムを機械学習で作り上げるためには、正確にラベリングされた教師データを用意しなければいけません。 高品質なシステムで効率を上げるために正確にラベリングすることは重要ですから、複数で丁寧にタグ付けをして作るようにしましょう。

パートナー企業一覧