アノテーション

教師データ作成と大量の情報

教師データの作成では、より詳細な内容を反映させるためにアノテーションを採用する事例が増えています。 アノテーションとは単純なデータでは計り知ることのできない内容について、ひとつのデータに対してさまざまな要素を紐付けることで具体的な輪郭を浮かび上がらせることが可能な手法で、教師データ作成の例では氏名や担当科目、これまでの生徒の成績や上昇率などの実績と言った基本情報に加えて、生徒や親からの評価としてポジティブ、ネガティブ、ニュートラルなどの属性を付与するなど数値化が難しい要素でも分析することが可能です。 これらの生徒や親からの評価は主観的で一過性の感情が反映されたものもあれば、客観的かつ冷静に判断されたものなどさまざまですが、サンプル数を増やして大量のアノテーションデータを作成することにより機械学習の精度が高められます。 同時にサンプルの中には正しいものや間違ったものが混在している可能性もあり、常にアノテーションプロセスの分析や解析を行ない、解析の元となる基礎データの質を向上させる必要があります。 ここで大きな課題となるのがアノテーションのためのデータの入力作業で、対象となる教師やサンプル数が多ければ膨大な時間を要します。 現時点ではワーカー数を増加して人海戦術で行うしか事実上手段は無く、それに伴う人材の確保と人件費のコストが負担となります。 将来的にはこれらの作業を人間が行うのではなくAIなどに置き換えられ、入力作業が行われるのと同時進行で間違いのあるデータの削除が自動的に行われるようになり、アノテーションプロセスの効率は格段に上がることが予想されています。 現在のワーカー数を増やして人海戦術で行うという手法は、AIの導入が当たり前となる時代までの過渡期の手段ですが、それ以外の手法の誕生にはもう少し時間がかかる見込みです。 そのような背景もあり教育の現場では完全なる教師なし学習と、教師ありで少数のアノテーションデータを併用して活用するなどの方法が検討されています。

パートナー企業一覧