アノテーション

教師データの重要な作業

AI開発では学習データのラベル付けのことをアノテーションと呼んでいます。この作業はとても重要な作業だといわれており、AIの学習には正解とラベリングされたタグ付けデータによって学習をさせることが必要だといわれているのです。例えば、画像学習データなら、それぞれの画像に対してこの画像はトランペット、この画像はバイオリンといったように正解ラベルを付与するのです。この作業は手作業で行われ、精密かつ大量なデータを学習させることが必要とされており、こうしたラベル付け自体も膨大な工数がかかるのです。 そのため、企業においてAI開発に取り組むという試みを実施する際でも必須となるラベル付け作業には人員が足りないということもあるといわれており、こうしたラベル付け作業は専門の機関に行ってもらうという方法が現段階では現実的なものだと考えられているのです。 こうしたデータは国内外研究所や大学、一部の企業などが公開しているというケースもあるのです。そうしたデータ作成者はその分野のディ―プラーニング分野の専門家たちであり、学習や評価などに十分に対応できる高品質データセットを提供しているということなのです。そして、こうしたデータを用い、ウェブ上のサンプルプログラムを実行してみるととても簡単に結果を得ることができるため、こうしたスタイルの学習はとても簡単なことだと思われることがあるかもしれないのです。 しかし、実用化スタンダードの機械学習結果を作り上げるには独自手法による学習データ収集が行われており、そのことが有効な結果に結びついているということを知るということも大切といえるのです。こうしたデータセットは繰り返し改訂されることも必要となっており、継続的に改訂可能な環境をもつところで作成された教師データを用いる意味もあるということなのです。適切な評価が可能であるということと初心者などに対する理解しやすさ、扱いやすさといった点も必要といわれます。

パートナー企業一覧