Skip to content
記事一覧へ

アノテーションデータ収集依頼時の注意点

image (1)-1

 

精度の高いAIを構築するためには品質が良いデータによる学習が欠かせず、品質の良いデータを得るためには適切にアノテーションを行うことが重要になります。アノテーション自体も重要な工程ではありますが、それと同様に重要なことは、アノテーション対象となる「元のデータ」です。目的に合わないデータを収集してしまうと、どんなに質の高いアノテーションを施したとしてもAIの精度は向上しません。

本記事では、データ収集時の注意点を6つご紹介します。最後までお読みいただくことで、データ収集の基礎から応用までを詳しく知ることができます。


収集するデータの品質の重要性


image (17)-4


AI分野でのアノテーションは、画像・動画・音声などに情報タグを付けることを意味します。AIはアノテーションされたデータを用いて学習するため、アノテーションはAIの精度に大きく関係する重要な作業です。そしてアノテーションを行う上で非常に重要なことは、アノテーション対象となる元のデータの品質です。

例えば、犬の動きを解析するAIを構築したい場合に、猫の画像や同じポーズの犬の画像ばかりを集めていては、そのデータがほぼ無駄になってしまいます。さらに、病気の犬の行動を解析したい場合に、健常な犬の動画ばかりを学習させていては、AIは病気の犬の行動パターンを掴むことができません。

このように、たとえ多くのデータを学習していたとしても、目的に合わないデータの偏りがある場合には構築されるAIの精度は低くなってしまいます。

 

ネクストリーマーでは、高品質な教師データの作成において数多くの実績を持つAI専門技術者が
アノテーションサービスを提供しています。アノテーション外注を少しでもお考えの方は、
無料で相談可能ですので、いつでもご相談ください。



収集時の6つの注意点


image (4)-1


データ収集時に注意したいポイントを6つご紹介します。

①開発段階に応じてデータ収集の目的を明確にする
②十分なデータを用意する
③実際の運用環境に合ったデータを収集する
④必要なパターンを網羅できるようにする
⑤データに偏りがでないようにする
⑥個人情報の取扱いに留意する

それぞれの注意点について説明します。



①開発段階に応じてデータ収集の目的を明確にする

データ収集の目的は「AIの精度を上げる」ことです。しかし、AIの開発段階に応じて以下のようにデータ収集の目的は変化し、集めるデータの特性も変わります。

image (18)-3



「最初期テスト段階のデータ収集」では、AIの初期精度を計測するために、まずは必要最低限のデータを収集する必要があります。これは、AIを構築した段階でどの程度の精度となるかを判断するために必要なプロセスです。

「モデルの運用を目指したデータ収集」では、実際にAIを稼働させるために必要なデータを収集する必要があり、比較的多くのデータが必要です。

「改善のためのデータ収集」では、精度が初期想定より低い箇所のデータを重点的に集めます。例えば、自動運転での動画分析において走行車を捉える精度が低ければ、自動車の画像データを追加でAIに学習させることが必要でしょう。

このように、目的によって集めるデータの種類・量が異なるため、ステージに応じてデータ収集の目的を明確にすることが非常に重要です。3つの開発段階ではそれぞれ目的が異なるため、どのようなデータを収集して学習させれば精度の高いAIになるかを考えるようにしましょう。



②十分なデータを用意する

データのサンプル数が少ないと十分な学習ができないため、AIの予測精度が低くなってしまう可能性があります。

AIは、教師データ(アノテーションされたデータ)を用いて学習を行います。そのため、教師データに全く出現していない未知の事象の予測はできません。データ数が少なく、学習している事象が少ないと、正確な予測や分析ができなくなるのです。


ネクストリーマーでは、高品質な教師データの作成において数多くの実績を持つAI専門技術者が
アノテーションサービスを提供しています。アノテーション外注を少しでもお考えの方は、
無料で相談可能ですので、いつでもご相談ください。



③実際の運用環境に合ったデータを収集する

AIが正しくデータを認識予測するためには、実際に運用する状況に近いデータを収集することが望ましいと考えられます。そのため、特殊な環境で稼働するAIを構築する場合には、現地に行ってデータを収集したり実際の状況に近いデータを選定して収集する必要があります。

実際の運用環境に合わせたデータを選定して収集する上で、データの種類への留意は欠かせません。ここでは、代表的なフォーマットである画像・動画、音声、テキストに分けて説明します。


・画像・動画

image (10)-4


画像や動画の場合、実際の運用状況に近い画角や画素数のデータを用いて学習を行うことが理想です。そのため、精度の高いAIを運用したいならば、実際の運用場所にカメラを付けて画像・動画データを収集するとよいでしょう。

例えば、橋の上から車を捉えるような場合を想定すると、実際に橋の上からの画角でのデータを取得できるとよいです。もし、路上で正面から車を撮ったような画像では、運用する際の見え方とは大きく異なるため意味のないデータとなってしまう可能性が高いと考えられます。



・テキスト

image


画像・動画データと同様に、テキストデータに関しても目的に応じたデータ収集をする必要があります。

例えば、古文や新聞などの特有の表現が用いられているテキストを解析する場合、それぞれの文章に対応できるようなデータを集める必要があります。加えて、専門用語が多用される論文の解析をするためには、専門用語の他、使用される機器などが含まれている文章をデータとして集めなければいけません。

また、音声データをテキストに起こしてから解析することも多いです。その場合は、同様の環境を学習するために、音声データをテキストに起こしたデータを収集する必要があります。



・音声

image (9)


音声データを正しく学習させる場合は、「あの」「えー」「うーん」といった感動詞をAIに学習させる必要がある場合が考えられます。

例えば、口語を学習していないAIは「あの~、家が…」という文章と、「あの家が…」とという文章を区別する精度が低くなると考えられます。しかし、感嘆詞を学習しているAIは、前者の「あの~、」を感嘆詞として認識できるため、両者の文章を異なるものとして区別することができるようになります。

その他、方言ごとの独特なイントネーションや若者言葉なども口語ならではの言葉です。解析したい音声の話者が強い方言を話す方であれば、それに応じた学習をさせる必要があります。



④必要なパターンを網羅できるようにする

AIの運用目的によっては、より細かい情報まで学習するためのデータを収集する必要があります。

例えば、走行する車を映像の中で捉えるAIの目的によっては、単なる走行車としてではなく「定員数」や「車の種類」も解析したい場合もあります。これらをAIに学習させるためには、5人乗りや7人乗りの車の画像をバランスよく学習させる必要があります。

しかし、7人乗りの車のデータ数が少なかったり、そもそも学習していなかったりすると、その認識精度は低くなってしまいます。このように、同じAIであっても必要となるデータのパターンは目的によって異なります。「車の種類は計測したいが、歩行者の性別は不要」という場合には、人に関する画像の高度な学習は不要ですが、車に関しては多くの画像パターンが必要になるでしょう。

目的に応じたパターンを網羅できるようにデータ収集を行いましょう。


⑤データに偏りがでないようにする

「どんなものでもいいから、とにかく多くのデータを学習させた方が良い」

これでは、質の良いAIは構築できません。確かに学習用のデータは多い方が良いですが、色々なデータをバランスよく学習させなければ、精度の低いAIになってしまいます。

特定のクラス(カテゴリ)のデータのみが多くなると、それ以外のクラスを予測する能力が低いAIが構築されてしまう可能性があります。

例えば、人・車・自転車の流れを計測する目的で画像データを集めて学習させるとします。しかし、自転車に関するデータがあまり集まらず、人と車に関するデータが多くなることもあります。結果として、人と車は精度よく認識できるのに対して、自転車とバイクの見分けがつかないようなAIが構築されることが考えられます。

このように、特定のクラスのデータに偏ってしまうと、そのクラスの精度は高くても総合的には精度の低いAIが構築されます。このような事態にならないよう、バランスよくデータを集めるようにしましょう。


⑥個人情報の取り扱いに留意する

画像や音声データをはじめ、あらゆるデータには個人情報が含まれる可能性があります。データから特定の個人を識別できれば個人情報となるので、収集する際や収集後のデータの取り扱いには注意です。


まとめ


本記事では、データ収集における注意点を紹介してきました。

適切に構築されたAIは、人間にはできない予測や解析を高い精度で行ってくれますが、AI構築の土台であるデータ収集が適切に行われていないと精度の低いAIとなってしまいます。AIに基本的な知見のある方が適切なデータ収集を行うようにしましょう。

社内でAIに関する人材がいない場合は、外部委託することも考えられます。人材や教育コストを割かなくてよい上に、データ収集のノウハウ・リソースを持った企業であれば、質の高いデータを集めることができます。

 

ネクストリーマーでは、高品質な教師データの作成において数多くの実績を持つAI専門技術者が
アノテーションサービスを提供しています。アノテーション外注を少しでもお考えの方は、
無料で相談可能ですので、いつでもご相談ください。

 

 

autor profile