画像認識を理解する

画像認識の課題

視点変動:現実の世界では、画像内のエンティティはさまざまな方向に配置され、そのような画像がシステムに供給されると、システムは不正確な値を予測します。つまり、システムは、画像の配置(左、右、下、上)を変更しても違いはないことを理解できず、そのため画像認識に課題が生じます。

スケールの変動:サイズの変動は、オブジェクトの分類に影響します。オブジェクトを近くで見るとサイズが大きくなり、逆もまた同様です

人工知能 画像認識

変形:オブジェクトは変形しても変化しません。システムは完全な画像から学習し、特定のオブジェクトは特定の形状のみであるという認識を形成します。現実の世界では、形状が変化し、その結果、システムがオブジェクトの変形画像に遭遇したときに不正確さが生じることがわかっています。

クラス間変動:特定のオブジェクトはクラス内で変動します。形状、サイズは異なりますが、同じクラスを表します。たとえば、ボタン、椅子、ボトル、バッグには、さまざまなサイズと外観があります。

オクルージョン:特定のオブジェクトは、画像の全体像を遮り、不完全な情報がシステムに送られます。 これらの変動に敏感で、広範囲のデータのサンプルで構成されるアルゴリズムを考案する必要があります。

ニューラルネットワークモデルをトレーニングするには、トレーニングセットに単一クラスと複数クラスに関連する多様性が必要です。 トレーニングセットで利用できる多様性により、テストデータでテストしたときにモデルが正確に予測できるようになります。 ただし、サンプルのほとんどはランダムな順序であるため、十分なデータがあるかどうかを確認するには手作業が必要であり、面倒です。

画像認識のための通常のニューラルネットワークの制限

  • データの膨大な可用性は、ハードウェアの可用性が限られているため、データの処理を困難にします。
  • モデルの曖昧な性質は、いくつかの領域での適用を禁止しているため、モデルの解釈は困難です。
  • 開発には時間がかかるため、開発時間によって柔軟性が損なわれます。 Kerasのようなライブラリを利用できるため、開発が簡単になりますが、その使用には柔軟性がありません。 また、Tensorflowはより多くの制御を提供しますが、それは本質的に複雑であり、開発により多くの時間を必要とします。