Image Processing画像処理

画像分類

「猫」や「犬」のような正解ラベルがついている画像に対して、その画像がどちらのラベルに属するか予測するタスクを画像分類といいます。画像分類を活用することで、人の顔から年齢を推定することや、商品の中から欠陥品を特定することができます。

ディープラーニングを用いた画像分類では、大量の正解ラベルがついた画像が必要ですが、近年では、既存のモデルをベースとすることで、正解ラベルの付いた少量の画像でも、高精度に画像分類が行えることがあります。

関連項目

顔年齢推定(Demo App)


物体検知

画像中の特定の物体を矩形で囲むタスクを物体検知といいます。例えば自動運転中に、人間や障害物を発見するために活用されています。

ディープラーニングを用いた物体検知では、画像中の検知したい物体を囲む矩形を手作業で入力した学習用データを用意しなければいけません。そのようなデータを大量に用意すれば、近年ではGoogleが開発したAPIなどを使用し、ある程度の精度の物体検知は簡単に実現できるようになりました。

一方で、用意できる画像の枚数が少なかったり、特殊な物体を検出したい場合、より特化したディープラーニングモデルを使用することで、精度の高い物体検知を実現することができます。

関連項目

GCPの登録とVision APIで物体検出(ブログ)


画像生成

大量の同質な画像データから、新たな画像を生成する技術を画像生成と総称します。具体的な応用として、大量の顔画像を用いて実在しない人の顔画像を生成するモデル、線画から絵画を生成するモデル、文章から画像を生成するようなモデルなどが開発されています。

この分野ではVAE系・GAN系の大きく2つ手法群が用いられます。VAEはエンコーダー・デコーダーモデルの一種で、画像をベクトル化するモデル(エンコーダー)とベクトルを画像化するモデル(デコーダー)の2つのモデルから構成させるモデルになります。GANは画像を生成するモデルと画像が本物か否かを識別するモデルを使用し、画像を生成するモデルを強化していく手法です。

関連項目

pyroによる変分オートエンコーダー(VAE)の実装(ブログ)