图像分类：如何识别图像的内容？

课程概况

¿Te interesa la visión por computador? ¿Te gustaría saber cómo se puede reconocer el contenido visual de las imágenes y clasificarlas a partir de su contenido?

En este curso aprenderás diferentes métodos de representación y clasificación de imágenes. El temario del curso te permitirá conocer el esquema básico de clasificación de imágenes conocido como Bag of Visual Words. A partir de este esquema básico aprenderás cómo utilizar varios descriptores locales de la imagen así como los métodos de clasificación más habituales. También describiremos diferentes extensiones del esquema básico que permiten combinar distintos descriptores, incluir información espacial o mejorar la representación final de la imagen.

Finalizar el curso te permitirá:
• Diseñar soluciones adaptadas para diferentes problemas de clasificación y reconocimiento de imágenes
• Conocer las principales técnicas usadas para la descripción y clasificación de una imagen
• Acceder a las herramientas que permiten el desarrollo de aplicaciones reales de clasificación de imágenes

El curso está orientado tanto a estudiantes universitarios de algún grado relacionado con la informática, la ingeniería o las matemáticas, como a otros estudiantes con conocimientos de programación, interesados en aprender cómo utilizar técnicas de visión por computador para extraer información de las imágenes.

课程大纲

Introducción a la clasificación de imágenes

En esta primera semana explicaremos los fundamentos de la clasificación de imágenes y presentaremos todos los pasos de un primer sistema de clasificación básico. Para ello, primero veremos algunos conceptos básicos sobre el procesamiento de una imagen que nos servirán para introducir un primer método para detectar y describir características locales (SIFT) en una imagen. Luego veremos cómo podemos agrupar estas características locales para representar toda la imagen y explicaremos un primer clasificador simple, k-NN. Finalmente comentaremos los aspectos básicos de la evaluación del rendimiento de un sistema de clasificación de imágenes.

Bag of Words (BoW)

Esta semana introduciremos Bag of Words como método de representación básico que utilizaremos mayoritariamente a lo largo de todo el curso. Explicaremos todos los detalles necesarios para construir la representación BoW de una imagen, incluyendo la construcción del vocabulario utilizando K-Means y cómo agregar la información de las características locales en la representación final en forma de histograma. En la segunda parte de la semana explicaremos Support Vector Machines (SVM) como método de clasificación, tanto los conceptos fundamentales como su formulación matemática y los detalles para entrenar y utilizar un clasificador basado en SVM. Finalmente, completaremos la explicación de la evaluación del rendimiento que introducimos en la primera semana.

Extracción de características

En esta semana completaremos la explicación de métodos de extracción de características que iniciamos en la primera semana ofreciendo alternativas a la utilización de SIFT. En concreto veremos SURF como un nuevo método de detección y extracción más eficiente computacionalmente que SIFT. Para aumentar la capacidad descriptiva de las características analizaremos otras estrategias para la detección de características locales e introduciremos descriptores que nos permitan tener en cuenta la información del color en la imagen. Veremos también como podemos también mejorar la eficiencia computacional reduciendo la dimensión de los descriptores de carácterísticas locales.

Estrategias de fusión

En esta semana veremos cómo podemos combinar diferentes descriptores que aportan diferente tipo de información en el esquema de representación BoW. Explicaremos los diferentes niveles a los que se puede hacer esta combinación: a nivel de descriptores locales (early fusion), a nivel de construcción del vocabulario (intemediate fusion) o a nivel de clasificador (late fusion)

Incorporación de información espacial

En esta semana abordaremos cómo podemos incorporar información espacial de los objetos de la imagen en la representación BoW. Para ello introduciremos el concepto de pirámide espacial y cómo se utiliza para modificar la representación básica del BoW de forma que tengamos en cuenta la localización en la imagen de cada característica local. Veremos también cómo podemos comparar imágenes que utilizan la pirámide espacial. Finalmente explicaremos una forma de aprender la configuración óptima de una pirámide espacial.

Técnicas avanzadas

En esta última semana veremos algunas técnicas avanzadas que pueden ser extensiones o alternativas al BoW cuando nos enfrentamos a problemas de clasificación complejos por el tipo o el número de imágenes. En primer lugar veremos los GMM como un método alternativo para construir el vocabulario que nos servirá también para explicar Fisher Vector como otra posibilidad de agregar todas las características locales en una representación de toda la imagen. En el mismo sentido explicaremos también VLAD. Finalizaremos el curso con una breve introducción a las redes neuronales convolucionales (CNNs) que se están constituyendo como un esquema alternativo para la clasificación de imágenes, especialmente en problemas con muchas clases e imágenes.