My deep learning

Данные изображения в компьютерном зрении. Пространственное представление.

Теги: computer-vision 

Данные изображения в компьютерном зрении. Пространственное представление.

Любое изображение можно определить в пространственной или частотной области. В данной статье рассматривается определение данных в пространственной области.

Изображение в пространственной области

Цифровое изображение определяется через дискретизацию непрерывных аналоговых данных в пространственной области. Такая область состоит из прямоугольного массива пикселей \((x, y, u)\), каждый из которых является комбинацией местоположения \((x, y) \in \mathbb{Z}^2\) (здесь \(\mathbb{Z}\) - множество целых чисел, а точки образуют регулярную сетку) и значения \(u\), представляющего отсчета в точке \((x, y)\). Формальное определние изображения \(I\) на прямоугольном множестве \(\Omega\) (носитель или carrier \(I\)):

\[\Omega = \{(x, y) : \leq x \leq N_{cols} \wedge 1 \leq y \leq N_{rows}\} \subset \mathbb{Z}^2\]

при условии, что \(N_{cols} \geq 1, N_{rows} \geq 1\), а система координат левосторонняя.

Пиксели

Два способа геометрической интерпретации пикселя - в виде ячейки сетки или в виде меток в узлах сеток, являющихся центрами ячеек сетки.

Модель ячейки сетки предполагает, что пиксель - это закрашенный одним цветом квадрат. Модель узла сетки предполагает, что пиксель - узел сетки, помеченный значением изображения.

Пиксели сами по себе не определяют никаких отношений смежности. В модели ячеек сетки пиксели смежны тогда и только тогда, когда соответствующие им квадраты имеют смежную сторону. Другой вариант определения смежности - считать смежными различные квадраты, имеющие хотя бы одну общую сторону или вершину.

Окна

Окном изображения \(W_p^{m, n}(I)\) называется часть изображения \(m \times n\), спозиционированная относительно начального пикселя \(p\). По уиолчанию считается, что \(m, n\) нечетные, а \(p\) центр окна.

Основные статистики изображения

В компьютерном зрении в качестве области скалярного изображения часто рассматривают отрезок вещественных чисел \([0, 1] \in \mathbb{R}\).

Для скалярных изображений выбираются целые числа \(u \in {0, 1, ..., 2^{\alpha} - 1}\). Такие значения интерпретируются как уровни яркости, 0 соответствует черному, а \(2^{\alpha} - 1\) белому, остальные уровни линейно интерполируются между белым и черным. Стандартом \(\alpha\) может быть 8, 16 и т.д., в текущий момент 16.

В бинарном изображении пиксели приобретают только два значения - белый и черный.

В векторных изображениях число каналов больше одного, значениями изображений являются векторы \((u_1, u_2, ..., u_{N})\). К примеру, в RGB три канала - красный, зеленый и синий, каждый канал при этом представляет из себя просто скалярное изображение.

Среднее или средний уровень яркости.

\[\mu_I = \frac{1}{N_{cols} \times N_{rows}} \sum_{x=1}^{N_{cols}} \sum_{y=1}^{N_{rows}} I(x, y)\]

здесь \(\| \Omega \| = N_{cols}, \times N_{rows}\) - мощность носителя \(\Omega\), содержащего все пиксели.

Дисперсия и стандартное отклонение

\[\sigma^2_I = [\frac{1}{\| \Omega \|} \sum_{(x, y) \in \Omega} I(x, y)^2] - \mu^2_I\]

Квадратный корень из дисперсии - это стандартное отклонение. Такое представление дисперсии позволяет считать среднее и дисперсию одновременно при первом проходе через изображение.

Гистограмма - это таблица частот. Гистограмма реализует представление скалярного изображения или одного из каналов векторного изображения.

Абсолютные частоты (сколько раз значение \(u\) встречается в \(\Omega\))

\[H_i(u) = |{(x, y) \in \Omega : I(x, y) = u}|\]

Относительные частоты - значения, распределенные между 0 и 1:

\[h_I(u) = \frac{H_I(u)}{\| \Omega \|}\]

Абсолютная гистограмма представляется значениями \(H_I(0), H_I(1), ..., H_I(G_{max})\)

Для кумулятивных гистограмм вычисляются абсолютная и относительная кумулятивные частоты:

\[C_I(u) = \sum_{v=0}^u H_I(v)\] \[c_I(u) = \sum_{v=0}^u h_I(v)\]

Дисперсия, мат.ожидание и другие статистики вычисляются так-же для окон. В процессе анализа можно классифицировать окна по категориям, к примеру как содержащие однородные области, с низкой или высокой контрастностью, содержащие границу областей и т.д.

Контрастность определяется как средняя абсолютная величина разности между значением пикселя и средним значением соседних пикселей.

\[C(I) = \frac{1}{\| \Omega \|} \sum_{(x, y) \in \Omega} | I(x, y) - \mu_{A(x, y)} |\]

Пространственные и временные меры

Для получения полезной информации визуализируются профили яркости, определяемые одномерными сечениями скалярных массивов данных. По сути, это окно, одна из сторон которого имеет значение 1. Для профилей яркости можно считать все вышеуказанные статистики.

Гистограммы и профили яркости - это пространственные статистики значений. Чтобы получить временные статистики, рассматривается последовательность изображений, полученных на одном и том же носителе \(\Omega\). Для лучшего понимания распределения значений пространственных метрик вводятся скалярные меры данных, которые сопоставляют одному кадру \(I\) одно число. Сравниваются различные меры данных для заданного дискретного временного интервала, в результате чего получаются временные статистики.

Временные статистики определяют функции, которые, при нормировке, позволяют оценить расстояние, в частности \(L_1\) и \(L_2\) нормы. Кроме того, оценивается структурное подобие мер данных - функции структурно подобны, когда расстояние между ними близко к нулю, а локальные максимумы и минимумы функций находятся приблизительно в одних и тех же точках.

Ступенчато-градиентная модель (step-edge model)

Границы на изображениях предоставляют важные данные о содержании изображения. Границы определяются изменением локальных производных. Такие границы могут представлять из себя как идеальные “ступеньки”, так и зашумленные или линейные переходы, резкие или плавные изломы.

step-edge model

Для оценки локальных производных значение изображения интерпретируют как аппликатуру некоторой поверхности в точке расположения пикселя. При такой интерпретации изображение определяет долины, плато, плавные или крутые склоны, т.е. имеет рельеф. Значения частных производных по \(x\) и по \(y\) позволяют вычислить градиент высоты аппликатуры. Границы находятся в точках, где модуль градиента достигает локального максимума:

\[||\mathbf{grad} I ||_2 = \sqrt{(\frac{dI}{dx})^2 + (\frac{dI}{dy})^2}\]

Кроме того, вторые производные определяются в лаплассиан \(I\), который является скаляром. Границы находятся там, где лаплассиан переходит через 0.

Все статьи с тегом computer-vision

Этот проект поддерживается KonstantinKlepikov