>>> На главную <<<

Любое зображение можно определить в пространственной или частотной области.

Изображение в пространственной области

Цифровое изображение определяется через дискретизацию непрерывных аналоговых данных в пространственной области. Такая область состоит из прямоугольного массива пикселей $(x, y, u)$, каждый из которых является комбинацией местоположения $(x, y) \in \mathbb{Z}^2$ (здесь $\mathbb{Z}$ - множество целых чисел, а точки образуют регулярную сетку) и значения $u$, представляющего отсчетв в точке $(x, y)$. Формальное определние изображения $I$ на прямоугольном множествуе $\Omega$ (носитель или carrier $I$):

\[\Omega = \{(x, y) : \leq x \leq N_{cols} \wedge 1 \leq y \leq N_{rows}\} \subset \mathbb{Z}^2\]

при условии, что $N_{cols} \geq 1, N_{rows} \geq 1$, а система координат левосторонняя.

Пиксели

Два способа геометрической интерпретации пикселя - в виде ячейки сетки или в виде меток в узлах сеток, являющихся центрами ячеек сетки.

Модель ячейки сетки предполагает, что пиксель - это закрашенный одним цветом квадрат. Модель узла сетки предполагает, что пиксель - узел сетки, помеченный значением изображения.

Пиксели сами по себе не определяют никаких отношений смежности. В модели ячеек сетки пиксели смежны тогда и только тогда, когда соответствую щие им квадраты имеют смежную сторону. Другой вариант определения смежности - считать смежными различные квадраты, имеющие хотя бы одну общую сторону или вершину.

Окна

Окном изображения $W_p^{m, n}(I)$ называется часть изображения $m \times n$, спозиционированная относительно начального пикселя $p$. По уиолячанию считается, что $m, n$ нечетные, а $p$ центр окна.

Основные статистики изображения

В компьютерном зрении в качестве области скалярного изображения часто рассматривают отрезок вещественных чисел $[0, 1] \in \mathbb{R}$.

Для скалярных изображений выбираются целые числа $u \in {0, 1, …, 2^{\alpha} - 1}$. Такие значения интерпретируются как уровни яркости, 0 соответствует черному, а $2^{\alpha} - 1$ белому, остальные уровни линейно интерпоируются между белым и черным. Стандартом $\alpha$ может быть 8, 16 и т.д., в текущий момент 16.

В бинарном изображении пиксели приобретают только два значения - белый и черный.

В векторных изображениях число каналов больше одного, значениями изображений являются векторы $(u_1, u_2, …, u_{N})$. К примеру, в RGB три канала - красный, зеленый и синий, каждый канал при этом представляет из себя просто скалярное изображзение.

Среднее или средний уровень яркости.

\[\mu_I = \frac{1}{N_{cols} \times N_{rows}} \sum_{x=1}^{N_{cols}} \sum_{y=1}^{N_{rows}} I(x, y)\]

здесь $| \Omega | = N_{cols}, \times N_{rows}$ - мощность носителя $\Omega$, содержащего все пиксели.

Дисперсия и стандартное отклонение

\[\sigma^2_I = [\frac{1}{| \Omega |} \sum_{(x, y) \in \Omega} I(x, y)^2] - \mu^2_I\]

Квадратный корень из дисперсии - это стандартное отклонение. Такое представление дисперсии позволяет считать среднее и дисперсию одновременно при первом проходе через изображение.

Гистограмма - это таблица частот. Гистограмма реализует представление скалярного изображения или одного из каналов векторного изображения.

Абсолютные частоты (сколько раз значение $u$ встречается в $\Omega$)

\[H_i(u) = |{(x, y) \in \Omega : I(x, y) = u}|\]

Относительные частоты - значения, распределенные между 0 и 1:

\[h_I(u) = \frac{H_I(u)}{| \Omega |}\]

Абсолютная гистограмма представляется значениями $H_I(0), H_I(1), …, H_I(G_{max})$

Для кумулятивных гистограм вычисляются абсолютная и относительная кумулятивные частоты:

\[C_I(u) = \sum_{v=0}^u H_I(v)\] \[c_I(u) = \sum_{v=0}^u h_I(v)\]

Дисперсия, мат.ожидание и другие статистики вычисляются так-же для окон. В процессе анализа можно классифицировать окна по категориям, к примеру как содержащие однородные области, с низкой или высокой контранстностью, содержащие границу областей и т.д.

Контрастность определяется как средняя абсолютная величина разности между значением пикселя и средним значением соседних пикселейЖ

\[C(I) = \frac{1}{| \Omega |} \sum_{(x, y) \in \Omega} | I(x, y) - \mu_{A(x, y)} |\]

Пространственные и временные меры

Для получения полезной информации, визуализируются профили яркости, определяемые одномерными сечениями скалярных массивов данных. По сути это окно, одна из сторон которого имеет значени 1. Для профилей яркости можно считат ьвсе вышеуказанные статистики.

Гистограммы и профили яркости - это пространственные статистики значений. Чтобы получить временные статистики, рассматривается последовтельность изображений, полученных на одном и том же носителе $\Omega$. Для лучшего понимания распределения значений пространственных метрик вводятся скалярные меры данных, которые сопоставляют одному кадру $I$ одно число. Сравниваются различные меры данных для заданного дискретного временного интервала, в результате чего получаются временные статистики.

Временные статистики определяют функции, которые, при нормировке, позволяют оценить расстояние, в частности $L_1$ и $L_2$ нормы. Кроме того, оценивается структурное подобие мер данных - функци иструктурна подобны, когда расстояние между ними близко к нулю, а локальные максимумы и минимумы функций находятся приблизительно в одних и тех же точках.

Ступенчато-градиентная Модель (step-edge model)

Границы на изображениях предоставляют важные данные о содержании изобрадения. Границы определяются изменеением локальных производных. Такие границы могут представлять из себя как идеальные “ступеньки”, так и зашусмленные или линейные переходы, резкие или плавные изломы.

step-edge model

Для оценки локальных производных значение изображения интерпретируют как аппликатуру некторой поверхности в точке расположения пикселя. При такой интерпретации изображение определяет долины, плато, плавные или крутые склоны, т.е. имеет рельеф. Значения частных производных по $x$ и ро $y$ позволяют вычислить градиент высоты аппликатуры. Границы находятся в точках, где модуль градиента достигает локального максимума:

\[||\mathbf{grad} I ||_2 = \sqrt{(\frac{dI}{dx})^2 + (\frac{dI}{dy})^2}\]

Кроме того, вторые производные определяются в лаплассиан $I$, который является скаляром. Границы находятся там, где лаплассиан переходит через 0.

[computer-visions]

>>> На главную <<<