GIS-LAB

Географические информационные системы и дистанционное зондирование

Методологический аппарат ERDAS IMAGINE для классификации изображений (выдержки)

Черновой перевод соответствующей главы из Tour guide

Обсудить в форуме Комментариев — 3

Классификация - процесс сортировки (распределения по классам) элементов изображения (пикселов) на конечное число классов на основе значений их атрибутов (DN - digital numbers). Если пиксел удовлетворяет некому условию классификации, он относится к определенному классу, который соответствует этому условию.

Статья очень сырая, представляет из себя выдержки из ERDAS Manual, многие вещи не до конца понятны и поэтому возможно плохо объяснены или вообще пропущены, будем рады если кто-то возьмется исправить.

1. Классификация без обучения (Unsupervised classification)

ISODATA (Итерационная самоорганизующаяся методика анализа данных - Iterative Self-Organizing Data Analysis Technique)

Алгоритм использующийся для классификации без обучения (безэталонной классификации) - базируется на кластерном анализе. Для формирования кластеров используется формула минимального спектрального расстояния.
Кластеризация начинается с произвольно заданных значений (средних) или средних значения взятых из существующих сигнатур. После отнесения всех возможных пикселов к одному из классов, центры классов сдвигаются и процесс повторяется полностью сначала (следующая итерация).
Процесс продолжается до тех пор пока не будет достигнуто максимальное количество итераций или достигнут максимальный процент пикселов не изменивших свой класс (предел сходимости - convergence threshold). Например если ПС=0,95, это значит, что процесс кластеризации закончится как только количество пикселов не поменявших свой класс между итерациями достигнет 95%. Другими словами если только 5% или меньше пикселов поменяют свой класс процесс классификации закончится (центры классов будут установлены равным тем, которые участвовали в кластеризации на последней итерации).

Иннициирующие (начальные) центры классов могут рассчитываться несколькими путями:
1. Путем вычисления заданного количества средних значений (кол-ва классов) по всему изображению вдоль диагонали (diagonal axis), распределение центров классов равномерное;
2. Путем вычисления заданного количества средних значений (кол-ва классов) по растру рассчитанному по методу главных компонент (PCA).

Распределение центров классов по главным осям также может быть рассчитываться по разному:
1. По методу стандартных отклонений (Std. deviations), чем большее количество стандартных отклонений задается, тем большее количество классов может попасть в "хвост" распределения (при (=1 большее количество классов попадет в основную массу пикселов);
2. Автоматически, в зависимости от количества классов, на основе предположения, что данные распределены нормально (Гауссово-распределение).

Классификация с обучением (Supervised classification)
Классификация осуществляемая с помощью обучения по некоторым эталонам с созданием для каждого из них соответствующей сигнатуры, которые в дальнейшем и используются для определения центров классов.

Правила классификации, как и сами сигнатуры могут быть параметрические и непараметрические.

Параметрические правила:

  • максимальное подобие
  • расстояние Махаланобиса
  • минимальное расстояние

Непараметрические правила:

  • пространство признака (Feature space)
  • правило параллелепипеда

В процессе классификации могут быть также рассчитаны статистические параметры (на основе только сигнатуры, а не целого изображения), которые затем будут включены в результирующий тематический растр.

Также в процессе классификации может создаваться файл расстояний (distance file) который в последствии может использоваться утилитой Пороговое значение (Threshold)

Редактор сигнатур (Signature editor)

Набор инструментов служащих для создания и манипуляций с сигнатурами.

Сигнатура (эталон) - область с заданным классом, использующаяся для дальнейшей классификации с обучением по этому/этим эталонам.

Добавить эталоны можно несколькими способами:
1. Инструмент AOI-point, polygon
2. Инструмент AOI-region grow
3. Выбор из пространства признака (Feature space) связанного с классифицируемым изображением (link), пространство признака строится по 2-м осям (каналам изображения). По одной оси откладывается значение пиксела от 0 до 255 одного канала (X), по другой значение пиксела от 0 до 255 другого канала (Y). При распределении близком к нормальному, форма графика - эллипс (Feature\Create\Feature space layers).

Сигнатуры могут быть параметрическими и непараметрическими.

Сигнатуры выбираемые из пространства признака являются непараметрическими и требуют расчета статистики (Feature statistics), после чего они становятся параметрическими.
Параметрические сигнатуры основываются на статистических параметрах выборки-эталона (например среднем значении или матрице сходимости - covariance matrix). Набор параметрических сигнатур можно использовать для классификации одним из статистических алгоритмов, например максимального подобия (maximum likelihood).

Непараметрические сигнатуры основываются не на статистических параметрах, а на дискретных объектах, полигонах, прямоугольниках в пространстве признака (Feature space). Эти объекты используются для определения границ классов. Непараметрический алгоритм классификации использует набор таких сигнатур для того чтобы назначить пикселу класс основываясь на положении значения этого пиксела либо внутри либо снаружи одного из непараметрических классов в пространстве признака. Непараметрические сигнатуры могут создаваться в процессе классификации с обучением.

Между непараметрическими и параметрическими сигнатурами возможен переход, для этого для непараметрической сигнатуры рассчитывается статистика.
В процессе классификации могут использоваться оба типа сигнатур.

Проверка сигнатур (evaluation)

Сушествует несколько способов проверки сигнатур, некоторые из них применимы только к одному из типов (только к параметрическим или только к непараметрическим)

1. Предупредительная проверка (Alarm) - выделение пикселов которые возможно будут отнесены к классу определенному сигнатурой(ами). Отнесение или неотнесение пиксела к классу определяется правилом параллелепипеда (Parallelepiped decision rule). View\Image Alarm

Правило параллелепипеда: Вектор, образующий диагональ параллелепипеда, равен сумме трёх векторов, исходящих из той же вершины и образующих его рёбра.

Пределы параллелепипеда (limits) могут определяться вручную или автоматически, рассчитываясь как минимум-максимум для каждого слоя в конкретной сигнатуре или как определенное количество стандартных отклонений от среднего значения сигнатуры.
Значение каждого пиксела проверяется на попадание \ непопадание в пределы параллелепипеда заданные исходной сигнатурой или вручную.

2. Матрица пересечений (Contingency Matrix) - метод проверки сигнатур созданных из AOI на основе изображения. Этот метод проверяет только значения пикселов в пределах существующих сигнатур, которые тоже могут быть неоднородны в силу различных причин. Результатом анализа является таблица содержащая N+1 столбцов (дополнительный суммирующий столбец) и N+1 рядов (дополнительный суммирующий ряд), N-количество выбранных для анализа сигнатур. Evaluate\Contingency

Classified Data

agri1

agri2

forest

forest2

agri1

237

3

0

0

agri2

2

662

0

0

forest

0

0

450

55

forest2

0

0

50

445

Column Total

239

665

500

500

3. Создание маски из сигнатуры пространства признака - метод отображающий на изображении маску из сигнатуры полученной из графика пространства признака. В качестве входящей сигнатуры может использоваться только сигнатура непараметрическая полученная из пространства признака (Feature space). Feature\Masking\Feature space to image

4. Объекты сигнатур - метод представления сигнатур(ы) в пространстве признака, полезно использовать для визуального определения пересекающихся сигнатур. Если объекты в пространстве признаков пересекаются и пересекаются их сигнатуры, значит в этих сигнатурах есть одинаковые по значению пикселы. Сигнатуры в пространстве признаков могут представляться как точки, прямоугольники и эллипсы с определенным стандартным отклонением. Feature\Objects

5. Гистограммы - построение гистограммы по одной или более сигнатурам, по одному или более каналам. View\Histogram

6. Разделимость сигнатур - метод расчета статистической разницы между двумя сигнатурами, величина разницы показывает насколько одна сигнатура отдалена от другой. Этот метод может также использоваться для определения наиболее подходящих для классификации каналов. В процессе подсчета разделимости используется N комбинаций M каналов (M-количество каналов, N-соответствующее количество комбинаций: 1 канал - 6 вариантов, 2-15, 3-20, 4-15, 5-6, 6-1). Evaluate\Separability

Расстояние может рассчитываться по следующим формулам:
· Спектральное эвклидово расстояние между двумя средними значениями
· Расстояние Джефриса-Матцушиты
· Расхождение
· Трансформированное расхождение

Результатом работы алгоритма является отчет в текстовой форме в котором указываются варианты каналов с лучшей средней и минимальной разделимостью.

7. Проверка статистики - расчет статистики для выбранной сигнатуры. Рассчитываемые значения: минимум, максимум, среднее, стандартное отклонение отдельно по каналам, также рассчитывается ковариационная матрица NxN, где N - число каналов. View\Statistics

Оценка качества классификации (Evaluation)

1. Задание прозрачности (classification overlay) - метод позволяющий отключить (сделать прозрачными) все классы кроме проверяемого и управлять его видимостью

2. Пороговое значение (thresholding) - метод определяющий какие из пикселов были вероятнее всего, классифицированы неправильно, такие пикселы переносятся в класс "неклассифицированные" (unclassified), с тем чтобы в последствии подвергнутся дальнейшей обработке и классификации.
Метод основывается на обработке файл расстояний (distance file), получаемого в процессе классификации с обучением. Файл расстояний представляет собой копию классифицируемого изображения, но пикселы у него имеют значения указывающие расстояние от значения классифицируемого пиксела до среднего значения класса к которому он отнесен. Чем больше это расстояние, тем больше вероятность, что пиксел был классифицирован неправильно.

Управлять пороговым значением можно численно, изменяя значение Хи-квадрат и интерактивно - устанавливая порог на гистограме.
Хи-квадрат - распределение в отличие от нормального (имеющего колоколообразную симметричную форму) имеет максимум в начале шкалы и плавно снижается. По форме распределения можно судить о качестве класса.

Если методом классификации было "минимальное расстояние", то значение пиксела в файле расстояний представляет собой Эвклидово спектральное расстояние между значением классифицируемого пиксела и средним класса к которому он отнесен. В этом случае в процессе задания порогового значения появляется возможность задать для каждого класса расстояние напрямую (distance threshold).

Если методом классификации было "расстояние Махаланобиса" или "максимальное подобие", то это значение равно расстоянию Махаланобиса. В этом случае в процессе задания порогового значения появляется возможность задать для каждого класса в процентном отношении количество неправильно классифицированных пикселов (confidence level).

Метод позволяет определить пороговое значение для каждого класса, после которого пиксел будет считаться классифицированным неправильно.

Расстояния в конкретном классе представляются гистограммой, по оси Х которой откладывается расстояние (от 0), а по оси Y - количество пикселов. Как правило, неправильно классифицированные пикселы располагаются в хвосте гистограммы.

3. Перекодировка (recode, reclass)
4. Оценка точности (accuracy assessment)

Обсудить в форуме Комментариев — 3

Последнее обновление: September 09 2021

Дата создания: 06.06.2002
Автор(ы): Максим Дубинин