Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

Коэффициент сходства

Другие языки:

English

Коэффициент сходства

Подписчиков: 0, рейтинг: 0

Коэффициент сходства (также мера сходства, индекс сходства) — безразмерный показатель сходства сравниваемых объектов. Также известен под названиями «мера ассоциации», «мера подобия» и др.

Применяется в биологии для количественного определения степени сходства биологических объектов (участков, районов, отдельных фитоценозов, зооценозов и т. п.). Также применяются в географии, социологии, распознавании образов, поисковых системах, сравнительной лингвистике, биоинформатике, хемоинформатике, при сравнении строк и др.

В более широком смысле говорят о мерах близости к которым относятся: меры разнообразия, меры концентрации (однородности), меры включения, меры сходства, меры различия (в том числе расстояния), меры совместимости событий, меры несовместимости событий, меры взаимозависимости, меры взаимонезависимости. Теория мер близости находится в стадии становления и потому существует множество различных представлений о формализации отношений близости.

Большинство коэффициентов нормированы и находятся в диапазоне от 0 (сходство отсутствует) до 1 (полное сходство). Сходство и различие взаимодополняют друг друга (математически это можно выразить так: Сходство = 1 − Различие).

Коэффициенты сходства можно условно разделить на три группы в зависимости от того, какое число объектов рассматривается:

унарные — рассматривается один объект. В эту группу входят меры разнообразия и меры концентрации.
бинарные — рассматривается два объекта. Это наиболее известная группа коэффициентов.
n-арные (многоместные) — рассматривается n объектов. Эта группа наименее известна.

Унарные коэффициенты

При изучении биологических объектов широко используются меры изменчивости как отдельных признаков, так и частот распределения случайных величин. В простейшем случае инвентаризационное (в пределах изучаемой биосистемы) разнообразие можно оценить видовым богатством, или числом видов.

Наиболее часто используются меры разнообразия (коэффициент вариации, индексы параметрического семейства Реньи, включая индекс Шеннона; индексы семейства Хилла; индексы Маргалефа, Глизона и др.). Реже используются дополняющие их меры концентрации (например, семейство мер Колмогорова, мера диссонанса Розенберга).

Бинарные коэффициенты

Это наиболее используемые в биологии и географии коэффициенты. Самый первый коэффициент сходства был предложен П. Жаккаром (Jaccard) в 1901 г. : $K_{J}={\frac {c}{a+b-c}}$ , где а — количество видов на первой пробной площадке, b — количество видов на второй пробной площадке, с — количество видов, общих для 1-й и 2-й площадок. Впоследствии в самых различных областях науки предлагались различные коэффициенты (меры, индексы) сходства. Наибольшее распространение получили (обозначения те же):

коэффициент Серенсена (Sörensen) : $K_{S}={\frac {2c}{a+b}}$ ;
коэффициент Кульчинского (Kulczinsky) : $K_{K}={\frac {c}{2}}\left({\frac {1}{a}}+{\frac {1}{b}}\right)$ ;
коэффициент Отиаи (Ochiai): $K_{O}={\frac {c}{\sqrt {ab}}}$ ;
коэффициент Шимкевича-Симпсона (Szymkiewicz, Simpson): $K_{S}={\frac {c}{min(a,b)}}$ ;
коэффициент Браун-Бланке (Braun-Blanquet): $K_{B}={\frac {c}{max(a,b)}}$ ;

Известна альтернативная система обозначений для таблицы сопряжённости $2\times 2$ от Р. Р. Сокала (Sokal) и П.Снита (Sneath):

	Присутствие вида на 1-м участке	Отсутствие вида на 1-м участке
Присутствие вида на 2-м участке	a	b
Отсутствие вида на 2-м участке	c	d

где а — количество видов, встречаемых на обеих площадках; b — количество видов, встреченных на первой пробной площадке, но без учёта встречаемости общих видов; с — количество видов, встреченных на второй пробной площадке, но без учёта встречаемости общих видов.

Эта таблица создает большую путаницу. Её часто путают с похожей статистической таблицей сопряженности $2\times 2$ ; обозначения таблицы Сокала-Снита путают с классическими обозначениями (см. выше); почти всегда не учитывают того факта, что таблица рассматривает только вероятности.
В процессе математической формализации объектов и связей между ними возникла универсальная теоретико-множественная запись для коэффициентов сходства. Впервые такого рода запись появляется в работах А. С. Константинова, М. Левандовского и Д. Винтер. Так, коэффициент сходства Жаккара может быть записан следующим образом:

K_{J}={\frac {n(A\cap B)}{n(A)+n(B)-n(A\cap B)}}

или

K_{J}={\frac {n(A\cap B)}{n(A\cup B)}}

Наиболее простым коэффициентом сходства является мера абсолютного сходства, которая по сути является числом общих признаков двух сравниваемых объектов: $n(A\cap B)$ . При нормировке этой меры значения меры сходства заключены между 0 и 1 и коэффициент известен как «мера процентного сходства» при использовании относительных единиц измерения (в процентах) и как меры пересечения в промежуточных расчетах относительных мер сходства (например, за рубежом известна как мера Ренконена ).

В 1973 году Б. И. Сёмкиным была предложена общая формула на основе формулы среднего Колмогорова, объединяющая большую часть известных коэффициентов сходства в непрерывный континуум мер:

K_{\tau ,\eta }(A,B)=\left({\frac {K_{\tau }^{\eta }(A;B)+K_{\tau }^{\eta }(B;A)}{2}}\right)^{\frac {1}{\eta }}

где $K_{\tau },(A;B)={\frac {K_{0}(A;B)}{1+\tau -\tau K_{0}(A;B)}}$ ; $K_{\tau },(B;A)={\frac {K_{0}(B;A)}{1+\tau -\tau K_{0}(B;A)}}$ ; $K_{0}(A;B)={\frac {conv(A,B)}{S(B)}}$ ; $K_{0}(B;A)={\frac {conv(A,B)}{S(A)}}$ ; $-1<\tau <{\mathcal {1}}$ ; $-{\mathcal {1}}<\eta <+{\mathcal {1}}$ . Например, значения $[\tau ,\eta ]$ для вышеприведённых коэффициентов имеют следующий вид: [1,-1] (коэффициент Жаккара); [0,-1] (коэффициент Серенсена); [0,1] (коэффициент Кульчинского); [0,0] (коэффициент Отиаи); [0, $+{\mathcal {1}}$ ] (коэффициент Шимкевича-Симпсона); [0, $-{\mathcal {1}}$ ] (коэффициент Браун-Бланке). Обобщающая формула позволяет определить классы эквивалентных и неэквивалентных коэффициентов, а также предотвратить создание новых дублирующих коэффициентов.

Специфическим типом коэффициентов сходства являются меры включения. Это несимметричные меры ( $K_{\tau }^{\eta }(A;B)$ и $K_{\tau }^{\eta }(B;A)$ ), которые показывают степень сходства (включение) одного объекта относительно другого. Более привычные (симметричные) коэффициенты близости можно получить путём осреднения двух взаимодополняющих несимметричных мер включения, то есть каждой симметричной мере сходства соответствуют две определённые несимметричные меры сходства. Например, для меры Сёренсена это $K(A;B)={\frac {n(A\cap B)}{n(A)}}$ и $K(B;A)={\frac {n(A\cap B)}{n(B)}}$ ), а для меры Жаккара это $K(A;B)={\frac {n(A\cap B)}{2n(A)-n(A\cap B)}}$ и $K(B;A)={\frac {n(A\cap B)}{2n(B)-n(A\cap B)}}$ . В общем, две несимметричные меры включения лучше оценивают сходство объектов чем одна усреднённая симметричная мера сходства.

Спорным и неоднозначным является вопрос о сравнении объектов по весовым показателям. В экологии это показатели, учитывающие обилие. Наиболее последовательными схемами формализации таких типов являются схема Б. И. Сёмкина на основе дескриптивных множеств и схема А.Чао (Chao) с основанными на обилии индексами (abundance-based indices). Также в зарубежной литературе устоялось представление индексах на основе инцидентности (incidence-based index), то есть индексах для булевых данных типа присутствие/отсутствие (presence/absence) признака. По сути, и те и другие могут быть описаны как частные случаи дескриптивных множеств.

Дискуссионными остаются сравнение случайных событий (например, встречаемость) и информационных показателей. В схеме формализации отношений близости Б. И. Сёмкина предлагается выделять ряд аналитических интерпретаций для различных отношений близости: множественная, дескриптивная, вероятностная, информационная. Формально принадлежность к мерам сходства определяется системой аксиом (здесь E — произвольное множество):

$K(A,B)\geqslant 0;\forall A,B{\mathcal {2}}E$ (неотрицательность);
$K(A,B)=K(B,A);\forall A,B{\mathcal {2}}E$ (симметричность);
$K(A,B)\geqslant K(A,A);\forall A,B{\mathcal {2}}E$ («целое больше части»);
$K(A,B)\leqslant K(A,A)+K(B,B);\forall A,B{\mathcal {2}}E$ (субаддитивность).

Системы аксиом для мер сходства предлагали: А. Реньи, Ю. А. Воронин, А.Тверски, А. А. Викентьев, Г. С. Лбов, Г. В. Раушенбах, Б. И. Сёмкин и др.

Как правило, совокупность мер близости представляют в виде матриц типа «объект-объект». Это, например, матрицы сходства, матрицы расстояний (в широком смысле — различия), матрицы совместных вероятностей, матрицы информационных функций. Большинство из них могут быть построены на основе: абсолютных или относительных мер, а они в свою очередь могут быть симметричными или несимметричными (последние часто называются мерами включения).

Многоместные коэффициенты

Такого рода коэффициенты используются для сравнения серии объектов. К ним относятся: среднее сходство Алёхина, индекс биотической дисперсии Коха, коэффициент рассеяния (дисперсности) Шенникова, мера бета-разнообразия Уиттекера , мера гомотонности и двойственная ей мера гетеротонности Миркина-Розенберга, коэффициент сходства серии описаний Сёмкина. В зарубежной литературе меры этого типа встречаются под названиями: многомерные коэффициенты, n-мерные коэффициенты, multiple-site similarity measure, multidimensional coefficient, multiple-community measure . Наиболее известный коэффициент был предложен Л.Кохом:

K(X_{1},...,X_{n})={\frac {T-S}{(n-1)S}}

где $T=\sum _{i=1}^{n}{n(X_{i})}$ , то есть сумма числа признаков каждого из объектов; $S=n(X_{1}\cup ...\cup X_{n})$ , то есть общее число признаков; $X_{1},...,X_{n}$ — совокупность n множеств (объектов).

Программное обеспечение для расчёта мер

Как правило, расчёт мер близости производится в модуле кластерного анализа программы. Наиболее часто используют Statistica, но в соответствующем модуле меры сходства не представлены совсем, только расстояния. В SPSS (PASW Statistics) предлагается расчёт ряда мер сходства (меры Охаи, Жаккара, Сокала-Снита, Кульчинского, симметричная Дайса). Малых программ для расчёта мер близости и последующего графического представления зависимостей существует огромное количество. Меры сходства же представлены крайне редко и в основном в специализированных программах для биологов: Graphs, NTSYS, BIODIV, PAST, причём даже там их крайне мало (обычно только мера Жаккара и иногда мера Сёренсена). Также можно отметить TurboVEG и IBIS, в основе которых лежит база данных с модулями обработки, причём в программе IBIS реализовано наибольшее количество мер близости, используемых в настоящее время в биологии, географии и прочих областях.

См. также

Метрическое пространство
Биоразнообразие
Задача классификации
Кластерный анализ
Взаимная информация
Условная вероятность
Биоценометрия
Мера схожести строк