Дивергенция Йенсена — Шеннона

Дивергенция Йенсена — Шеннона[1] — это метод измерения похожести двух распределений вероятностей. Она известна также как информационный радиус[2] или полное отклонение от среднего[3]. Дивергенция базируется на дивергенции Кульбака — Лейблера с некоторыми существенными (и полезными) отличиями, среди которых, что она симметрична и всегда имеет конечное значение. Квадратный корень из дивергенции Йенсена — Шеннона является метрикой, которая часто упоминается как расстояние Йенсена — Шеннона[4][5][6].

Определение

Рассмотрим множество распределений вероятности, где A — это множество, снабжённое некоторой сигма-алгеброй измеримых подмножеств. В частности, мы можем взять в качестве A конечное или счётное множество, в котором все подмножества измеримы.

Дивергенция Йенсена — Шеннона (англ. Jensen–Shannon divergence, JSD)  — это симметризованная и сглаженная версия дивергенции Кульбака — Лейблера . Она определяется как

,

где

Недавно было предложено обобщение дивергенции Йенсена — Шеннона, в котором вместо арифметического среднего используется абстрактное среднее (наподобие геометрического или гармонического среднего)[7]. Геометрическая дивергенция Йенсена — Шеннона (англ. G-Jensen–Shannon divergence) даёт явную a формулу дивергенции между двумя гауссовыми распределениями путём применения геометрического среднего.

Более общее определение, позволяющее сравнить более двух распределений вероятности (См):

,

где являются весами, выбранными для распределений вероятности , а является энтропией Шеннона для распределения . Для случая двух распределений

Границы

Дивергенция Йенсена — Шеннона ограничена 1 для двух распределений вероятности, если (в дивергенции Кульбака — Лейблера) используется логарифм по основанию 2[8]

С такой нормализацией дивергенция Йенсена — Шеннона является нижней границей полного расстояния вариации между P и Q:

Для натурального логарифма, который обычно используется в статистической термодинамике, верхняя граница равна ln(2):

Дивергенция Йенсена — Шеннона ограничена величиной для более двух распределений вероятности, если используется логарифм по основанию 2[8]

Связь со взаимной информацией

Дивергенция Йенсена — Шеннона является взаимной информацией между случайной переменной , ассоциированной со смесью распределений между и и двоичной индикаторной переменной , которая используется для переключения между и для получения смеси. Пусть будет некоторой функцией на множестве событий, которая хорошо различает события, и выберем значение согласно , если , и согласно , если , где равновероятно. То есть мы выбираем согласно мере , и его распределение является смесью распределений. Мы вычисляем

Из результатов выше следует, что дивергенция Йенсена — Шеннона ограничена 0 и 1, поскольку взаимная информация неотрицательна и ограничена величиной . Дивергенция Йенсена — Шеннона не всегда ограничена 0 и 1 — здесь верхняя граница 1 возникает из-за того, что мы рассматриваем конкретный случай двоичной переменной .

Можно применить тот же принцип для совместного распределения и произведения этих двух крайних распределений (по аналогии с дивергенцией Кульбака — Лейблера и взаимной информацией) и измерить, насколько достоверно можно решить, что результат получен от совместного распределения или от произведения распределений при предположении, что имеются только эти две возможности[9].

Квантовая дивергенция Йенсена — Шеннона

Обобщение распределений вероятности на матрицы плотности позволяет определить квантовую дивергенцию Йенсена — Шеннона (англ. quantum Jensen–Shannon divergence, QJSD)[10][11]. Она определяется для множества матриц плотности и распределений вероятности как

где является энтропией фон Неймана плотности . Эта величина вводится в теории квантовой информации, где называется информацией Холево — она даёт верхнюю границу для количества классической информации, закодированной квантовыми состояниями при априорных распределениях (см. статью «Теорема Холево»)[12]. Квантовая Дивергенция Йенсена — Шеннона для и двух матриц плотности является ограниченной всюду заданной симметричной функцией и равна нулю, только если две матрицы плотности совпадают. Она равна квадрату метрики чистых состояний[13] и недавно было показано, что это метрическое свойство выполняется и для смешанных состояний[14][15]. Метрика Бюреса тесно связана с квантовой дивергенцией Йенсена — Шеннона и является квантовым аналогом информационной метрики Фишера.

Обобщение

Нильсен ввёл косую K-дивергенцию[16]: Отсюда получаем однопараметрическое семейство дивергенций Йенсена — Шеннона, называемое -дивергенциями Йенсена — Шеннона:

которое включает дивергенцию Йенсена — Шеннона (для ) и половину дивергенции Джеффриса (для ).

Приложения

Дивергенция Йенсена — Шеннона применяется в биоинформатике и сравнении геномов[17][18], при сравнении поверхностей белков[19], в общественных науках[20], при количественных исследованиях в истории[21], экспериментах с огнём[22] и машинном обучении [23].

Примечания

  1. В русскоязычной литературе чаще встречается неверное название «Дивергенция Дженсена — Шеннона»
  2. Schütze, Manning, 1999, с. 304.
  3. Dagan, Lee, Pereira, 1997, с. 56–63.
  4. Endres, Schindelin, 2003, с. 1858–1860.
  5. Ôsterreicher, Vajda, 2003, с. 639–653.
  6. Fuglede, Topsoe, 2004, с. 30.
  7. Nielsen, Frank (2019). On a generalization of the Jensen-Shannon divergence and the JS-symmetrization of distances relying on abstract means. arXiv:1904.04017 [cs.IT].
  8. 1 2 Lin, 1991, с. 145–151.
  9. Schneidman, Bialek, Berry, 2003.
  10. Majtey, Lamberti, Prato, 2005, с. 052310.
  11. Briët, Harremoës, 2009, с. 052311.
  12. Холево, 1973, с. 3–11.
  13. Braunstein, Caves, 1994, с. 3439–3443.
  14. Virosztek, Dániel (2019). The metric property of the quantum Jensen-Shannon divergence. arXiv:1910.10447.
  15. Sra, Suvrit (2019). Metrics Induced by Quantum Jensen-Shannon-Renyí and Related Divergences. arXiv:1911.02643.
  16. Nielsen, Frank (2010). A family of statistical symmetric divergences based on Jensen's inequality. arXiv:1009.4004 [cs.CV].
  17. Sims, Jun, Wu, Kim, 2009, с. 2677–82.
  18. Itzkovitz, Hodis, Segal, 2010, с. 1582–9.
  19. Ofran, Rost, 2003, с. 377–87.
  20. DeDeo, Hawkins, Klingenstein, Hitchcock, 2013, с. 2246–2276.
  21. Klingenstein, Hitchcock, DeDeo, 2014, с. 9419–9424.
  22. Mitroi-Symeonidis, Anghel, Minculete, 2020, с. 22.
  23. Goodfellow, Pouget-Abadie и др., 2014.

Литература

  • Hinrich Schütze, Christopher D. Manning. Foundations of Statistical Natural Language Processing. — Cambridge, Mass: MIT Press, 1999. — ISBN 978-0-262-13360-9.
  • Ido Dagan, Lillian Lee, Fernando Pereira. Similarity-Based Methods For Word Sense Disambiguation // Proceedings of the Thirty-Fifth Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. — 1997. doi:10.3115/979617.979625. — . arXiv:cmp-lg/9708010.
  • D. M. Endres, J. E. Schindelin. A new metric for probability distributions // IEEE Trans. Inf. Theory. — 2003. Т. 49, вып. 7. С. 1858–1860. doi:10.1109/TIT.2003.813506.
  • F. Ôsterreicher, I. Vajda. A new class of metric divergences on probability spaces and its statistical applications // Ann. Inst. Statist. Math.. — 2003. Т. 55, вып. 3. С. 639–653. doi:10.1007/BF02517812.
  • Fuglede B., Topsoe F. Jensen-Shannon divergence and Hilbert space embedding // Proceedings of the International Symposium on Information Theory, 2004. — IEEE, 2004. — С. 30. — ISBN 978-0-7803-8280-0. doi:10.1109/ISIT.2004.1365067.
  • Elad Schneidman, Bialek W., Berry M.J. 2nd. Synergy, Redundancy, and Independence in Population Codes // Journal of Neuroscience. — 2003. Т. 23, вып. 37. С. 11539–11553. doi:10.1523/JNEUROSCI.23-37-11539.2003. PMID 14684857.
  • Majtey A., Lamberti P., Prato D. Jensen-Shannon divergence as a measure of distinguishability between mixed quantum states // Physical Review A. — 2005. Т. 72, вып. 5. С. 052310. doi:10.1103/PhysRevA.72.052310. — . arXiv:quant-ph/0508138.
  • Jop Briët, Peter Harremoës. Properties of classical and quantum Jensen-Shannon divergence // Physical Review A. — 2009. Т. 79, вып. 5. С. 052311. doi:10.1103/PhysRevA.79.052311. — . arXiv:0806.4472.
  • Холево А.С. Границы количества информации, передаваемой по квантовому каналу связи // Проблемы передачи информации. — 1973. Т. 9.
  • Samuel Braunstein, Carlton Caves. Statistical distance and the geometry of quantum states // Physical Review Letters. — 1994. Т. 72, вып. 22. С. 3439–3443. doi:10.1103/PhysRevLett.72.3439. — . PMID 10056200.
  • Flavia-Corina Mitroi-Symeonidis, Ion Anghel, Nicuşor Minculete. Parametric Jensen-Shannon statistical complexity and its applications on full-scale compartment fire data // Symmetry (Special Issue: Symmetry in Applied Mathematics). — 2020. Вып. 12(1). doi:10.3390/sym12010022.
  • Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio. Generative Adversarial Networks // NIPS. — 2014.
  • J. Lin. Divergence measures based on the shannon entropy // IEEE Transactions on Information Theory. — 1991. Т. 37, вып. 1. С. 145–151. doi:10.1109/18.61115.
  • Sims G.E., Jun S.R., Wu G.A., Kim S.H. Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions // Proceedings of the National Academy of Sciences of the United States of America. — 2009. Т. 106, вып. 8. С. 2677–82. doi:10.1073/pnas.0813249106. — . PMID 19188606. PMC 2634796.
  • Itzkovitz S., Hodis E., Segal E. Overlapping codes within protein-coding sequences // Genome Research. — 2010. Т. 20, вып. 11. С. 1582–9. doi:10.1101/gr.105072.110. PMID 20841429. PMC 2963821.
  • Ofran Y., Rost B. Analysing six types of protein-protein interfaces // Journal of Molecular Biology. — 2003. Т. 325, вып. 2. С. 377–87. doi:10.1016/s0022-2836(02)01223-8. PMID 12488102.
  • Sara Klingenstein, Tim Hitchcock, Simon DeDeo. The civilizing process in London's Old Bailey // Proceedings of the National Academy of Sciences. — 2014. Т. 111, вып. 26. С. 9419–9424. doi:10.1073/pnas.1405984111. — . PMID 24979792. PMC 4084475.
  • Simon DeDeo, Robert X. D. Hawkins, Sara Klingenstein, Tim Hitchcock. Bootstrap Methods for the Empirical Study of Decision-Making and Information Flows in Social Systems // Entropy. — 2013. Т. 15, вып. 6. С. 2246–2276. doi:10.3390/e15062246. — . arXiv:1302.0907.

Литература для дальнейшего чтения

  • Frank Nielsen (2010). A family of statistical symmetric divergences based on Jensen's inequality. arXiv:1009.4004 [cs.CV].

Ссылки