Байесовская сеть

Байесовская сеть (или Байесова сеть, Байесовская сеть доверия) — это графическая вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей. Например, байесовская сеть может быть использована для вычисления вероятности того, чем болен пациент по наличию или отсутствию ряда симптомов, основываясь на данных о зависимости между симптомами и болезнями. Математический аппарат Байесовых сетей создан американским ученым Джуда Перлом, лауреатом Премии Тьюринга (2011).

Формально, байесовская сеть — это направленный ациклический граф, каждой вершине которого соответствует случайная переменная, а дуги графа кодируют отношения условной независимости между этими переменными. Вершины могут представлять переменные любых типов, быть взвешенными параметрами, скрытыми переменными или гипотезами. Существуют эффективные методы, которые используются для вычислений и обучения байесовских сетей. Если переменные Байесовской сети являются дискретными случайными величинами, то такая сеть называется дискретной Байесовской сетью. Байесовские сети, которые моделируют последовательности переменных, называют динамическими байесовскими сетями. Байесовские сети, в которых могут присутствовать как дискретные переменные, так и непрерывные, называются гибридными байесовскими сетями. Байесовская сеть, в которой дуги помимо отношений условной независимости кодируют также отношения причинности, называют причинно-следственными Байесовыми сетями (Causal Bayesian networks^[1]).

Содержание

1 Определения и принципы работы
- 1.1 Семантика зависимостей
- 1.2 Вероятностные запросы
2 Пример
3 Вероятностный вывод
4 Приложения
5 Дополнительная информация
6 Бесплатные и Open-Source продукты
7 Коммерческие продукты
8 Примечания
9 Ссылки

Определения и принципы работы

Если дуга выходит из вершины A в вершину B, то A называют родителем B, а B называют потомком A. Если из вершины A существует ориентированный путь в другую вершину B, то B называется потомком A, а A называется предком B. Множество вершин-родителей вершины V_i обозначим как parents(V_i) = PA_i.

Направленный ациклический граф G называется Байесовской сетью для вероятностного распределения P(v), заданного над множеством случайных переменных V, если каждой вершине графа поставлена в соответствие случайная переменная из V, а дуги в графе удовлетворяют условию (Марковское условие^[1]): любая переменная V_i из V должна быть условно независима от всех вершин, не являющихся ее потомками, если заданы (получили означивание, обусловлены) все ее прямые родители PA_i в графе G, то есть

∀V_i ∈ V справедливо: P(v_i│pa_i,s) = P(v_i│pa_i),

где v_i — значение V_i; S — множество всех вершин, не являющихся потомками V_i; s — конфигурация S; pa_i — конфигурация PA_i.

Тогда полное совместное распределение значений в вершинах можно удобно записать в виде декомпозиции (произведения) локальных распределений:

$\mathrm P(V_1, \ldots, V_n) = \prod_{i=1}^n \mathrm P(V_i \mid \operatorname{parents}(V_i)).\,$

Если у вершины V_i нет предков, то её локальное распределение вероятностей называют безусловным, иначе условным. Если вершина - случайная переменная получила означивание (например, в результате наблюдения), то такое означивание называют свидетельством (англ. evidence). Если значение переменной было установлено извне (а не наблюдалось), то такое означивание называется вмешательством (англ. action) или интервенцией (англ. intervention)^[1].

Семантика зависимостей

Условная независимость в Байесовской сети представлена графическим свойством d-разделенности.

Определение d-разделенности^[1] Путь $p\,$ называют d-разделенным (d-separated), или блокированным (blocked) множеством вершин $Z\,$ тогда и только тогда, когда

$p\,$ содержит цепь $i\,$ → $m\,$ → $j\,$ или разветвление $i\,$ ← $m\,$ → $j\,$ такие, что $m\,$ принадлежит $Z\,$ , или
$p\,$ содержит инвертированное разветвление (коллайдер) $i\,$ → $m\,$ ← $j\,$ , такое, что $m\,$ не принадлежит $Z\,$ и у вершины $m\,$ нет потомков, которые принадлежат $Z\,$ .

Пусть $X, Y, Z\,$ — непересекающиеся подмножества вершин в ацикличном ориентированном графе $G\,$ . Говорят, что множество вершин $Z\,$ d-разделяет $X\,$ и $Y\,$ тогда и только тогда, когда $Z\,$ блокирует все пути из любой вершины, принадлежащей $X\,$ в любую вершину, принадлежащую $Y\,$ , и обозначают $(<X \perp\!\!\!\perp Y|Z>)_G\,$

Примечание: Под путём понимается последовательность следующих друг за другом рёбер (любого направления) в графе.

Теорема о d-разделенности^[1]. Для любых трех непересекающихся подмножеств вершин $(X, Y, Z)\,$ в ацикличном ориентированном графе $G\,$ и для всех вероятностных распределений $P\,$ справедливо:

если $(<X \perp\!\!\!\perp Y|Z>)_G\,$ , то $(<X \perp\!\!\!\perp Y|Z>)_P\,$ , если $G\,$ и $P\,$ Марковски-совместимы, и
если отношение условной независимости $(<X \perp\!\!\!\perp Y|Z>)_P\,$ выполняется для всех вероятностных распределений, Марковски-совместимых с $G\,$ , то из этого следует $(<X \perp\!\!\!\perp Y|Z>)_G\,$ .

Другими словами, если вершины d-разделены, то они условно независимы; и если вершины условно-независимы во всех вероятностных распределениях, совместимых с графом G, то они d-разделены.

Примечание: $(<X \perp\!\!\!\perp Y|Z>)_P\,$ означает, что множества переменных $X\,$ и $Y\,$ условно-независимы при заданном множестве $Z\,$

Свидетельства — утверждения вида «событие в узле x произошло». Например: «Компьютер не загружается».

Вероятностные запросы

Байесовская сеть позволяет получить ответы на следующие типы вероятностных запросов^[2]:

нахождение вероятности свидетельства,
определение априорных маргинальных вероятностей,
определение апостериорных маргинальных вероятностей, включая:

прогнозирование, или прямой вывод, — определение вероятности события при наблюдаемых причинах,

диагностирование, или обратный вывод (абдукция), — определение вероятности причины при наблюдаемых следствиях,

межпричинный (смешанный) вывод (intercausal inference) или трансдукция, — определение вероятности одной из причин наступившего события при условии наступления одной или нескольких других причин этого события.

вычисление наиболее вероятного объяснения наблюдаемого события (Most probable explanation, MPE),
вычисление апостериорного максимума (Maximum a-posteriori, MAP).

Пример

Простая Байесовская сеть.

Предположим, что может быть две причины, по которым трава может стать мокрой (GRASS WET): сработала дождевальная установка, либо прошел дождь. Также предположим, что дождь влияет на работу дождевальной машины (во время дождя установка не включается). Тогда ситуация может быть смоделирована проиллюстрированной Байесовской сетью. Все три переменные могут принимать два возможных значения: T (правда — true) и F (ложь — false).

Совместная вероятность функции:

$\mathrm P(G,S,R)=\mathrm P(G|S,R)\mathrm P(S|R)\mathrm P(R)$

где имена трех переменных означают G = Трава мокрая (Grass wet), S = Дождевальная установка (Sprinkler), и R = Дождь (Rain).

Модель может ответить на такие вопросы как «Какова вероятность того, что прошел дождь, если трава мокрая?» используя формулу условной вероятности и суммируя переменные:

$\mathrm P(\mathit{R}=T \mid \mathit{G}=T) =\frac{\mathrm P(\mathit{G}=T,\mathit{R}=T)}{\mathrm P(\mathit{G}=T)} =\frac{\sum_{\mathit{S} \in \{T, F\}}\mathrm P(\mathit{G}=T,\mathit{S},\mathit{R}=T)}{\sum_{\mathit{S}, \mathit{R} \in \{T, F\}} \mathrm P(\mathit{G}=T,\mathit{S},\mathit{R})}$

$= \frac{(0.99 \times 0.01 \times 0.2 = 0.00198_{TTT}) + (0.8 \times 0.99 \times 0.2 = 0.1584_{TFT})}{0.00198_{TTT} + 0.288_{TTF} + 0.1584_{TFT} + 0_{TFF}} \approx 35.77 %.$

Вероятностный вывод

В силу того, что Байесовская сеть — это полная модель для переменных и их отношений, она может быть использована для того, чтобы давать ответы на вероятностные вопросы. Например, сеть можно использовать чтобы получить новое знание о состоянии подмножества переменных наблюдая за другими переменными (переменные — свидетельства). Это процесс вычисления апостериорного распределения переменных по переменным-свидетельствам называют вероятностным выводом. Это следствие дает нам универсальную оценку для приложений, где нужно выбрать значения подмножества переменных, которое минимизирует функцию потерь, например вероятность ошибочного решения. Байесовская сеть может также считаться механизмом для автоматического построения расширения Теоремы Байеса для более сложных задач.

Для проведения вероятностного вывода в Байесовских сетях используются следующие алгоритмы^[1]^[3]:

Точные:

вывод методом грубой силы путём маргинализации полного совместного распределения;
алгоритмы устранения переменных и символьные вычисления,
кластеризация,
алгоритмы пропагации (передача) сообщений между узлами сети,

Приближенные на основе метода Монте-Карло:

алгоритмы формирования выборок с исключением,
метод оценки выборок с учетом правдоподобия,
алгоритм МСМС (Markov chain Monte Carlo) и др.

Приложения

Байесовские сети используются для моделирования в биоинформатике (генетические сети, структура белков), медицине, классификации документов, обработке изображений, обработке данных, машинном обучении и системах поддержки принятия решений.

Дополнительная информация

Association for Uncertainty in Artificial Intelligence: http://www.auai.org/
Intro to Bayesian networks: http://www.niedermayer.ca/papers/bayesian/bayes.html
On-line Tutorial on Bayesian nets and probability: http://www.dcs.qmw.ac.uk/%7Enorman/BBNs/BBNs.htm
Сергей Николенко. Лекции № 8, № 9 и № 10, посвященные байесовским сетям доверия. Курс «Самообучающиеся системы»

Бесплатные и Open-Source продукты

GeNIe & SMILE: http://genie.sis.pitt.edu
OpenBayes https://github.com/abyssknight/OpenBayes-Fork (contains a patched build of OpenBayes from openbayes.org)
RISO: http://sourceforge.net/projects/riso/ (distributed belief networks)
BANSY3 — Freeware. From the Non Linear Dynamics Laboratory. Mathematics Department, Science School, UNAM.
SamIam: http://reasoning.cs.ucla.edu/samiam

Коммерческие продукты

AgenaRisk Bayesian network tool: http://www.agenarisk.com
Bayesian network application library: http://www.norsys.com/netlibrary/index.htm
Bayesia: http://www.bayesia.com
Hugin: http://www.hugin.com
Netica: http://www.norsys.com
BNet: http://www.cra.com/bnet
Dezide: http://www.dezide.com
MSBNx: a component-centric toolkit for modeling and inference with Bayesian Network (from Microsoft Research): http://research.microsoft.com/adapt/MSBNx/
Bayes Net Toolbox for Matlab: http://bnt.sourceforge.net/
dVelox: http://aparasw.com/dVelox
SIAM & Causeway: http://www.inet.saic.com/

Примечания

↑ ¹ ² ³ ⁴ ⁵ ⁶ Judea Pearl. Causality: Models, Reasoning, and Inference. — 2-nd Edition. — Cambridge University Press, 2009. — 464 p. — ISBN 9780521895606
↑ Adnan Darwiche. Modeling and Reasoning with Bayesian Networks. — Cambridge University Press, 2009. — 526 p. — ISBN 978-0521884389
↑ Стюарт Рассел, Питер Норвиг. Искусственный интеллект: современный подход (AIMA): [пер. с англ.]. — 2-е изд. — М.: Вильямс, 2005. — 1424 p.

Ссылки

Jensen Finn V. Bayesian Networks and Decision Graphs. — Springer, 2001.
Judea Pearl, Stuart Russell. Bayesian Networks. UCLA Cognitive Systems Laboratory, Technical Report (R-277), November 2000.
Judea Pearl, Stuart Russell. Bayesian Networks, in M. A. Arbib (Ed.), Handbook of Brain Theory and Neural Networks, pp. 157—160, Cambridge, MA: MIT Press, 2003, ISBN 0-262-01197-2.
Neil M, Fenton N, Tailor M, «Using Bayesian Networks to model Expected and Unexpected Operational Losses», Risk Analysis: An International Journal, Vol 25(4), 963—972, 2005. http://www.dcs.qmul.ac.uk/~norman/papers/oprisk.pdf
Enrique Castillo, José Manuel Gutiérrez, and Ali S. Hadi. Expert Systems and Probabilistic Network Models. New York: Springer-Verlag, 1997. ISBN 0-387-94858-9
Fenton NE and Neil M, «Combining evidence in risk analysis using Bayesian Networks». https://www.dcs.qmul.ac.uk/~norman/papers/Combining%20evidence%20in%20risk%20analysis%20using%20BNs.pdf
Judea Pearl. Fusion, propagation, and structuring in belief networks. Artificial Intelligence 29(3):241—288, 1986.
Pearl Judea Probabilistic Reasoning in Intelligent Systems. — Morgan Kaufmann, 1988. — ISBN 0-934613-73-7
Judea Pearl. Causality. 2000.
J.W. Comley and D.L. Dowe, «Minimum Message Length, MDL and Generalised Bayesian Networks with Asymmetric Languages», chapter 11 (pp265—294) in P. Grunwald, M.A. Pitt and I.J. Myung (eds)., Advances in Minimum Description Length: Theory and Applications, Cambridge, MA: MIT Press, April 2005, ISBN 0-262-07262-9. (This paper puts decision trees in internal nodes of Bayes networks using Minimum Message Length (MML). An earlier version is Comley and Dowe (2003), .pdf.)
Christian Borgelt and Rudolf Kruse. Graphical Models — Methods for Data Analysis and Mining, Chichester, UK: Wiley, 2002, ISBN 0-470-84337-3
Korb Kevin B. Bayesian Artificial Intelligence. — CRC Press, 2004. — ISBN 1-58488-387-1
Nevin Lianwen Zhang and David Poole, A simple approach to Bayesian network computations, Proceedings of the Tenth Biennial Canadian Artificial Intelligence Conference (AI-94), Banff, May 1994, 171—178. This paper presents variable elimination for belief networks.
David Heckerman, A Tutorial on Learning with Bayesian Networks. In Learning in Graphical Models, M. Jordan, ed.. MIT Press, Cambridge, MA, 1999. Also appears as Technical Report MSR-TR-95-06, Microsoft Research, March, 1995. An earlier version appears as Bayesian Networks for Data Mining, Data Mining and Knowledge Discovery, 1:79-119, 1997. The paper is about both parameter and structure learning in Bayesian networks.

Графические вероятностные модели
Байесовская сеть \| Причинная Байесова сеть \| Марковская сеть \| Скрытая марковская модель

Категории:

Байесовская статистика
Машинное обучение

Wikimedia Foundation. 2010.

Игры ⚽ Нужна курсовая?

Полезное

Смотреть что такое "Байесовская сеть" в других словарях:

Байесовская сеть доверия — Байесовская сеть (или Байесовская сеть доверия) это вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей. Например, байесовская сеть может быть использована для вычисления вероятности того, чем болен… … Википедия
Байесовская вероятность — Байесовская вероятность это интерпретация понятия вероятности, используемое в байесовской теории. Вероятность определяется как степень уверенности в истинности суждения. Для определения степени уверенности в истинности суждения при… … Википедия
Марковская сеть — Марковская сеть, Марковское случайное поле, или неориентированная графическая модель это графическая модель, в которой множество случайных величин обладает Марковским свойством, описанным неориентированным графом. Марковская сеть отличается … Википедия
Графическая вероятностная модель — Графическая вероятностная модель это вероятностная модель, в которой в виде графа представлены зависимости между случайными величинами. Вершины графа соответствуют случайным переменным, а рёбра непосредственным вероятностным… … Википедия
Список эпизодов сериала «4исла» — «4исла» (англ. Numb3rs) детективный телевизионный сериал, созданный Николасом Фалаччи и Шерил Хьютон. Премьера телесериала состоялась 23 января 2005 года, 18 мая 2010 года CBS закрыл сериал … Википедия
Скрытая марковская модель — Диаграмма переходов в скрытой Марковской модели (пример) x скрытые состояния y наблюдаемые результаты a вероятности переходов b вероятность результата Скрытая Марковская модель (СММ) статистическая модель,… … Википедия
Теорема Байеса — (или формула Байеса) одна из основных теорем теории вероятностей, которая позволяет определить вероятность того, что произошло какое либо событие (гипотеза) при наличии лишь косвенных тому подтверждений (данных), которые могут быть неточны … Википедия
Наивный байесовский классификатор — простой вероятностный классификатор, основанный на применении Теоремы Байеса со строгими (наивными) предположениями о независимости. В зависимости от точной природы вероятностной модели, наивные байесовские классификаторы могут обучаться очень… … Википедия
Байес, Томас — Томас Байес Reverend Thomas Bayes Дата рождения: 1702 год(1702) Место рождения: Лондон … Википедия
Перцептрон — Логическая схема перцептрона с тремя выходами Перцептрон, или персептрон[nb 1] (англ. perceptron от … Википедия

Словари и энциклопедии на Академике

Байесовская сеть

Содержание