SlideShare une entreprise Scribd logo
1  sur  22
Télécharger pour lire hors ligne
Técnicas Bayesianas


          Renato Vicente
        rvicente@if.usp.br
  10/01, mpmmf, IME/FEA – USP
Técnicas Bayesianas
Teorema de Bayes
Modelos Hierárquicos
Inferência de Parâmetros
Inferência de Hiperparâmetros
Seleção de Modelos
Teorema de Bayes
Seja dado um conjunto de dados D e um conjunto de
hipóteses sobre os dados H1 , H2 , ..., Hn.

A teoria elementar de probabilidades nos fornece:

   P ( D, H k ) = P ( D H k ) P ( H k ) = P ( H k D ) P ( D )

Daí decorre que:
                         P( D H k ) P( H k )
             P( H k D) =
                              P( D)
Bayes em Palavras


            VEROSSIMILHANÇA × A PRIORI
POSTERIOR =
                        ˆ
                    EVIDENCIA
Bayesianos X Freqüencistas
Freqüencistas: Probabilidades como “freqüência” de ocorrência de
 um evento ao repetir-se o experimento infinitas vezes.

                                   N
                               1
             P( A) = lim
                               N
                                   ∑χ
                                   j =1
                                          A   (x j )
                        N →∞

             χ A ( x j ) = 1 se x j ∈ A, ou = 0 c.c.

Bayesianos: Probabilidades como “grau de crença” na ocorrência de
um evento.

             Jaynes, Probability: The Logic of Science
         http://omega.albany.edu:8008/JaynesBook.html
Perceptron Contínuo




       ⎛              ⎞                   1

 y = g ⎜ ∑ wj x j + μ ⎟     Função de 0.8
       ⎝ j            ⎠   transferência 0.6
           1
g (a ) =
                                         0.4

              −a
         1+ e                            0.2


                               -4   -2         2   4
Bayes, Perceptron e Classificação
Dados em duas classes C1 e C2 são gerados
a partir de duas Gaussianas centradas em m1 e m2. Assim:


                                1                  ⎧ 1                             ⎫
  P (x C1 ) =                                  exp ⎨ − ( x - m1 ) ⋅ Σ -1 (x - m1 ) ⎬
                ( 2π )                             ⎩ 2                             ⎭
                         d /2
                                Det ( Σ)1/ 2
Utilizando o Teorema de Bayes:



                                   P ( x C1 ) P (C1 )
            P (C1 x ) =
                        P ( x C1 ) P (C1 ) + P ( x C2 ) P (C2 )
Bayes, Perceptron e Classificação

   Assumindo a seguinte forma para o posterior P(C1|x):


                             1
             P (C1 x) =        −a
                                   = g (a)
                          1+ e
                    ⎡ P ( x C1 ) P (C1 ) ⎤
             a ≡ ln ⎢                    ⎥
                    ⎣ P ( x C2 ) P (C2 ) ⎦
   Retomando o Perceptron:


                 ⎛               ⎞
           y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x)
                 ⎝ j             ⎠
Bayes, Perceptron e Classificação
Retomando o Perceptron:
                      ⎛               ⎞
                y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x)
                      ⎝ j             ⎠

Com
       w = Σ -1 (m1 - m 2 )
            1            1                 ⎛ P (C1 ) ⎞
       μ = − m1 ⋅ Σ m 2 + m1 ⋅ Σ m 2 + log ⎜
                   -1           -1
                                                     ⎟
            2            2                 ⎝ P(C2 ) ⎠
Modelos Hierárquicos
Dados D são produzidos por um processo estocástico com
parâmetros w , P(D|w).


Os parâmetros w são, por sua vez, produzidos por um processo
estocástico com hiperparâmetros α , P(w| α).


A hierarquia pode continuar indefinidamente ...


... inclusive acomodando diversas hipóteses a serem testadas H1 , H2 ,
..., HN e seus respectivos graus de plausibilidade P(w,α|Hk).
Inferência de Parâmetros
Dado um conjunto de dados D e um modelo Hi , encontrar os
parâmetros mais prováveis w* .

                        P( D | w, H i ) P(w | H i )
     P ( w | D, H i ) =
                               P( D | H i )
Deve-se minimizar a função “erro” a seguir

  E (w ) = − ln P(w | D, H i ) =
          = − ln P ( D | w, H i ) − ln P(w | H i ) + cte
               max verossimilhança   conhecimento a priori
Ex: Perceptron Contínuo
H i : y ( x, w ) = g ( w ⋅ x )              t = t0 + ε , ε ∼ N (0, σ )
                                            D = {( xn , tn )}n =1
                                                             N



                     N
                                                          1
      P( D | w ) = ∏ P(tn | xn ,w )         P(w | H i ) =
                    n =1                                  Ωi
                           1          ⎧ [ yn ( x, w ) − tn ]2 ⎫
      P(tn | xn , w ) =        exp ⎨−                         ⎬
                        2πσ  2
                                      ⎩         2σ  2
                                                              ⎭
                1 N
      E ( w ) = ∑ [ yn ( x, w ) − t n ]
                                       2

                2 n =1
Intervalos de Confiança

   ln P(w | D, H i ) ≈ ln P (w* | D, H i ) − (w − w*)∇E *
                      1
                     − (w − w*) ⋅ H *(w − w*)
                      2

                                       ⎡ 1                        ⎤
P (w | D, H i ) ≈ P (w* | D, H i ) exp ⎢ − (w − w*) ⋅ H *(w − w*) ⎥
                                       ⎣ 2                        ⎦
                       0.8


                       0.6


                       0.4


                       0.2


                        0
                        2
                             1                                   2
                                 0                           1
                                                         0
                                     -1             -1
                                          -2   -2
Inferência de Hiperparâmetros

D = {xm , tm }                H = {g }  K
                                      j j =1
         K
y ( x) = ∑ w j g j ( x)
         j =1

Ruido : tm = y ( xm ) + ε   ε ∼ N (0, σ )
Hiperparâmetro da Verossimilhança

                             1
P( D | w, β , H , Ruido) =         exp [ − β ED ( D | w, H ) ]
                           ZD (β )
                                 N
                      ⎛   1 ⎞  ⎡  1 N          2⎤
P(D| w, β, H, Ruido) =⎜ 2 ⎟ exp⎢− 2 ∑ y(xm)−tm) ⎥
                                       (
                                 2

                      ⎝ 2πσ ⎠  ⎣ 2σ m=1         ⎦

                                 1
                          β=
                                σ    2
Hiperparâmetro da Distribuição a Priori

     P( y | α , R) =
                        1
                     Z y (α )
                                            {
                              exp −α ∫ dx [ y′′( x) ]
                                                     2
                                                         }
                    K
     H : y′′( x) = ∑ w j g ′′( x)
                            j
                   j =1

                          1
     P(w | α , H , R) =         exp [ −α EW (w | H , R) ]
                        ZW (α )
                           K
     EW (w | H , R) =     ∑ w w ∫ dx g ′′( x) g ′′( x)
                          j ,i =1
                                    j   i       j   i



    ZW (α ) = ∫ d w exp [ −α EW (w | H , R) ]
Estimação de hiperparâmetros

                       verossimilhança         Pr ior flat

                   P( D | α , β , H ) P(α , β | H )
P(α , β | D, H ) =
                              P( D | H )
                                   Evidencia


                              Z E (α , β )
       P( D | α , β , H ) =
                            Z D ( β ) ZW (α )

      (α *, β *) = arg max P(α , β | D, H )
Seleção de Modelos
           Maximiza-se a evidência


    P( H i | D) ∝ P( D | H i ) P( H i )

 Não há necessidade de normalização já que sempre
podemos introduzir um novo modelo para comparação
                  com os demais.
Navalha de Occam
Entre modelos de mesma capacidade explicativa o mais
simples deve ser preferido.

         P ( D | H1 )
                                      P( D | H 2 )

                                                     D
                        Ω
                                   P( D)    prior
Avaliando a Evidência

P ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i )
P( D | H i )   P( D | w*, H i ) P (w* | H i )Δw
  Evidencia     max verossimilhança     Fator de Occam

                                                Δw j
                                      F .O. =
                Δw 2                            Δw 0
                                  Δw1
                                                         D

                          Δw 0
Aproximação para a Evidência


P ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i )
                                                        ⎡ 1                       ⎤
P( D | H i )     P( D | w*, H i ) P(w* | H i ) ∫ dw exp ⎢ − (w − w*) ⋅ H (w − w*) ⎥
                                                        ⎣ 2                       ⎦
               = P( D | w*, H i ) P(w* | H i ) (2π ) K / 2 Det ( H )
                                                       Fator de Occam
Bibliografia

  David MacKay, Information Theory, Inference, and Learning
Algorithms (http://wol.ra.phy.cam.ac.uk/mackay/)


  David MacKay, Bayesian Methods for Adaptive Models
(http://wol.ra.phy.cam.ac.uk/mackay/)


 Differential Geometry in Statistical Inference
(Ims Lecture Notes-Monograph Ser.: Vol. 10)
by S. Amari

Contenu connexe

Tendances

Anatomia Comparativa de Modelos de Risco de Crédito
Anatomia Comparativa de Modelos de Risco de CréditoAnatomia Comparativa de Modelos de Risco de Crédito
Anatomia Comparativa de Modelos de Risco de CréditoRenato Vicente
 
[Robson] 1. Programação Linear
[Robson] 1. Programação Linear[Robson] 1. Programação Linear
[Robson] 1. Programação Linearlapodcc
 
[Robson] 7. Programação Não Linear Irrestrita
[Robson] 7. Programação Não Linear Irrestrita[Robson] 7. Programação Não Linear Irrestrita
[Robson] 7. Programação Não Linear Irrestritalapodcc
 
Integral de linha campo vetorial - calculo iii
Integral de linha   campo vetorial - calculo iiiIntegral de linha   campo vetorial - calculo iii
Integral de linha campo vetorial - calculo iiiJailson Nascimento
 
Calculo vetorial
Calculo vetorialCalculo vetorial
Calculo vetorialtooonks
 
[Robson] 4. Dualidade
[Robson] 4. Dualidade[Robson] 4. Dualidade
[Robson] 4. Dualidadelapodcc
 
[Robson] 5. Análise de Sensibilidade
[Robson] 5. Análise de Sensibilidade[Robson] 5. Análise de Sensibilidade
[Robson] 5. Análise de Sensibilidadelapodcc
 
Derivadas Aplicações
Derivadas AplicaçõesDerivadas Aplicações
Derivadas AplicaçõesJones Fagundes
 
[Robson] 3. Método Simplex
[Robson] 3. Método Simplex[Robson] 3. Método Simplex
[Robson] 3. Método Simplexlapodcc
 
[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restrita[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restritalapodcc
 
funçoes
funçoesfunçoes
funçoestagma33
 
V@R ajustado a liquidez
V@R ajustado a liquidezV@R ajustado a liquidez
V@R ajustado a liquidezRenato Vicente
 
[Alexandre] 2. Geometria
[Alexandre] 2. Geometria[Alexandre] 2. Geometria
[Alexandre] 2. Geometrialapodcc
 
Cálculo Diferencial em R
Cálculo Diferencial em RCálculo Diferencial em R
Cálculo Diferencial em Rtintintest
 

Tendances (20)

Anatomia Comparativa de Modelos de Risco de Crédito
Anatomia Comparativa de Modelos de Risco de CréditoAnatomia Comparativa de Modelos de Risco de Crédito
Anatomia Comparativa de Modelos de Risco de Crédito
 
Aula 05 derivadas - conceitos iniciais
Aula 05   derivadas - conceitos iniciaisAula 05   derivadas - conceitos iniciais
Aula 05 derivadas - conceitos iniciais
 
Derivada
DerivadaDerivada
Derivada
 
[Robson] 1. Programação Linear
[Robson] 1. Programação Linear[Robson] 1. Programação Linear
[Robson] 1. Programação Linear
 
[Robson] 7. Programação Não Linear Irrestrita
[Robson] 7. Programação Não Linear Irrestrita[Robson] 7. Programação Não Linear Irrestrita
[Robson] 7. Programação Não Linear Irrestrita
 
Integral de linha campo vetorial - calculo iii
Integral de linha   campo vetorial - calculo iiiIntegral de linha   campo vetorial - calculo iii
Integral de linha campo vetorial - calculo iii
 
Derivadas
DerivadasDerivadas
Derivadas
 
Calculo vetorial
Calculo vetorialCalculo vetorial
Calculo vetorial
 
[Robson] 4. Dualidade
[Robson] 4. Dualidade[Robson] 4. Dualidade
[Robson] 4. Dualidade
 
[Robson] 5. Análise de Sensibilidade
[Robson] 5. Análise de Sensibilidade[Robson] 5. Análise de Sensibilidade
[Robson] 5. Análise de Sensibilidade
 
Derivadas Aplicações
Derivadas AplicaçõesDerivadas Aplicações
Derivadas Aplicações
 
Ex algebra (8)
Ex algebra  (8)Ex algebra  (8)
Ex algebra (8)
 
[Robson] 3. Método Simplex
[Robson] 3. Método Simplex[Robson] 3. Método Simplex
[Robson] 3. Método Simplex
 
[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restrita[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restrita
 
funçoes
funçoesfunçoes
funçoes
 
V@R ajustado a liquidez
V@R ajustado a liquidezV@R ajustado a liquidez
V@R ajustado a liquidez
 
Formulário - Estatística
Formulário - EstatísticaFormulário - Estatística
Formulário - Estatística
 
Esboço - Gráfico de Função
Esboço - Gráfico de FunçãoEsboço - Gráfico de Função
Esboço - Gráfico de Função
 
[Alexandre] 2. Geometria
[Alexandre] 2. Geometria[Alexandre] 2. Geometria
[Alexandre] 2. Geometria
 
Cálculo Diferencial em R
Cálculo Diferencial em RCálculo Diferencial em R
Cálculo Diferencial em R
 

En vedette

Inteligencia financeira II
Inteligencia financeira IIInteligencia financeira II
Inteligencia financeira IIRenato Vicente
 
Inteligencia financeira I
Inteligencia financeira IInteligencia financeira I
Inteligencia financeira IRenato Vicente
 
Risco de Crédito 2: CreditRisk+
Risco de Crédito 2: CreditRisk+Risco de Crédito 2: CreditRisk+
Risco de Crédito 2: CreditRisk+Renato Vicente
 
Estatística: introdução
Estatística: introduçãoEstatística: introdução
Estatística: introduçãoRenato Vicente
 
Estatistica: introducao a teoria de decisao
Estatistica: introducao a teoria de decisaoEstatistica: introducao a teoria de decisao
Estatistica: introducao a teoria de decisaoRenato Vicente
 
Estatística: Probabilidade
Estatística: ProbabilidadeEstatística: Probabilidade
Estatística: ProbabilidadeRenato Vicente
 
Estatística: Modelos Discretos
Estatística: Modelos DiscretosEstatística: Modelos Discretos
Estatística: Modelos DiscretosRenato Vicente
 
Estatística: Introduçao à Estimacao Bayesiana
Estatística: Introduçao à Estimacao BayesianaEstatística: Introduçao à Estimacao Bayesiana
Estatística: Introduçao à Estimacao BayesianaRenato Vicente
 
Seminário redes bayesianas
Seminário redes bayesianasSeminário redes bayesianas
Seminário redes bayesianasiaudesc
 

En vedette (20)

Inteligencia financeira II
Inteligencia financeira IIInteligencia financeira II
Inteligencia financeira II
 
Inteligencia financeira I
Inteligencia financeira IInteligencia financeira I
Inteligencia financeira I
 
Risco de Crédito 2: CreditRisk+
Risco de Crédito 2: CreditRisk+Risco de Crédito 2: CreditRisk+
Risco de Crédito 2: CreditRisk+
 
Estatística: introdução
Estatística: introduçãoEstatística: introdução
Estatística: introdução
 
Risco sistêmico
Risco sistêmicoRisco sistêmico
Risco sistêmico
 
Backtesting
BacktestingBacktesting
Backtesting
 
Testes de Stress
Testes de StressTestes de Stress
Testes de Stress
 
Estatistica: introducao a teoria de decisao
Estatistica: introducao a teoria de decisaoEstatistica: introducao a teoria de decisao
Estatistica: introducao a teoria de decisao
 
Estatística: Probabilidade
Estatística: ProbabilidadeEstatística: Probabilidade
Estatística: Probabilidade
 
Estatística: Modelos Discretos
Estatística: Modelos DiscretosEstatística: Modelos Discretos
Estatística: Modelos Discretos
 
Estatística: Introduçao à Estimacao Bayesiana
Estatística: Introduçao à Estimacao BayesianaEstatística: Introduçao à Estimacao Bayesiana
Estatística: Introduçao à Estimacao Bayesiana
 
Risco de derivativos
Risco de derivativosRisco de derivativos
Risco de derivativos
 
Risco de Crédito 1
Risco de Crédito 1Risco de Crédito 1
Risco de Crédito 1
 
V@R Histórico
V@R HistóricoV@R Histórico
V@R Histórico
 
V@R Monte Carlo
V@R Monte CarloV@R Monte Carlo
V@R Monte Carlo
 
Seminário redes bayesianas
Seminário redes bayesianasSeminário redes bayesianas
Seminário redes bayesianas
 
Teorema de bayes
Teorema de bayesTeorema de bayes
Teorema de bayes
 
Teorema de bayes
Teorema de bayesTeorema de bayes
Teorema de bayes
 
Teorema de bayes
Teorema de bayesTeorema de bayes
Teorema de bayes
 
Ejemplos del teorema de Bayes
Ejemplos del teorema de BayesEjemplos del teorema de Bayes
Ejemplos del teorema de Bayes
 

Similaire à Redes Neurais: Técnicas Bayesianas

Lista polinomio equaçoes_3_ano_2012_pdf
Lista polinomio equaçoes_3_ano_2012_pdfLista polinomio equaçoes_3_ano_2012_pdf
Lista polinomio equaçoes_3_ano_2012_pdfcristianomatematico
 
Formulário de Análise Matemática
Formulário de Análise MatemáticaFormulário de Análise Matemática
Formulário de Análise MatemáticaPedro Dias
 
OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2guestd49fc4
 
OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2guestd49fc4
 
As equações do segundo grau são abordadas na história da matemática desde a é...
As equações do segundo grau são abordadas na história da matemática desde a é...As equações do segundo grau são abordadas na história da matemática desde a é...
As equações do segundo grau são abordadas na história da matemática desde a é...leosilveira
 
Sessao 2 Introdução à T.I e Entropias
Sessao 2 Introdução à T.I e EntropiasSessao 2 Introdução à T.I e Entropias
Sessao 2 Introdução à T.I e EntropiasPedro De Almeida
 
Variaveis+aleatorias
Variaveis+aleatoriasVariaveis+aleatorias
Variaveis+aleatoriasFagner Talles
 
Revisão de polinômios
Revisão de polinômiosRevisão de polinômios
Revisão de polinômiosmatheuslw
 
Formulario estatistica descritiva univariada e bivariava 2013
Formulario estatistica descritiva univariada e bivariava  2013Formulario estatistica descritiva univariada e bivariava  2013
Formulario estatistica descritiva univariada e bivariava 2013Pedro Casquilho
 
Aula 4 - Educação física
Aula 4 - Educação físicaAula 4 - Educação física
Aula 4 - Educação físicaCaroline Godoy
 

Similaire à Redes Neurais: Técnicas Bayesianas (20)

Lista polinomio equaçoes_3_ano_2012_pdf
Lista polinomio equaçoes_3_ano_2012_pdfLista polinomio equaçoes_3_ano_2012_pdf
Lista polinomio equaçoes_3_ano_2012_pdf
 
Formulário de Análise Matemática
Formulário de Análise MatemáticaFormulário de Análise Matemática
Formulário de Análise Matemática
 
Polinomios
PolinomiosPolinomios
Polinomios
 
Mat polinomios 002
Mat polinomios  002Mat polinomios  002
Mat polinomios 002
 
Apostila 1 calculo i
Apostila 1 calculo iApostila 1 calculo i
Apostila 1 calculo i
 
Lista 3 - Bases Matemáticas - Indução
Lista 3  - Bases Matemáticas - InduçãoLista 3  - Bases Matemáticas - Indução
Lista 3 - Bases Matemáticas - Indução
 
Polinômios cn 2013 - exercícios
Polinômios  cn 2013 - exercíciosPolinômios  cn 2013 - exercícios
Polinômios cn 2013 - exercícios
 
OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2
 
OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2
 
Polinomios
PolinomiosPolinomios
Polinomios
 
Polinomios
PolinomiosPolinomios
Polinomios
 
As equações do segundo grau são abordadas na história da matemática desde a é...
As equações do segundo grau são abordadas na história da matemática desde a é...As equações do segundo grau são abordadas na história da matemática desde a é...
As equações do segundo grau são abordadas na história da matemática desde a é...
 
Sessao 2 Introdução à T.I e Entropias
Sessao 2 Introdução à T.I e EntropiasSessao 2 Introdução à T.I e Entropias
Sessao 2 Introdução à T.I e Entropias
 
Ex algebra (14)
Ex algebra  (14)Ex algebra  (14)
Ex algebra (14)
 
Polinomios aula
Polinomios aulaPolinomios aula
Polinomios aula
 
Mat logaritmos 005
Mat logaritmos  005Mat logaritmos  005
Mat logaritmos 005
 
Variaveis+aleatorias
Variaveis+aleatoriasVariaveis+aleatorias
Variaveis+aleatorias
 
Revisão de polinômios
Revisão de polinômiosRevisão de polinômios
Revisão de polinômios
 
Formulario estatistica descritiva univariada e bivariava 2013
Formulario estatistica descritiva univariada e bivariava  2013Formulario estatistica descritiva univariada e bivariava  2013
Formulario estatistica descritiva univariada e bivariava 2013
 
Aula 4 - Educação física
Aula 4 - Educação físicaAula 4 - Educação física
Aula 4 - Educação física
 

Dernier

planejamento_estrategico_-_gestao_2021-2024_16015654.pdf
planejamento_estrategico_-_gestao_2021-2024_16015654.pdfplanejamento_estrategico_-_gestao_2021-2024_16015654.pdf
planejamento_estrategico_-_gestao_2021-2024_16015654.pdfmaurocesarpaesalmeid
 
Slides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxSlides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxMauricioOliveira258223
 
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfRecomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfFrancisco Márcio Bezerra Oliveira
 
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfProjeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfHELENO FAVACHO
 
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdfPRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdfprofesfrancleite
 
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTeoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTailsonSantos1
 
Discurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptxDiscurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptxferreirapriscilla84
 
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdfApresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdfcomercial400681
 
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfPROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfHELENO FAVACHO
 
Bloco de português com artigo de opinião 8º A, B 3.docx
Bloco de português com artigo de opinião 8º A, B 3.docxBloco de português com artigo de opinião 8º A, B 3.docx
Bloco de português com artigo de opinião 8º A, B 3.docxkellyneamaral
 
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdfLeloIurk1
 
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de..."É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...Rosalina Simão Nunes
 
o ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdfo ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdfCamillaBrito19
 
Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesFabianeMartins35
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãIlda Bicacro
 
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfPROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfHELENO FAVACHO
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdfAna Lemos
 
Apresentação em Powerpoint do Bioma Catinga.pptx
Apresentação em Powerpoint do Bioma Catinga.pptxApresentação em Powerpoint do Bioma Catinga.pptx
Apresentação em Powerpoint do Bioma Catinga.pptxLusGlissonGud
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médiorosenilrucks
 
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMPRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMHELENO FAVACHO
 

Dernier (20)

planejamento_estrategico_-_gestao_2021-2024_16015654.pdf
planejamento_estrategico_-_gestao_2021-2024_16015654.pdfplanejamento_estrategico_-_gestao_2021-2024_16015654.pdf
planejamento_estrategico_-_gestao_2021-2024_16015654.pdf
 
Slides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxSlides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptx
 
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfRecomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
 
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfProjeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
 
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdfPRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
 
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTeoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
 
Discurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptxDiscurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptx
 
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdfApresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
 
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfPROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
 
Bloco de português com artigo de opinião 8º A, B 3.docx
Bloco de português com artigo de opinião 8º A, B 3.docxBloco de português com artigo de opinião 8º A, B 3.docx
Bloco de português com artigo de opinião 8º A, B 3.docx
 
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
 
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de..."É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
 
o ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdfo ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdf
 
Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividades
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! Sertã
 
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfPROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdf
 
Apresentação em Powerpoint do Bioma Catinga.pptx
Apresentação em Powerpoint do Bioma Catinga.pptxApresentação em Powerpoint do Bioma Catinga.pptx
Apresentação em Powerpoint do Bioma Catinga.pptx
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médio
 
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMPRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
 

Redes Neurais: Técnicas Bayesianas

  • 1. Técnicas Bayesianas Renato Vicente rvicente@if.usp.br 10/01, mpmmf, IME/FEA – USP
  • 2. Técnicas Bayesianas Teorema de Bayes Modelos Hierárquicos Inferência de Parâmetros Inferência de Hiperparâmetros Seleção de Modelos
  • 3. Teorema de Bayes Seja dado um conjunto de dados D e um conjunto de hipóteses sobre os dados H1 , H2 , ..., Hn. A teoria elementar de probabilidades nos fornece: P ( D, H k ) = P ( D H k ) P ( H k ) = P ( H k D ) P ( D ) Daí decorre que: P( D H k ) P( H k ) P( H k D) = P( D)
  • 4. Bayes em Palavras VEROSSIMILHANÇA × A PRIORI POSTERIOR = ˆ EVIDENCIA
  • 5. Bayesianos X Freqüencistas Freqüencistas: Probabilidades como “freqüência” de ocorrência de um evento ao repetir-se o experimento infinitas vezes. N 1 P( A) = lim N ∑χ j =1 A (x j ) N →∞ χ A ( x j ) = 1 se x j ∈ A, ou = 0 c.c. Bayesianos: Probabilidades como “grau de crença” na ocorrência de um evento. Jaynes, Probability: The Logic of Science http://omega.albany.edu:8008/JaynesBook.html
  • 6. Perceptron Contínuo ⎛ ⎞ 1 y = g ⎜ ∑ wj x j + μ ⎟ Função de 0.8 ⎝ j ⎠ transferência 0.6 1 g (a ) = 0.4 −a 1+ e 0.2 -4 -2 2 4
  • 7. Bayes, Perceptron e Classificação Dados em duas classes C1 e C2 são gerados a partir de duas Gaussianas centradas em m1 e m2. Assim: 1 ⎧ 1 ⎫ P (x C1 ) = exp ⎨ − ( x - m1 ) ⋅ Σ -1 (x - m1 ) ⎬ ( 2π ) ⎩ 2 ⎭ d /2 Det ( Σ)1/ 2 Utilizando o Teorema de Bayes: P ( x C1 ) P (C1 ) P (C1 x ) = P ( x C1 ) P (C1 ) + P ( x C2 ) P (C2 )
  • 8. Bayes, Perceptron e Classificação Assumindo a seguinte forma para o posterior P(C1|x): 1 P (C1 x) = −a = g (a) 1+ e ⎡ P ( x C1 ) P (C1 ) ⎤ a ≡ ln ⎢ ⎥ ⎣ P ( x C2 ) P (C2 ) ⎦ Retomando o Perceptron: ⎛ ⎞ y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x) ⎝ j ⎠
  • 9. Bayes, Perceptron e Classificação Retomando o Perceptron: ⎛ ⎞ y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x) ⎝ j ⎠ Com w = Σ -1 (m1 - m 2 ) 1 1 ⎛ P (C1 ) ⎞ μ = − m1 ⋅ Σ m 2 + m1 ⋅ Σ m 2 + log ⎜ -1 -1 ⎟ 2 2 ⎝ P(C2 ) ⎠
  • 10. Modelos Hierárquicos Dados D são produzidos por um processo estocástico com parâmetros w , P(D|w). Os parâmetros w são, por sua vez, produzidos por um processo estocástico com hiperparâmetros α , P(w| α). A hierarquia pode continuar indefinidamente ... ... inclusive acomodando diversas hipóteses a serem testadas H1 , H2 , ..., HN e seus respectivos graus de plausibilidade P(w,α|Hk).
  • 11. Inferência de Parâmetros Dado um conjunto de dados D e um modelo Hi , encontrar os parâmetros mais prováveis w* . P( D | w, H i ) P(w | H i ) P ( w | D, H i ) = P( D | H i ) Deve-se minimizar a função “erro” a seguir E (w ) = − ln P(w | D, H i ) = = − ln P ( D | w, H i ) − ln P(w | H i ) + cte max verossimilhança conhecimento a priori
  • 12. Ex: Perceptron Contínuo H i : y ( x, w ) = g ( w ⋅ x ) t = t0 + ε , ε ∼ N (0, σ ) D = {( xn , tn )}n =1 N N 1 P( D | w ) = ∏ P(tn | xn ,w ) P(w | H i ) = n =1 Ωi 1 ⎧ [ yn ( x, w ) − tn ]2 ⎫ P(tn | xn , w ) = exp ⎨− ⎬ 2πσ 2 ⎩ 2σ 2 ⎭ 1 N E ( w ) = ∑ [ yn ( x, w ) − t n ] 2 2 n =1
  • 13. Intervalos de Confiança ln P(w | D, H i ) ≈ ln P (w* | D, H i ) − (w − w*)∇E * 1 − (w − w*) ⋅ H *(w − w*) 2 ⎡ 1 ⎤ P (w | D, H i ) ≈ P (w* | D, H i ) exp ⎢ − (w − w*) ⋅ H *(w − w*) ⎥ ⎣ 2 ⎦ 0.8 0.6 0.4 0.2 0 2 1 2 0 1 0 -1 -1 -2 -2
  • 14. Inferência de Hiperparâmetros D = {xm , tm } H = {g } K j j =1 K y ( x) = ∑ w j g j ( x) j =1 Ruido : tm = y ( xm ) + ε ε ∼ N (0, σ )
  • 15. Hiperparâmetro da Verossimilhança 1 P( D | w, β , H , Ruido) = exp [ − β ED ( D | w, H ) ] ZD (β ) N ⎛ 1 ⎞ ⎡ 1 N 2⎤ P(D| w, β, H, Ruido) =⎜ 2 ⎟ exp⎢− 2 ∑ y(xm)−tm) ⎥ ( 2 ⎝ 2πσ ⎠ ⎣ 2σ m=1 ⎦ 1 β= σ 2
  • 16. Hiperparâmetro da Distribuição a Priori P( y | α , R) = 1 Z y (α ) { exp −α ∫ dx [ y′′( x) ] 2 } K H : y′′( x) = ∑ w j g ′′( x) j j =1 1 P(w | α , H , R) = exp [ −α EW (w | H , R) ] ZW (α ) K EW (w | H , R) = ∑ w w ∫ dx g ′′( x) g ′′( x) j ,i =1 j i j i ZW (α ) = ∫ d w exp [ −α EW (w | H , R) ]
  • 17. Estimação de hiperparâmetros verossimilhança Pr ior flat P( D | α , β , H ) P(α , β | H ) P(α , β | D, H ) = P( D | H ) Evidencia Z E (α , β ) P( D | α , β , H ) = Z D ( β ) ZW (α ) (α *, β *) = arg max P(α , β | D, H )
  • 18. Seleção de Modelos Maximiza-se a evidência P( H i | D) ∝ P( D | H i ) P( H i ) Não há necessidade de normalização já que sempre podemos introduzir um novo modelo para comparação com os demais.
  • 19. Navalha de Occam Entre modelos de mesma capacidade explicativa o mais simples deve ser preferido. P ( D | H1 ) P( D | H 2 ) D Ω P( D) prior
  • 20. Avaliando a Evidência P ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i ) P( D | H i ) P( D | w*, H i ) P (w* | H i )Δw Evidencia max verossimilhança Fator de Occam Δw j F .O. = Δw 2 Δw 0 Δw1 D Δw 0
  • 21. Aproximação para a Evidência P ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i ) ⎡ 1 ⎤ P( D | H i ) P( D | w*, H i ) P(w* | H i ) ∫ dw exp ⎢ − (w − w*) ⋅ H (w − w*) ⎥ ⎣ 2 ⎦ = P( D | w*, H i ) P(w* | H i ) (2π ) K / 2 Det ( H ) Fator de Occam
  • 22. Bibliografia David MacKay, Information Theory, Inference, and Learning Algorithms (http://wol.ra.phy.cam.ac.uk/mackay/) David MacKay, Bayesian Methods for Adaptive Models (http://wol.ra.phy.cam.ac.uk/mackay/) Differential Geometry in Statistical Inference (Ims Lecture Notes-Monograph Ser.: Vol. 10) by S. Amari