1. O documento discute métodos de otimização para full waveform inversion (FWI), que é uma técnica para obter modelos de propriedades da subsuperfície através do ajuste de dados sísmicos.
2. A otimização envolve iterativamente atualizar um modelo corrente para minimizar uma função objetivo que quantifica as diferenças entre os dados observados e calculados.
3. Vários métodos iterativos não-lineares são discutidos, incluindo método do gradiente, método de Newton e método de gradiente conjugado.
A Evolução das Técnicas de Aquisição Sísmica Marítima para a Coleta de Dados ...
Full Waveform Inversion: Introdução e Aplicações [3/5]
1. Full Waveform Inversion: Introdução e Aplicações
Módulo 03: Otimização - Métodos Não-Lineares Iterativos
Bruno Pereira Dias, Andé Bulcão, Djalma Manoel Soares Filho
VII Semana de Inverno de Geofísica, 6 a 8 de Julho/2016
INCT-GP, UNICAMP, Campinas, SP,
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 1 / 58
2. Ementa
Módulo 01 Introdução, Contextualização, Motivação
Módulo 02 Modelagem, Extrapolação do campo de Ondas
Módulo 03 Métodos de Otimização
Módulo 04 FWI: Algoritmo Geral, tópicos relacionados (salto de
ciclo, multi-escala, relação oset-frequência,etc...)
Módulo 05 FWI: Método Adjunto e Aplicações (Madagascar)
Módulo 06 FWI: Teoria à Prática (Palestra WorkShop SBGF 2015)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 2 / 58
3. Problemas Direto e Inverso
d = L(p)
p = L−1
(d)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 3 / 58
4. Inversão Sísmica
A inversão é uma ferramenta para se obter modelos de propriedades da subsuperfície em
alta resolução através do ajuste de dados baseado na modelagem completa da onda.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 4 / 58
5. Inversão Sísmica
A inversão é uma ferramenta para se obter modelos de propriedades da subsuperfície em
alta resolução através do ajuste de dados baseado na modelagem completa da onda.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 5 / 58
6. Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 6 / 58
7. Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 7 / 58
8. Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
9. Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
10. Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
11. Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
12. Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
13. Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
14. Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
15. Introdução
Objetivo da otimização
Encontrar, de modo determínistico, um modelo ótimo m∗, que
minimize um função objetivo χ (m), usado para quanticar as
discrepâncias entre os sismogramas observados u0 (x,t) e os sintéticos
u(m;x,t).
Modelo
Um modelo m compreende em distribuições de quantidades espaciais
de onda compressional vP (x), onda cisalhante vS (x), densidade ρ (x),
entre outros (ou combinação destes parâmeros IP, IS etc):
m(x) = [m1 (x),m2 (x),m3 (x),...] = [vP (x),vS (x),ρ (x),...]
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 9 / 58
16. Introdução
Objetivo da otimização
Encontrar, de modo determínistico, um modelo ótimo m∗, que
minimize um função objetivo χ (m), usado para quanticar as
discrepâncias entre os sismogramas observados u0 (x,t) e os sintéticos
u(m;x,t).
Modelo
Um modelo m compreende em distribuições de quantidades espaciais
de onda compressional vP (x), onda cisalhante vS (x), densidade ρ (x),
entre outros (ou combinação destes parâmeros IP, IS etc):
m(x) = [m1 (x),m2 (x),m3 (x),...] = [vP (x),vS (x),ρ (x),...]
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 9 / 58
17. Introdução
Otimização iterativa não-linear
χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo
computacional.
Método de otimização iterativo:
1 Inicia-se com um modelo inicial m0.
2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição:
mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ).
3 hi = direção de atualização. γi = tamanho do passo de atualização.
O processo iterativo é repetido até um critério de convergência ou de custo
computacional.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
18. Introdução
Otimização iterativa não-linear
χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo
computacional.
Método de otimização iterativo:
1 Inicia-se com um modelo inicial m0.
2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição:
mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ).
3 hi = direção de atualização. γi = tamanho do passo de atualização.
O processo iterativo é repetido até um critério de convergência ou de custo
computacional.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
19. Introdução
Otimização iterativa não-linear
χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo
computacional.
Método de otimização iterativo:
1 Inicia-se com um modelo inicial m0.
2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição:
mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ).
3 hi = direção de atualização. γi = tamanho do passo de atualização.
O processo iterativo é repetido até um critério de convergência ou de custo
computacional.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
20. Introdução
Otimização iterativa não-linear
χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo
computacional.
Método de otimização iterativo:
1 Inicia-se com um modelo inicial m0.
2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição:
mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ).
3 hi = direção de atualização. γi = tamanho do passo de atualização.
O processo iterativo é repetido até um critério de convergência ou de custo
computacional.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
21. Introdução
Otimização iterativa não-linear
χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo
computacional.
Método de otimização iterativo:
1 Inicia-se com um modelo inicial m0.
2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição:
mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ).
3 hi = direção de atualização. γi = tamanho do passo de atualização.
O processo iterativo é repetido até um critério de convergência ou de custo
computacional.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
22. Introdução
Otimização iterativa não-linear
χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo
computacional.
Método de otimização iterativo:
1 Inicia-se com um modelo inicial m0.
2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição:
mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ).
3 hi = direção de atualização. γi = tamanho do passo de atualização.
O processo iterativo é repetido até um critério de convergência ou de custo
computacional.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
23. Referências
Gill, P. E., Murray, W., Wright, M. H.: Practical optimization.
Academic Press, London (1981).
Fletcher, R.: Practical methods of optimization. Wiley, New York,
NY (1987).
Polak, E.: Optimization. Springer, New York, NY (1997).
Kelley, C. T.: Iterative methods for optimization. SIAM,
Philadelphia, PA (1999).
Quarteroni, A., Sacco, R., Saleri, F.: Numerical Mathematics.
Springer, New York, NY (2000).
Nocedal, J., Wright, J. S.: Numerical Optimization, Springer, New
York, NY (2006).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 11 / 58
24. Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 12 / 58
25. Norma
Denição
O conceito de norma está relacionado à noção geométrica de comprimento.
Consiste em uma função que a cada vetor associa um número real não-negativo.
Norma L1
m 1 := ∑
k
|mk (x)|d3x
Norma L2
m 2 := ∑
k
|mk (x)|2
d3x
Norma Lp
m p := p
∑
k
|mk (x)|p
d3x, 1≤ p ∞
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
26. Norma
Denição
O conceito de norma está relacionado à noção geométrica de comprimento.
Consiste em uma função que a cada vetor associa um número real não-negativo.
Norma L1
m 1 := ∑
k
|mk (x)|d3x
Norma L2
m 2 := ∑
k
|mk (x)|2
d3x
Norma Lp
m p := p
∑
k
|mk (x)|p
d3x, 1≤ p ∞
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
27. Norma
Denição
O conceito de norma está relacionado à noção geométrica de comprimento.
Consiste em uma função que a cada vetor associa um número real não-negativo.
Norma L1
m 1 := ∑
k
|mk (x)|d3x
Norma L2
m 2 := ∑
k
|mk (x)|2
d3x
Norma Lp
m p := p
∑
k
|mk (x)|p
d3x, 1≤ p ∞
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
28. Norma
Denição
O conceito de norma está relacionado à noção geométrica de comprimento.
Consiste em uma função que a cada vetor associa um número real não-negativo.
Norma L1
m 1 := ∑
k
|mk (x)|d3x
Norma L2
m 2 := ∑
k
|mk (x)|2
d3x
Norma Lp
m p := p
∑
k
|mk (x)|p
d3x, 1≤ p ∞
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
29. Base
Uma base de um espaço vetorial é um conjunto de vetores
linearmente independentes que geram esse espaço.
Os constituintes do modelo m, por exemplo, vP (x) estão
representados por uma combinação linear de N funções linearmente
independentes,
vP (x) =
N
∑
j=1
vP,j bj (x).
Funções de base típicas: harmônicos esféricos, splines, blocos.
Discretização permite utilizar a notação matricial
m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,...
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
30. Base
Uma base de um espaço vetorial é um conjunto de vetores
linearmente independentes que geram esse espaço.
Os constituintes do modelo m, por exemplo, vP (x) estão
representados por uma combinação linear de N funções linearmente
independentes,
vP (x) =
N
∑
j=1
vP,j bj (x).
Funções de base típicas: harmônicos esféricos, splines, blocos.
Discretização permite utilizar a notação matricial
m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,...
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
31. Base
Uma base de um espaço vetorial é um conjunto de vetores
linearmente independentes que geram esse espaço.
Os constituintes do modelo m, por exemplo, vP (x) estão
representados por uma combinação linear de N funções linearmente
independentes,
vP (x) =
N
∑
j=1
vP,j bj (x).
Funções de base típicas: harmônicos esféricos, splines, blocos.
Discretização permite utilizar a notação matricial
m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,...
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
32. Base
Uma base de um espaço vetorial é um conjunto de vetores
linearmente independentes que geram esse espaço.
Os constituintes do modelo m, por exemplo, vP (x) estão
representados por uma combinação linear de N funções linearmente
independentes,
vP (x) =
N
∑
j=1
vP,j bj (x).
Funções de base típicas: harmônicos esféricos, splines, blocos.
Discretização permite utilizar a notação matricial
m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,...
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
33. Mínimo Local e Global
1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M)
2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2))
3 ˜m3: mínimo global estrito (χ ( ˜m3) χ (m), ∀m ∈ M)
4 ˜m4: mínimo local estrito (χ ( ˜m4) χ (m), ∀m ∈ Nr ( ˜m4))
Figura extraída de Fitchner 2010.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
34. Mínimo Local e Global
1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M)
2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2))
3 ˜m3: mínimo global estrito (χ ( ˜m3) χ (m), ∀m ∈ M)
4 ˜m4: mínimo local estrito (χ ( ˜m4) χ (m), ∀m ∈ Nr ( ˜m4))
Figura extraída de Fitchner 2010.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
35. Mínimo Local e Global
1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M)
2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2))
3 ˜m3: mínimo global estrito (χ ( ˜m3) χ (m), ∀m ∈ M)
4 ˜m4: mínimo local estrito (χ ( ˜m4) χ (m), ∀m ∈ Nr ( ˜m4))
Figura extraída de Fitchner 2010.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
36. Mínimo Local e Global
1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M)
2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2))
3 ˜m3: mínimo global estrito (χ ( ˜m3) χ (m), ∀m ∈ M)
4 ˜m4: mínimo local estrito (χ ( ˜m4) χ (m), ∀m ∈ Nr ( ˜m4))
Figura extraída de Fitchner 2010.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
37. Condições de Otimalidade
Condição de Primeira Ordem
Se ˜m é um mínimo local de χ, isto é, χ ( ˜m) ≤ χ (m), ∀m ∈ Nr ( ˜m),
então
∇mχ ( ˜m) = 0.
Condição de Segunda Ordem
Se ˜m é um mínimo local de χ,
m·Hχ ( ˜m)·m 0, ∀m ∈ M.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 16 / 58
38. Condições de Otimalidade
Condição de Primeira Ordem
Se ˜m é um mínimo local de χ, isto é, χ ( ˜m) ≤ χ (m), ∀m ∈ Nr ( ˜m),
então
∇mχ ( ˜m) = 0.
Condição de Segunda Ordem
Se ˜m é um mínimo local de χ,
m·Hχ ( ˜m)·m 0, ∀m ∈ M.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 16 / 58
39. Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 17 / 58
40. FWI como um problema de otimização
FWI é uma ferramenta para se obter modelos de propriedades da subsuperfície em alta
resolução através do ajuste de dados baseado na modelagem completa da onda.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 18 / 58
41. Comparação Métodos de Otimização Locais e Globais
Métodos Globais
1 Avalia-se a função objetivo em todo espaço de modelo.
2 Adequado para problemas altamente não-lineares, com
presença de mínimos locais e/ou informações de
derivadas não disponíveis.
3 Dependendo da dimensionalidade do problema (número
de parâmetros), o custo computacional pode tornar o
método impraticável.
Métodos Locais
1 Visam encontrar um mínimo na vizinhança de um modelo
inicial fornecido.
2 Utilizam derivadas da função (gradiente, Hessiana) para
determinar direção de busca.
3 São computacionalmente mais ecientes para lidar com
problemas de grande porte.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 19 / 58
42. Comparação Métodos de Otimização Locais e Globais
Métodos Globais
1 Avalia-se a função objetivo em todo espaço de modelo.
2 Adequado para problemas altamente não-lineares, com
presença de mínimos locais e/ou informações de
derivadas não disponíveis.
3 Dependendo da dimensionalidade do problema (número
de parâmetros), o custo computacional pode tornar o
método impraticável.
Métodos Locais
1 Visam encontrar um mínimo na vizinhança de um modelo
inicial fornecido.
2 Utilizam derivadas da função (gradiente, Hessiana) para
determinar direção de busca.
3 São computacionalmente mais ecientes para lidar com
problemas de grande porte.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 19 / 58
43. Método Monte-Carlo
Procura-se menor valor da função objetivo aleatoriamente.
Vantagem: Não necessita o cálculo do gradiente χ. Imune a mínimos locais.
Desvantagem: Necessita grande número de iterações.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1000
Pos. nal: (x,y) = (−0.989,1.515)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 1000
Pos. nal: (x,y) = (0.954,0.939)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 20 / 58
44. Método Monte-Carlo
Procura-se menor valor da função objetivo aleatoriamente.
Vantagem: Não necessita o cálculo do gradiente χ. Imune a mínimos locais.
Desvantagem: Necessita grande número de iterações.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1000
Pos. nal: (x,y) = (−0.989,1.515)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 1000
Pos. nal: (x,y) = (0.954,0.939)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 20 / 58
45. Método Monte-Carlo
Procura-se menor valor da função objetivo aleatoriamente.
Vantagem: Não necessita o cálculo do gradiente χ. Imune a mínimos locais.
Desvantagem: Necessita grande número de iterações.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1000
Pos. nal: (x,y) = (−0.989,1.515)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 1000
Pos. nal: (x,y) = (0.954,0.939)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 20 / 58
46. Método Caminho Aleatório
A partir de um valor inicial procura-se direção aleatória que reduza valor função objetivo.
Vantagem: não necessita o cálculo do gradiente χ.
Desvantagem: necessita grande número de iterações
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1000
Pos. nal: (x,y) = (−0.977,1.464)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 1000
Pos. nal: (x,y) = (1.022,1.043)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 21 / 58
47. Método Caminho Aleatório
A partir de um valor inicial procura-se direção aleatória que reduza valor função objetivo.
Vantagem: não necessita o cálculo do gradiente χ.
Desvantagem: necessita grande número de iterações
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1000
Pos. nal: (x,y) = (−0.977,1.464)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 1000
Pos. nal: (x,y) = (1.022,1.043)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 21 / 58
48. Método Caminho Aleatório
A partir de um valor inicial procura-se direção aleatória que reduza valor função objetivo.
Vantagem: não necessita o cálculo do gradiente χ.
Desvantagem: necessita grande número de iterações
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1000
Pos. nal: (x,y) = (−0.977,1.464)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 1000
Pos. nal: (x,y) = (1.022,1.043)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 21 / 58
49. Métodos Descendentes Gerais
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule uma direção descendente
hi = −Ai ·∇mχ (mi ).
3 Atualize mi de acordo com
mi+1 = mi +γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
50. Métodos Descendentes Gerais
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule uma direção descendente
hi = −Ai ·∇mχ (mi ).
3 Atualize mi de acordo com
mi+1 = mi +γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
51. Métodos Descendentes Gerais
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule uma direção descendente
hi = −Ai ·∇mχ (mi ).
3 Atualize mi de acordo com
mi+1 = mi +γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
52. Métodos Descendentes Gerais
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule uma direção descendente
hi = −Ai ·∇mχ (mi ).
3 Atualize mi de acordo com
mi+1 = mi +γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
53. Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 23 / 58
55. Método do Gradiente
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi )
3 Atualize mi :
mi+1 = mi −γi ∇mχ (mi ),
com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
56. Método do Gradiente
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi )
3 Atualize mi :
mi+1 = mi −γi ∇mχ (mi ),
com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
57. Método do Gradiente
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi )
3 Atualize mi :
mi+1 = mi −γi ∇mχ (mi ),
com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
58. Método do Gradiente
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi )
3 Atualize mi :
mi+1 = mi −γi ∇mχ (mi ),
com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
59. Método Gradiente
A partir de um valor inicial procura-se direção com maior redução valor função objetivo.
Vantagem: necessita somente do cálculo do gradiente χ.
Desvantagem: pode ter uma taxa de convergência muito lenta.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 54
Pos. nal: (x,y) = (−0.977,1.464)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 993
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 26 / 58
60. Método Gradiente
A partir de um valor inicial procura-se direção com maior redução valor função objetivo.
Vantagem: necessita somente do cálculo do gradiente χ.
Desvantagem: pode ter uma taxa de convergência muito lenta.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 54
Pos. nal: (x,y) = (−0.977,1.464)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 993
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 26 / 58
61. Método Gradiente
A partir de um valor inicial procura-se direção com maior redução valor função objetivo.
Vantagem: necessita somente do cálculo do gradiente χ.
Desvantagem: pode ter uma taxa de convergência muito lenta.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 54
Pos. nal: (x,y) = (−0.977,1.464)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 993
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 26 / 58
63. Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 28 / 58
64. Método de Newton
Método de declividade máxima, a direção de atualização, hi , contém
somente informação da primeira derivada no modelo mi .
Método de Newton contém informações das derivadas segundas, o que
leva a uma convergência muito mais rápida (perto da solução).
Condição de otimalidade: ∇mχ ( ˜m) = 0
0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m).
Solução para ˜m,
˜m ≈ m−H−1
χ (m)·∇mχ (m).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
65. Método de Newton
Método de declividade máxima, a direção de atualização, hi , contém
somente informação da primeira derivada no modelo mi .
Método de Newton contém informações das derivadas segundas, o que
leva a uma convergência muito mais rápida (perto da solução).
Condição de otimalidade: ∇mχ ( ˜m) = 0
0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m).
Solução para ˜m,
˜m ≈ m−H−1
χ (m)·∇mχ (m).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
66. Método de Newton
Método de declividade máxima, a direção de atualização, hi , contém
somente informação da primeira derivada no modelo mi .
Método de Newton contém informações das derivadas segundas, o que
leva a uma convergência muito mais rápida (perto da solução).
Condição de otimalidade: ∇mχ ( ˜m) = 0
0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m).
Solução para ˜m,
˜m ≈ m−H−1
χ (m)·∇mχ (m).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
67. Método de Newton
Método de declividade máxima, a direção de atualização, hi , contém
somente informação da primeira derivada no modelo mi .
Método de Newton contém informações das derivadas segundas, o que
leva a uma convergência muito mais rápida (perto da solução).
Condição de otimalidade: ∇mχ ( ˜m) = 0
0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m).
Solução para ˜m,
˜m ≈ m−H−1
χ (m)·∇mχ (m).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
68. Método de Newton
Extraído de Chong-Zak, 4th Ed (2013).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 30 / 58
69. Método de Newton
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ).
3 Determine a solução descendente, hi , como solução do sistema
Hχ (m)·hi = −∇mχ (mi ).
4 Atualize mi :
mi+1 = mi −γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ).
5 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
70. Método de Newton
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ).
3 Determine a solução descendente, hi , como solução do sistema
Hχ (m)·hi = −∇mχ (mi ).
4 Atualize mi :
mi+1 = mi −γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ).
5 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
71. Método de Newton
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ).
3 Determine a solução descendente, hi , como solução do sistema
Hχ (m)·hi = −∇mχ (mi ).
4 Atualize mi :
mi+1 = mi −γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ).
5 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
72. Método de Newton
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ).
3 Determine a solução descendente, hi , como solução do sistema
Hχ (m)·hi = −∇mχ (mi ).
4 Atualize mi :
mi+1 = mi −γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ).
5 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
73. Método de Newton
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ).
3 Determine a solução descendente, hi , como solução do sistema
Hχ (m)·hi = −∇mχ (mi ).
4 Atualize mi :
mi+1 = mi −γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ).
5 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
74. Método de Newton
A partir de um valor inicial calcula-se gradiente e Hessiana para determinar direção de
atualização.
Vantagem: convergência quadrática.
Desvantagem: cálculo da Hessiana pode ter custo computacional muito elevado.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1
Pos. nal: (x,y) = (−1.000,1.500)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 11
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 32 / 58
75. Método de Newton
A partir de um valor inicial calcula-se gradiente e Hessiana para determinar direção de
atualização.
Vantagem: convergência quadrática.
Desvantagem: cálculo da Hessiana pode ter custo computacional muito elevado.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1
Pos. nal: (x,y) = (−1.000,1.500)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 11
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 32 / 58
76. Método de Newton
A partir de um valor inicial calcula-se gradiente e Hessiana para determinar direção de
atualização.
Vantagem: convergência quadrática.
Desvantagem: cálculo da Hessiana pode ter custo computacional muito elevado.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1
Pos. nal: (x,y) = (−1.000,1.500)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 11
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 32 / 58
77. Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 33 / 58
78. Método Gradiente Conjugado
Evita direções de atualização repetidas utilizando informações de
gradiente e passo anterior.
Para um problema linear, o algoritmo converge após n iterações,
sendo n a dimensão do sistema. (Demonstração Fitchner, 2010, Sec. 7.3.4.2
Painless Conjugate Gradient)
Problema linear: Jm = d
Jm−d = 0 ⇒ min
m
χ (m) = Jm−d 2
χ (m) é uma forma quadrática:
χ (m) = (Jm−d)T
(Jm−d) = m· H
JT J
·m+···
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 34 / 58
79. Método Gradiente Conjugado
Evita direções de atualização repetidas utilizando informações de
gradiente e passo anterior.
Para um problema linear, o algoritmo converge após n iterações,
sendo n a dimensão do sistema. (Demonstração Fitchner, 2010, Sec. 7.3.4.2
Painless Conjugate Gradient)
Problema linear: Jm = d
Jm−d = 0 ⇒ min
m
χ (m) = Jm−d 2
χ (m) é uma forma quadrática:
χ (m) = (Jm−d)T
(Jm−d) = m· H
JT J
·m+···
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 34 / 58
80. Método Gradiente Conjugado
Evita direções de atualização repetidas utilizando informações de
gradiente e passo anterior.
Para um problema linear, o algoritmo converge após n iterações,
sendo n a dimensão do sistema. (Demonstração Fitchner, 2010, Sec. 7.3.4.2
Painless Conjugate Gradient)
Problema linear: Jm = d
Jm−d = 0 ⇒ min
m
χ (m) = Jm−d 2
χ (m) é uma forma quadrática:
χ (m) = (Jm−d)T
(Jm−d) = m· H
JT J
·m+···
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 34 / 58
81. Método do Gradiente vs. Gradiente Conjugado
Extraído de Chong-Zak, 4th Ed (2013).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 35 / 58
82. Método do Gradiente vs. Gradiente Conjugado
Extraído de Chong-Zak, 4th Ed (2013).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 35 / 58
83. Método Gradiente Conjugado
Primeira direção = -gradiente.
Direções seguintes: combinação entre gradiente e passo anterior.
Vantagem: rápida convergência e não necessita cálculo da Hessiana.
Desvantagem: Pode necessitar reinicialização.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 11
Pos. nal: (x,y) = (−1.000,1.500)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 55
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 36 / 58
84. Método Gradiente Conjugado
Primeira direção = -gradiente.
Direções seguintes: combinação entre gradiente e passo anterior.
Vantagem: rápida convergência e não necessita cálculo da Hessiana.
Desvantagem: Pode necessitar reinicialização.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 11
Pos. nal: (x,y) = (−1.000,1.500)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 55
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 36 / 58
85. Método Gradiente Conjugado
Primeira direção = -gradiente.
Direções seguintes: combinação entre gradiente e passo anterior.
Vantagem: rápida convergência e não necessita cálculo da Hessiana.
Desvantagem: Pode necessitar reinicialização.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 11
Pos. nal: (x,y) = (−1.000,1.500)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 55
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 36 / 58
86. Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 37 / 58
87. Método Quasi-Newton (l-BFGS)
Pontos-Chave
1 Método que busca aproximar a Hessiana utilizando a informação de N
gradientes e atualizações anteriores.
2 É possível fazer uma aproximação para o inverso da Hessiana, ou seja,
não é necessário invertê-la para atualização.
3 Não é necessário armazenar a aproximação do inverso da Hessiana.
Utiliza-se um algoritmo recursivo para calcular o produto matriz-vetor.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 38 / 58
88. Método Quasi-Newton (l-BFGS)
Pontos-Chave
1 Método que busca aproximar a Hessiana utilizando a informação de N
gradientes e atualizações anteriores.
2 É possível fazer uma aproximação para o inverso da Hessiana, ou seja,
não é necessário invertê-la para atualização.
3 Não é necessário armazenar a aproximação do inverso da Hessiana.
Utiliza-se um algoritmo recursivo para calcular o produto matriz-vetor.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 38 / 58
89. Método Quasi-Newton (l-BFGS)
Pontos-Chave
1 Método que busca aproximar a Hessiana utilizando a informação de N
gradientes e atualizações anteriores.
2 É possível fazer uma aproximação para o inverso da Hessiana, ou seja,
não é necessário invertê-la para atualização.
3 Não é necessário armazenar a aproximação do inverso da Hessiana.
Utiliza-se um algoritmo recursivo para calcular o produto matriz-vetor.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 38 / 58
90. Método Quasi-Newton (l-BFGS)
mi+1 = mi −γi H−1
χ ∇mχ (mi )
H−1
χ = B é atualizado por meio da expressão
Bi+1 = VT
i Bi Vi +ρi si sT
i
onde
ρi =
1
yT
i si
, Vi = I−ρi yi sT
i
com
si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi )
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 39 / 58
91. Método Quasi-Newton (l-BFGS)
Pode-se deduzir um procedimento recursivo para calcular o produto
Bi ∇mχ (mi ) ecientemente:
Bi = VT
i−1 ...VT
i−m B0
i (Vi−m −Vi−1)
+ρi−m VT
i−1 ...VT
i−m+1 si−msT
i−m (Vi−m+1 ...Vi−1)
+ρi−m+1 VT
i−1 ...VT
i−m+2 si−m+1sT
i−m+1 (Vi−m+2 ...Vi−1)
+...
+ρi−1si−1sT
i−1
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 40 / 58
92. Método Quasi-Newton (l-BFGS)
Algoritmo recursivo
q ← ∇mχ (mk)
for i = k −1,k −2,...,k −m
α ← ρi sT
i q
q ← q−αi yi
end for
r ←B0
kq
for i = k −m,k −m +1,...,k −1
β ← ρi yT
i r
r ← r+si (αi −β)
end for
stop with result Bk∇mχ (mk) = r
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 41 / 58
93. Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 42 / 58
95. Busca Linear
Denição
Para cada iteração do método de otimização, o algoritmo de busca linear
decide quanto atualizar o modelo dada uma direção:
mi+1 = mi +γi hi ,
onde γi é um escalar positivo denominado tamanho do passo.
O sucesso da busca linear depende da escolha da direção de
atualização hi .
O algoritmos descendentes gerais, assumem que hi ·∇mχ (mi ) 0.
Assim, existe γi (sucientemente pequeno) tal que χ (mi+i ) χ (mi ).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 44 / 58
96. Busca Linear
Denição
Para cada iteração do método de otimização, o algoritmo de busca linear
decide quanto atualizar o modelo dada uma direção:
mi+1 = mi +γi hi ,
onde γi é um escalar positivo denominado tamanho do passo.
O sucesso da busca linear depende da escolha da direção de
atualização hi .
O algoritmos descendentes gerais, assumem que hi ·∇mχ (mi ) 0.
Assim, existe γi (sucientemente pequeno) tal que χ (mi+i ) χ (mi ).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 44 / 58
97. Busca Linear
Busca Linear Exata
A busca linear exata consiste em encontrar γ tal que
min
γ
φ (γ) = χ (mk +γhi )
Ao calcular γ esbarramos em um dilema:
Para encontrar o mínimo de φ (γ) é necessário a avaliação da função
objetivo inúmeras vezes.
Um passo inadequado pode degradar a performance do algoritmo de
otimização.
Busca Linear Inexata
Objetivo: encontrar um tamanho de passo adequado, que garanta a
redução de χ com um custo computacional mínimo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 45 / 58
98. Busca Linear
Busca Linear Exata
A busca linear exata consiste em encontrar γ tal que
min
γ
φ (γ) = χ (mk +γhi )
Ao calcular γ esbarramos em um dilema:
Para encontrar o mínimo de φ (γ) é necessário a avaliação da função
objetivo inúmeras vezes.
Um passo inadequado pode degradar a performance do algoritmo de
otimização.
Busca Linear Inexata
Objetivo: encontrar um tamanho de passo adequado, que garanta a
redução de χ com um custo computacional mínimo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 45 / 58
99. Busca Linear
Busca Linear Exata
A busca linear exata consiste em encontrar γ tal que
min
γ
φ (γ) = χ (mk +γhi )
Ao calcular γ esbarramos em um dilema:
Para encontrar o mínimo de φ (γ) é necessário a avaliação da função
objetivo inúmeras vezes.
Um passo inadequado pode degradar a performance do algoritmo de
otimização.
Busca Linear Inexata
Objetivo: encontrar um tamanho de passo adequado, que garanta a
redução de χ com um custo computacional mínimo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 45 / 58
100. Exemplo de Convergência Inadequada
Fonte: Nocedal 2006
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 46 / 58
101. Busca Linear
Algoritmo de Busca Linear Backtracking
Escolha ¯γ 0,ρ ∈ (0,1); Faça γ ← ¯γ
Repita até χ (mi +γhi ) χ (mi )
α ← ρα
m (repita)
γi = γ
ρ: fator de contração.
¯γ: valor do passo inicial.
Deve-se utilizar informação a priori do problema para determinar ρ e ¯γ.
Nocedal, Wright 2006: Sec. 3.1
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 47 / 58
102. Busca Linear
Estimativa do tamanho do passo por aproximação parabólica
Avalia-se 3 valores da função
objetivo.
Um dos valores γ = 0 é fornecido
pela estimativa da iteração
anterior.
Ajuste parabólico γ∗, dadas as
condições:
χ (γ1) χ (0)
χ (γ1) χ (γ2)
Documentação FWT2D v.4.8: Sec. 3.1.4
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 48 / 58
103. Busca Linear
Método Barzilai-Borwein
Motivação: Qual γ melhor aproxima H−1
χ ?
método gradiente: mi+1 = mi −γi ∇mχ (mi ),
método Newton: mi+1 = mi −H−1
χ ·∇mχ (mi ),
Solução 1:
γ1
i =
sT
i−1si−1
sT
i−1yi−1
Solução 2:
γ2
i =
sT
i−1yi−1
yT
i−1yi−1
si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi )
J. Barzilai and J.M. Borwein. Two-point step size gradient methods. IMA Journal of Numerical
Analysis, 8(1):141148, 1988.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 49 / 58
104. Busca Linear
Método Barzilai-Borwein
Motivação: Qual γ melhor aproxima H−1
χ ?
método gradiente: mi+1 = mi −γi ∇mχ (mi ),
método Newton: mi+1 = mi −H−1
χ ·∇mχ (mi ),
Solução 1:
γ1
i =
sT
i−1si−1
sT
i−1yi−1
Solução 2:
γ2
i =
sT
i−1yi−1
yT
i−1yi−1
si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi )
J. Barzilai and J.M. Borwein. Two-point step size gradient methods. IMA Journal of Numerical
Analysis, 8(1):141148, 1988.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 49 / 58
105. Busca Linear
Método Barzilai-Borwein
Motivação: Qual γ melhor aproxima H−1
χ ?
método gradiente: mi+1 = mi −γi ∇mχ (mi ),
método Newton: mi+1 = mi −H−1
χ ·∇mχ (mi ),
Solução 1:
γ1
i =
sT
i−1si−1
sT
i−1yi−1
Solução 2:
γ2
i =
sT
i−1yi−1
yT
i−1yi−1
si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi )
J. Barzilai and J.M. Borwein. Two-point step size gradient methods. IMA Journal of Numerical
Analysis, 8(1):141148, 1988.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 49 / 58
106. Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 50 / 58
107. Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
108. Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
109. Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
110. Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
111. Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
112. Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
113. Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
114. Métodos Iterativos de Otimização Não-Linear
1 Método de declividade máxima: Barato computacionalmente,
implementação simples. Pode repetir direção de busca.
2 Método de Newton: Caro computacionalmente (derivadas segundas).
Rápida convergência perto da solução. Pode ser instável.
3 Método Gradiente Conjugado: Evita repetir direções de atualização.
4 Método l-BFGS: Utiliza informações de atualizações e gradientes
anteriores para estimar Hessiana (sem cálculo explícito).
5 Busca Linear: Método para estimar tamanho do passo de atualização.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
115. Métodos Iterativos de Otimização Não-Linear
1 Método de declividade máxima: Barato computacionalmente,
implementação simples. Pode repetir direção de busca.
2 Método de Newton: Caro computacionalmente (derivadas segundas).
Rápida convergência perto da solução. Pode ser instável.
3 Método Gradiente Conjugado: Evita repetir direções de atualização.
4 Método l-BFGS: Utiliza informações de atualizações e gradientes
anteriores para estimar Hessiana (sem cálculo explícito).
5 Busca Linear: Método para estimar tamanho do passo de atualização.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
116. Métodos Iterativos de Otimização Não-Linear
1 Método de declividade máxima: Barato computacionalmente,
implementação simples. Pode repetir direção de busca.
2 Método de Newton: Caro computacionalmente (derivadas segundas).
Rápida convergência perto da solução. Pode ser instável.
3 Método Gradiente Conjugado: Evita repetir direções de atualização.
4 Método l-BFGS: Utiliza informações de atualizações e gradientes
anteriores para estimar Hessiana (sem cálculo explícito).
5 Busca Linear: Método para estimar tamanho do passo de atualização.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
117. Métodos Iterativos de Otimização Não-Linear
1 Método de declividade máxima: Barato computacionalmente,
implementação simples. Pode repetir direção de busca.
2 Método de Newton: Caro computacionalmente (derivadas segundas).
Rápida convergência perto da solução. Pode ser instável.
3 Método Gradiente Conjugado: Evita repetir direções de atualização.
4 Método l-BFGS: Utiliza informações de atualizações e gradientes
anteriores para estimar Hessiana (sem cálculo explícito).
5 Busca Linear: Método para estimar tamanho do passo de atualização.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
118. Métodos Iterativos de Otimização Não-Linear
1 Método de declividade máxima: Barato computacionalmente,
implementação simples. Pode repetir direção de busca.
2 Método de Newton: Caro computacionalmente (derivadas segundas).
Rápida convergência perto da solução. Pode ser instável.
3 Método Gradiente Conjugado: Evita repetir direções de atualização.
4 Método l-BFGS: Utiliza informações de atualizações e gradientes
anteriores para estimar Hessiana (sem cálculo explícito).
5 Busca Linear: Método para estimar tamanho do passo de atualização.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
119. Métodos Iterativos de Otimização Não-Linear
1 Método de declividade máxima: Barato computacionalmente,
implementação simples. Pode repetir direção de busca.
2 Método de Newton: Caro computacionalmente (derivadas segundas).
Rápida convergência perto da solução. Pode ser instável.
3 Método Gradiente Conjugado: Evita repetir direções de atualização.
4 Método l-BFGS: Utiliza informações de atualizações e gradientes
anteriores para estimar Hessiana (sem cálculo explícito).
5 Busca Linear: Método para estimar tamanho do passo de atualização.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
121. FWI como um problema de otimização
Problema direto: simulação numérica da propagação da onda
Calcular o campo de onda u (x,t ou ω)
L (p)u (x,t ou ω) = f (x,t ou ω)
onde L (p) é um operador diferencial linear em u (x,t ou ω) não linear em p (x)
Solução de um problema inverso
Obter m (x) no espaço de parâmetros tal que
minmχ (m) =
1
2
Ns
∑
s=1
Rsus (m)−ds
2
Ns: número de fontes
Rs: operador de restrição de us para os receptores
us (m): solução do problema direto para fonte fs
ds: dado registrado (sismograma)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 54 / 58
122. FWI como um problema de otimização
Problema direto: simulação numérica da propagação da onda
Calcular o campo de onda u (x,t ou ω)
L (p)u (x,t ou ω) = f (x,t ou ω)
onde L (p) é um operador diferencial linear em u (x,t ou ω) não linear em p (x)
Solução de um problema inverso
Obter m (x) no espaço de parâmetros tal que
minmχ (m) =
1
2
Ns
∑
s=1
Rsus (m)−ds
2
Ns: número de fontes
Rs: operador de restrição de us para os receptores
us (m): solução do problema direto para fonte fs
ds: dado registrado (sismograma)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 54 / 58
123. Destacam-se duas ferramentas que permitem a solução de
problemas de grande porte:
Métodos de otimização local
Visa encontrar um mínimo na vizinhança de um modelo inicial
fornecido. O método atualiza o modelo de subsuperfície procurando
minimizar iterativamente o valor de χ (m).
Método adjunto
Permite o cálculo do gradiente de χ (m) de uma forma eciente (tanto
no domínio do tempo, como no da frequência).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 55 / 58
124. Destacam-se duas ferramentas que permitem a solução de
problemas de grande porte:
Métodos de otimização local
Visa encontrar um mínimo na vizinhança de um modelo inicial
fornecido. O método atualiza o modelo de subsuperfície procurando
minimizar iterativamente o valor de χ (m).
Método adjunto
Permite o cálculo do gradiente de χ (m) de uma forma eciente (tanto
no domínio do tempo, como no da frequência).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 55 / 58
125. Destacam-se duas ferramentas que permitem a solução de
problemas de grande porte:
Métodos de otimização local
Visa encontrar um mínimo na vizinhança de um modelo inicial
fornecido. O método atualiza o modelo de subsuperfície procurando
minimizar iterativamente o valor de χ (m).
Método adjunto
Permite o cálculo do gradiente de χ (m) de uma forma eciente (tanto
no domínio do tempo, como no da frequência).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 55 / 58
126. Inversão Sísmica
A inversão é uma ferramenta para se obter modelos de propriedades da subsuperfície em
alta resolução através do ajuste de dados baseado na modelagem completa da onda.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 56 / 58