SlideShare une entreprise Scribd logo
1  sur  24
Télécharger pour lire hors ligne
Aprendizado de Máquina
Supervisionado na Predição de Links
       em Redes Complexas
       Uma Revisão Sistemática
            Orlando da Silva Junior
           Dra. Ana Carolina Lorena
Contexto
• Redes Complexas são estudadas em diversas
  áreas do conhecimento
  – Pesquisa em ciências humanas
  – Pesquisa em ciências exatas

• Avanços na pesquisa
  – Proposição de novas tarefas      PREDIÇÃO
  – Proposição de novas aplicações    DE LINKS
  – Proposição de novos estudos
Contexto
• Predição de Links
  – Trata do problema das ligações nas redes
     • Como fazer aplicações em redes incompletas?
     • Por que esses nós não estão conectados?
     • Esses nós poderiam se conectar no futuro?


  – Técnicas para solucionar esses problemas
     • Aprendizado de Máquina
        – Não-Supervisionado
        – Supervisionado
Objetivo do Trabalho
• Investigar como o Aprendizado de Máquina
  Supervisionado resolve o problema da
  Predição de Links em Redes Complexas

• Como? Utilizando Revisão Sistemática
  – Processo sistemático para realização de revisão
    bibliográfica
Revisão Sistemática
• Estudo secundário
  – Auxilia na definição de uma metodologia para
    identificar, analisar e interpretar todas as
    evidências disponíveis em questão de pesquisa
    específica
                                    Condução
     • Identificação das                         • Formato da
       necessidades da          • Aplicação do     publicação
       revisão                    protocolo      • Meios de
     • Definição do protocolo   • Extração de      divulgação
       de revisão                 informações
          Planejamento                              Publicação
Revisão Sistemática
• Objetivos da revisão
  – Identificar uma teoria geral sobre Predição de
    Links;
  – Buscar como a abordagem supervisionada é
    utilizada para resolver o problema da Predição de
    Links;
  – Encontrar bases de dados para benchmarking;
  – Identificar a forma como a Predição de Links
    colabora para a Teoria das Redes.
Revisão Sistemática | Planejamento
• Necessidade: nenhuma outra publicação
  semelhante encontrada

• Questões de pesquisa
  – Como o paradigma da aprendizagem
    supervisionada resolve o problema da Predição de
    Links?
  – Como funciona a Predição de Links?
Revisão Sistemática | Planejamento
•   Pergunta 1: Como o paradigma da aprendizagem supervisionada resolve o
    problema da Predição de Links?

     – Quais são as principais técnicas de Aprendizado Supervisionado utilizadas na
       Predição de Links?

     – Qual é o tipo de problema supervisionado na Predição de Links?

     – Como os conjuntos de dados são estruturados?

     – Quais são os principais atributos e métricas utilizados?

     – Qual é a metodologia experimental adotada?

     – Quais são os algoritmos base usados na comparação de resultados?
Revisão Sistemática | Planejamento
• Pergunta 2: Como funciona a Predição de
  Links?

  – Quais são as bases de dados comumente usadas?


  – Que tipo de aplicações tratam do problema da
    Predição de Links?
Revisão Sistemática | Planejamento
                                                    Expressão geral de busca
• Aprendizado de Máquina
  Supervisionado
   –   supervised machine learning
   –   supervised learning
   –   pattern recognition
   –   data mining

• Predição de Links
   – link prediction
   – link mining
   – link analysis                   Portais de Referências Bibliográficas escolhidos
                                     • Portal ACM (ACM Digital Library)
• Redes Complexas                    • Portal IEEE (IEEE Xplore)
                                     • Science Direct
   – network
                                     • Web of Science
   – networks                        • CiteSeerX
                                     • Scopus
Revisão Sistemática | Planejamento
• Critérios de exclusão
  – Publicações que não tratam de Predição de Links
     • Aplicação ou utilização no tema

  – Publicações restritas
     • Acesso não limitado à UFABC ou UNIFESP

  – Publicações com idioma inacessível
     • Português, inglês ou espanhol

  – Restrição por tipo de publicação
     • Conferências ou periódicos
Revisão Sistemática | Planejamento

Título do Trabalho
• Relação com os tópicos de pesquisa
                                               Extração de Informações
                                               • Título do Trabalho
                                               • Autores
                                               • Tipo de publicação
    Resumo                                     • Local e ano
    • Referência a Predição de Links           • Portal bibliográfico
                                               • Observações


         Texto
         • Leitura parcial
         • Predição de Links com Aprendizado
           Supervisionado
Revisão Sistemática | Condução
• Aplicação do protocolo anterior
  – Adaptação da expressão de busca aos portais
    escolhidos

            Portal Bibliográfico   Quantidade
          Scopus                      107
          Portal IEEE                 76          Final:
                                                    33
          Web of Science              36
                                                Trabalhos
          CiteSeerX                   25
          Portal ACM                  12
          Science Direct               3
Revisão Sistemática | Condução
• Pesquisa entre 07/novembro/2012 e 17/novembro/2012
                        Publicações por ano
Resultados e Discussão
Resultados |Modelagem
•    𝑮(𝒕) é um grafo que sumariza de algum modo a sequência
    temporal 𝑮 = (𝑮(𝟏), … , 𝑮(𝒕))

• Toda rede em G é do tipo 𝑮 = (𝑽, 𝑬):
    – 𝑽 é o conjunto de vértices
    – 𝑬 é o conjunto de arestas, com 𝒆 = (𝒖, 𝒗)

•   𝑮(𝒕 + 𝟏) é rotulado
    – Presença de links  +1         Problema
    – Ausência de links  -1          Binário

• Os vértices u e v pertencem aos grafos 𝑮(𝒕) e 𝑮(𝒕 + 𝟏), mas o par
  (𝒖, 𝒗) – aresta – só existe em 𝑮(𝒕 + 𝟏)
Resultados |Conjuntos de Dados

Tipo de Rede         Tipo ou Fonte de Dados
                     DBLP                     Principal
Rede Social          Facebook
                     arXiv
                     Enron
Rede de Informação   CiteSeer                    Utilizadas como
                     Wikipedia                    Redes Sociais
                     KEGG PATHWAY
Rede Biológica
                     Proteína-proteína
Rede Tecnológica     Chamadas Telefônicas
Resultados | Métricas
• As métricas são as
  medidas de Análise de
  Redes Complexas
   – Qualificam a topologia e
     definem as configurações
     da rede


• Análise da estrutura da
  rede sem necessidade de
  representações gráficas
   – Cálculos estatísticos      Rede de interações proteína-proteína
                                    em Saccharomyces cerevisiae
                                 (http://www.visualcomplexity.com)
Resultados | Métricas
    Métrica                            Quantidade
    Vizinhos Comuns (VC)                       18                    𝑉𝐶 𝑢, 𝑣 = |Γ 𝑢 ∩ Γ 𝑣 |
    Coeficiente de Adamic-Adar (AA)            16
+ Coeficiente de Jaccard (JC)                  16                                               1
                                                                 𝐴𝐴 𝑢, 𝑣 =
    Conexão Preferencial (CP)                  14                                          log |Γ 𝑤 |
                                                                              𝑤 ∈ Γ(u,v)
    Katz (K)                                   13
    Caminho Mais Curto (CMC)                   9                                |Γ 𝑢 ∩ Γ 𝑣 |
-                                                                     𝐽𝐶 𝑢, 𝑣 =
    Graus do Nó (g)                            8                                |Γ 𝑢 ∪ Γ 𝑣 |

      𝚪(𝐱) é o conjunto de vizinhos do nó x.

                                           ∞
𝐶𝑃 𝑢, 𝑣 = |Γ 𝑢 | ∙ |Γ 𝑣 |       𝐾 𝑢, 𝑣 =           𝛽 𝑙 ∙ 𝑝𝑎𝑡ℎ𝑠   𝑙
                                                                     𝑢,𝑣        𝑔 𝑢 = |Γ 𝑢 |
                                           𝑙=1
Resultados | Métodos
Técnica                     Quantidade
Árvore de Decisão              10
                                            Principais
SVM                             9
                                                     Bons
Naive Bayes                     5                  Resultados
Regressão                       6
Rede Neural                     3
k-NN                            3

Técnica                     Quantidade
                                                     Bons
Modelos probabilísticos         7
                                                   Resultados
Ensembles                       8        C4.5
Outras técnicas                 5
Proposições                     5
Resultados | Algoritmos de Base
• São algoritmos não-supervisionados utilizados pelos
  trabalhos a fim de comparar com os algoritmos
  supervisionados.

• Quais foram os algoritmos?
   – Comparação entre predidores
   – Classificador aleatório
   – Medidas de rede: Katz e Coeficiente de Adamic-Adar

• Mas: nem todos os trabalhos realizaram essa
  comparação ou não deixaram claro
   – Deficiência na literatura de Predição de Links
Resultados | Metodologia
• Como conduzir e avaliar os experimentos?
   – Amostragem
   – Avaliação

• Amostragem
   – Validação Cruzada        Abordagem Mais Frequente
   – 10 subconjuntos

• Avaliação
                                               Alto Desbalanceamento
   – Área Abaixo da Curva ROC (AUC); ou              De Classes
   – Precisão, Acurácia e Revocação
Resultados | Aplicações

               Aplicações de Segurança
               Segurança física
               Segurança virtual
                                                               Academia e Pesquisa
                                                                         Coautoria
                                                                          Citações
Sistemas de Recomendação
Recomendação de produtos
Recomendação de especialistas



                                             Mineração de Links
                                         Classificação de Objetos
                                                Entity Resolution
Conclusão
• O trabalho investigou como o Aprendizado de Máquina
  Supervisionado resolve o problema da Predição de Links em Redes
  Complexas
    – Revisão Sistemática
         • Formulação de questões de pesquisa
         • Elaboração e execução de protocolo de pesquisa

• Os resultados da pesquisa mostram:
    –   Vantagens e desvantagens da abordagem supervisionada
    –   Método padrão de construção de conjuntos de dados
    –   Principais métricas de redes
    –   Principais bases para benchmarking
    –   Algoritmos mais frequentemente utilizados
    –   Abordagens experimentais mais adotadas

• Trabalhos futuros: redes dinâmicas e métodos de avaliação experimental

Contenu connexe

Similaire à Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Java Style Grading
Java Style Grading Java Style Grading
Java Style Grading
Natã Melo
 
Apresentação defesa de mestrado 2014 final
Apresentação defesa de mestrado 2014   finalApresentação defesa de mestrado 2014   final
Apresentação defesa de mestrado 2014 final
Danusa Ribeiro
 
Padrões de Design para MapReduce
Padrões de Design para MapReducePadrões de Design para MapReduce
Padrões de Design para MapReduce
Karla Okada
 
Simulador Eletromagnético em um Ambiente de Grades Computacionais
Simulador Eletromagnético em um Ambiente de Grades ComputacionaisSimulador Eletromagnético em um Ambiente de Grades Computacionais
Simulador Eletromagnético em um Ambiente de Grades Computacionais
Igor José F. Freitas
 
Optimizing Sequences Traversal and Extensibility
Optimizing Sequences Traversal and ExtensibilityOptimizing Sequences Traversal and Extensibility
Optimizing Sequences Traversal and Extensibility
Miguel Gamboa
 

Similaire à Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática (20)

Java Style Grading
Java Style Grading Java Style Grading
Java Style Grading
 
Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...
 
Apresentação defesa de mestrado 2014 final
Apresentação defesa de mestrado 2014   finalApresentação defesa de mestrado 2014   final
Apresentação defesa de mestrado 2014 final
 
Banco de Dados em Grafos com Neo4J
Banco de Dados em Grafos com Neo4J  Banco de Dados em Grafos com Neo4J
Banco de Dados em Grafos com Neo4J
 
14-programacao-bd-Object Relational Mapper.pdf
14-programacao-bd-Object Relational Mapper.pdf14-programacao-bd-Object Relational Mapper.pdf
14-programacao-bd-Object Relational Mapper.pdf
 
Padrões de Design para MapReduce
Padrões de Design para MapReducePadrões de Design para MapReduce
Padrões de Design para MapReduce
 
Apresentacao tcc - Redes Mesh Cognitiva
Apresentacao tcc - Redes Mesh CognitivaApresentacao tcc - Redes Mesh Cognitiva
Apresentacao tcc - Redes Mesh Cognitiva
 
Defesa de Artigo: "GPU-NB: A Fast CUDA -based Implementation of Naive Bayes"
Defesa de Artigo: "GPU-NB: A Fast CUDA -based  Implementation of Naive Bayes"Defesa de Artigo: "GPU-NB: A Fast CUDA -based  Implementation of Naive Bayes"
Defesa de Artigo: "GPU-NB: A Fast CUDA -based Implementation of Naive Bayes"
 
Aula 2 - encontrando similaridades de sequências
Aula 2  - encontrando similaridades de sequênciasAula 2  - encontrando similaridades de sequências
Aula 2 - encontrando similaridades de sequências
 
P910Aula06
P910Aula06P910Aula06
P910Aula06
 
Algoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoAlgoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionado
 
Em Direção às Redes Programáveis na Internet do Futuro
Em Direção às Redes Programáveis na Internet do FuturoEm Direção às Redes Programáveis na Internet do Futuro
Em Direção às Redes Programáveis na Internet do Futuro
 
Simulador Eletromagnético em um Ambiente de Grades Computacionais
Simulador Eletromagnético em um Ambiente de Grades ComputacionaisSimulador Eletromagnético em um Ambiente de Grades Computacionais
Simulador Eletromagnético em um Ambiente de Grades Computacionais
 
Apresentacao
ApresentacaoApresentacao
Apresentacao
 
Optimizing Sequences Traversal and Extensibility
Optimizing Sequences Traversal and ExtensibilityOptimizing Sequences Traversal and Extensibility
Optimizing Sequences Traversal and Extensibility
 
Oficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando ROficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando R
 
Choose your weapon - TDC Floripa 2019
Choose your weapon - TDC Floripa 2019Choose your weapon - TDC Floripa 2019
Choose your weapon - TDC Floripa 2019
 
Padrões de Projeto
Padrões de ProjetoPadrões de Projeto
Padrões de Projeto
 
TDC2016SP - Trilha Data Science
TDC2016SP - Trilha Data ScienceTDC2016SP - Trilha Data Science
TDC2016SP - Trilha Data Science
 
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
 

Plus de Orlando Junior

Plus de Orlando Junior (20)

Árvores - Introdução e Conceitos Básicos
Árvores - Introdução e Conceitos BásicosÁrvores - Introdução e Conceitos Básicos
Árvores - Introdução e Conceitos Básicos
 
Um estudo sobre práticas arquiteturais em metodologias ágeis de desenvolvimen...
Um estudo sobre práticas arquiteturais em metodologias ágeis de desenvolvimen...Um estudo sobre práticas arquiteturais em metodologias ágeis de desenvolvimen...
Um estudo sobre práticas arquiteturais em metodologias ágeis de desenvolvimen...
 
Predição de Fluxos em Redes de Computadores - SBRC/WP2P+ 2014
Predição de Fluxos em Redes de Computadores - SBRC/WP2P+ 2014Predição de Fluxos em Redes de Computadores - SBRC/WP2P+ 2014
Predição de Fluxos em Redes de Computadores - SBRC/WP2P+ 2014
 
Investigação de Predição de Fluxos em Redes de Computadores
Investigação de Predição de Fluxos em Redes de ComputadoresInvestigação de Predição de Fluxos em Redes de Computadores
Investigação de Predição de Fluxos em Redes de Computadores
 
Normalização em banco de dados
Normalização em banco de dadosNormalização em banco de dados
Normalização em banco de dados
 
Introdução à Engenharia de Requisitos
Introdução à Engenharia de RequisitosIntrodução à Engenharia de Requisitos
Introdução à Engenharia de Requisitos
 
O que é direito
O que é direitoO que é direito
O que é direito
 
Classes de Problemas P e NP
Classes de Problemas P e NPClasses de Problemas P e NP
Classes de Problemas P e NP
 
Programação Dinâmica
Programação DinâmicaProgramação Dinâmica
Programação Dinâmica
 
A Missa para não-católicos
A Missa para não-católicosA Missa para não-católicos
A Missa para não-católicos
 
Sacramento da Penitência - Estrutura
Sacramento da Penitência - EstruturaSacramento da Penitência - Estrutura
Sacramento da Penitência - Estrutura
 
Web Server Controls e Banco de Dados
Web Server Controls e Banco de DadosWeb Server Controls e Banco de Dados
Web Server Controls e Banco de Dados
 
Programação Orientada a Objetos
Programação Orientada a ObjetosProgramação Orientada a Objetos
Programação Orientada a Objetos
 
Acessando Dados com ADO .NET
Acessando Dados com ADO .NETAcessando Dados com ADO .NET
Acessando Dados com ADO .NET
 
10 Mandamentos e Pecados Relacionados
10 Mandamentos e Pecados Relacionados10 Mandamentos e Pecados Relacionados
10 Mandamentos e Pecados Relacionados
 
Catequese da Missa Tridentina - Símbolos
Catequese da Missa Tridentina - SímbolosCatequese da Missa Tridentina - Símbolos
Catequese da Missa Tridentina - Símbolos
 
Verbos da Língua Inglesa - Observações preliminares
Verbos da Língua Inglesa - Observações preliminaresVerbos da Língua Inglesa - Observações preliminares
Verbos da Língua Inglesa - Observações preliminares
 
Mineração em Fluxos Contínuos de Dados
Mineração em Fluxos Contínuos de DadosMineração em Fluxos Contínuos de Dados
Mineração em Fluxos Contínuos de Dados
 
Romantismo e Modernismo - Prof. Orlando Fedeli
Romantismo e Modernismo - Prof. Orlando FedeliRomantismo e Modernismo - Prof. Orlando Fedeli
Romantismo e Modernismo - Prof. Orlando Fedeli
 
Sucesso - a verdadeira Vingança de um homem honrado
Sucesso - a verdadeira Vingança de um homem honradoSucesso - a verdadeira Vingança de um homem honrado
Sucesso - a verdadeira Vingança de um homem honrado
 

Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

  • 1. Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas Uma Revisão Sistemática Orlando da Silva Junior Dra. Ana Carolina Lorena
  • 2. Contexto • Redes Complexas são estudadas em diversas áreas do conhecimento – Pesquisa em ciências humanas – Pesquisa em ciências exatas • Avanços na pesquisa – Proposição de novas tarefas PREDIÇÃO – Proposição de novas aplicações DE LINKS – Proposição de novos estudos
  • 3. Contexto • Predição de Links – Trata do problema das ligações nas redes • Como fazer aplicações em redes incompletas? • Por que esses nós não estão conectados? • Esses nós poderiam se conectar no futuro? – Técnicas para solucionar esses problemas • Aprendizado de Máquina – Não-Supervisionado – Supervisionado
  • 4. Objetivo do Trabalho • Investigar como o Aprendizado de Máquina Supervisionado resolve o problema da Predição de Links em Redes Complexas • Como? Utilizando Revisão Sistemática – Processo sistemático para realização de revisão bibliográfica
  • 5. Revisão Sistemática • Estudo secundário – Auxilia na definição de uma metodologia para identificar, analisar e interpretar todas as evidências disponíveis em questão de pesquisa específica Condução • Identificação das • Formato da necessidades da • Aplicação do publicação revisão protocolo • Meios de • Definição do protocolo • Extração de divulgação de revisão informações Planejamento Publicação
  • 6. Revisão Sistemática • Objetivos da revisão – Identificar uma teoria geral sobre Predição de Links; – Buscar como a abordagem supervisionada é utilizada para resolver o problema da Predição de Links; – Encontrar bases de dados para benchmarking; – Identificar a forma como a Predição de Links colabora para a Teoria das Redes.
  • 7. Revisão Sistemática | Planejamento • Necessidade: nenhuma outra publicação semelhante encontrada • Questões de pesquisa – Como o paradigma da aprendizagem supervisionada resolve o problema da Predição de Links? – Como funciona a Predição de Links?
  • 8. Revisão Sistemática | Planejamento • Pergunta 1: Como o paradigma da aprendizagem supervisionada resolve o problema da Predição de Links? – Quais são as principais técnicas de Aprendizado Supervisionado utilizadas na Predição de Links? – Qual é o tipo de problema supervisionado na Predição de Links? – Como os conjuntos de dados são estruturados? – Quais são os principais atributos e métricas utilizados? – Qual é a metodologia experimental adotada? – Quais são os algoritmos base usados na comparação de resultados?
  • 9. Revisão Sistemática | Planejamento • Pergunta 2: Como funciona a Predição de Links? – Quais são as bases de dados comumente usadas? – Que tipo de aplicações tratam do problema da Predição de Links?
  • 10. Revisão Sistemática | Planejamento Expressão geral de busca • Aprendizado de Máquina Supervisionado – supervised machine learning – supervised learning – pattern recognition – data mining • Predição de Links – link prediction – link mining – link analysis Portais de Referências Bibliográficas escolhidos • Portal ACM (ACM Digital Library) • Redes Complexas • Portal IEEE (IEEE Xplore) • Science Direct – network • Web of Science – networks • CiteSeerX • Scopus
  • 11. Revisão Sistemática | Planejamento • Critérios de exclusão – Publicações que não tratam de Predição de Links • Aplicação ou utilização no tema – Publicações restritas • Acesso não limitado à UFABC ou UNIFESP – Publicações com idioma inacessível • Português, inglês ou espanhol – Restrição por tipo de publicação • Conferências ou periódicos
  • 12. Revisão Sistemática | Planejamento Título do Trabalho • Relação com os tópicos de pesquisa Extração de Informações • Título do Trabalho • Autores • Tipo de publicação Resumo • Local e ano • Referência a Predição de Links • Portal bibliográfico • Observações Texto • Leitura parcial • Predição de Links com Aprendizado Supervisionado
  • 13. Revisão Sistemática | Condução • Aplicação do protocolo anterior – Adaptação da expressão de busca aos portais escolhidos Portal Bibliográfico Quantidade Scopus 107 Portal IEEE 76 Final: 33 Web of Science 36 Trabalhos CiteSeerX 25 Portal ACM 12 Science Direct 3
  • 14. Revisão Sistemática | Condução • Pesquisa entre 07/novembro/2012 e 17/novembro/2012 Publicações por ano
  • 16. Resultados |Modelagem • 𝑮(𝒕) é um grafo que sumariza de algum modo a sequência temporal 𝑮 = (𝑮(𝟏), … , 𝑮(𝒕)) • Toda rede em G é do tipo 𝑮 = (𝑽, 𝑬): – 𝑽 é o conjunto de vértices – 𝑬 é o conjunto de arestas, com 𝒆 = (𝒖, 𝒗) • 𝑮(𝒕 + 𝟏) é rotulado – Presença de links  +1 Problema – Ausência de links  -1 Binário • Os vértices u e v pertencem aos grafos 𝑮(𝒕) e 𝑮(𝒕 + 𝟏), mas o par (𝒖, 𝒗) – aresta – só existe em 𝑮(𝒕 + 𝟏)
  • 17. Resultados |Conjuntos de Dados Tipo de Rede Tipo ou Fonte de Dados DBLP Principal Rede Social Facebook arXiv Enron Rede de Informação CiteSeer Utilizadas como Wikipedia Redes Sociais KEGG PATHWAY Rede Biológica Proteína-proteína Rede Tecnológica Chamadas Telefônicas
  • 18. Resultados | Métricas • As métricas são as medidas de Análise de Redes Complexas – Qualificam a topologia e definem as configurações da rede • Análise da estrutura da rede sem necessidade de representações gráficas – Cálculos estatísticos Rede de interações proteína-proteína em Saccharomyces cerevisiae (http://www.visualcomplexity.com)
  • 19. Resultados | Métricas Métrica Quantidade Vizinhos Comuns (VC) 18 𝑉𝐶 𝑢, 𝑣 = |Γ 𝑢 ∩ Γ 𝑣 | Coeficiente de Adamic-Adar (AA) 16 + Coeficiente de Jaccard (JC) 16 1 𝐴𝐴 𝑢, 𝑣 = Conexão Preferencial (CP) 14 log |Γ 𝑤 | 𝑤 ∈ Γ(u,v) Katz (K) 13 Caminho Mais Curto (CMC) 9 |Γ 𝑢 ∩ Γ 𝑣 | - 𝐽𝐶 𝑢, 𝑣 = Graus do Nó (g) 8 |Γ 𝑢 ∪ Γ 𝑣 | 𝚪(𝐱) é o conjunto de vizinhos do nó x. ∞ 𝐶𝑃 𝑢, 𝑣 = |Γ 𝑢 | ∙ |Γ 𝑣 | 𝐾 𝑢, 𝑣 = 𝛽 𝑙 ∙ 𝑝𝑎𝑡ℎ𝑠 𝑙 𝑢,𝑣 𝑔 𝑢 = |Γ 𝑢 | 𝑙=1
  • 20. Resultados | Métodos Técnica Quantidade Árvore de Decisão 10 Principais SVM 9 Bons Naive Bayes 5 Resultados Regressão 6 Rede Neural 3 k-NN 3 Técnica Quantidade Bons Modelos probabilísticos 7 Resultados Ensembles 8 C4.5 Outras técnicas 5 Proposições 5
  • 21. Resultados | Algoritmos de Base • São algoritmos não-supervisionados utilizados pelos trabalhos a fim de comparar com os algoritmos supervisionados. • Quais foram os algoritmos? – Comparação entre predidores – Classificador aleatório – Medidas de rede: Katz e Coeficiente de Adamic-Adar • Mas: nem todos os trabalhos realizaram essa comparação ou não deixaram claro – Deficiência na literatura de Predição de Links
  • 22. Resultados | Metodologia • Como conduzir e avaliar os experimentos? – Amostragem – Avaliação • Amostragem – Validação Cruzada Abordagem Mais Frequente – 10 subconjuntos • Avaliação Alto Desbalanceamento – Área Abaixo da Curva ROC (AUC); ou De Classes – Precisão, Acurácia e Revocação
  • 23. Resultados | Aplicações Aplicações de Segurança Segurança física Segurança virtual Academia e Pesquisa Coautoria Citações Sistemas de Recomendação Recomendação de produtos Recomendação de especialistas Mineração de Links Classificação de Objetos Entity Resolution
  • 24. Conclusão • O trabalho investigou como o Aprendizado de Máquina Supervisionado resolve o problema da Predição de Links em Redes Complexas – Revisão Sistemática • Formulação de questões de pesquisa • Elaboração e execução de protocolo de pesquisa • Os resultados da pesquisa mostram: – Vantagens e desvantagens da abordagem supervisionada – Método padrão de construção de conjuntos de dados – Principais métricas de redes – Principais bases para benchmarking – Algoritmos mais frequentemente utilizados – Abordagens experimentais mais adotadas • Trabalhos futuros: redes dinâmicas e métodos de avaliação experimental