Q Learning Simulator

Q-Learning Robolution Reinforcement Learning Simulação de um Robô Autónomo em problemas de labirintos David Jardim 8730

Motivação Simular um robô móvel que: Actue como um agente que possua aprendizagem. Desloque-se num ambiente desconhecido, efectuando a detecção de obstáculos. Obtenha informação sobre o ambiente, através de um sistema sensorial. Defina estados consoante a informação obtida. Machine Learning - David Jardim 2008/2009 2

Dificuldades Encontradas Simular o movimento de um robô real. Desenhar os sensores com os ângulos pretendidos. Actualizar as posições de forma correcta. Definir os diferentes estados do robô. Atribuir recompensas de forma correcta a cada estado. Problemática dos becos sem saída. Machine Learning - David Jardim 2008/2009 3

Descrição do Cenário As paredes são representadas por linhas amarelas. Machine Learning - David Jardim 2008/2009 4

Descrição do Agente Machine Learning - David Jardim 2008/2009 5 Acções possíveis: Virar à esquerda. Virar à direita. Mover-se para a frente. Sistema Sensorial 3 Sensores para a detecção de obstáculos. 3 Sensores para obter o ângulo relativamente ao farol. Distância discreta em relação ao farol. Estados possíveis:

Simular o Movimento do Robô Matriz de Transformação: Translada o objecto. Roda o objecto em torno do seu centro. Para actualizar as coordenadas dos Sensores: Actualizar o ponto inicial (centro do robô). Actualizar o ponto final (extremidade do sensor). Machine Learning - David Jardim 2008/2009 6

Definição do Estado Sensores de Contacto: Igual a 1 quando ocorre intersecção com uma parede. Igual a 0 quando não ocorre intersecção. Verifica intersecções apenas com as 4 paredes mais próximas. Sensores de Orientação: Através de cálculos de coordenadas polares, é possível saber qual o sensor que está a “apontar” para o farol. Distância: Foi necessário tornar a distância discreta, de forma a reduzir o número de estados possíveis. Machine Learning - David Jardim 2008/2009 7

Recompensa Atribuída consoante a acção efectuada: Rodar à esquerda ou à direita. Depende do valor do ângulo relativo do robô, quanto menor, maior é a recompensa. Deslocar-se para a frente. Depende do valor da distância discreta a que o robô se encontra do farol. A recompensa é calculada de forma distinta, para que o robô seja incentivado a deslocar-se para a frente mais vezes do que rodar. Machine Learning - David Jardim 2008/2009 8

Becos sem saída Como escolher entre 2 caminhos que: Um conduz ao farol, mas com uma recompensa imediata inferior. O outro não leva ao farol, mas possui uma recompensa imediata superior. Solução: Foi atribuída uma recompensa suficientemente grande aos estados finais. Machine Learning - David Jardim 2008/2009 9

Distâncias Discretas Machine Learning - David Jardim 2008/2009 10

Funcionalidades da Aplicação Machine Learning - David Jardim 2008/2009 11

Funcionalidades da Aplicação Machine Learning - David Jardim 2008/2009 12 O objectivo aqui era juntar 2 aprendizagens distintas, onde o utilizador seleccionava as “casas” de cada aprendizagem e depois criava um ficheiro único.

Resultados Machine Learning - David Jardim 2008/2009 13

Resultados Machine Learning - David Jardim 2008/2009 14

Limitações A distância entre o robô e a parede não é calculada através da tensão do sensor (IR). O deslocamento não é efectuado tendo em conta as rodas do robô. Se o cenário for demasiado complexo, a convergência da solução é muito lenta. Machine Learning - David Jardim 2008/2009 15

Questões Machine Learning - David Jardim 2008/2009 16

Q Learning Simulator

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Q Learning Simulator