2. Motivação Simular um robô móvel que: Actue como um agente que possua aprendizagem. Desloque-se num ambiente desconhecido, efectuando a detecção de obstáculos. Obtenha informação sobre o ambiente, através de um sistema sensorial. Defina estados consoante a informação obtida. Machine Learning - David Jardim 2008/2009 2
3. Dificuldades Encontradas Simular o movimento de um robô real. Desenhar os sensores com os ângulos pretendidos. Actualizar as posições de forma correcta. Definir os diferentes estados do robô. Atribuir recompensas de forma correcta a cada estado. Problemática dos becos sem saída. Machine Learning - David Jardim 2008/2009 3
4. Descrição do Cenário As paredes são representadas por linhas amarelas. Machine Learning - David Jardim 2008/2009 4
5. Descrição do Agente Machine Learning - David Jardim 2008/2009 5 Acções possíveis: Virar à esquerda. Virar à direita. Mover-se para a frente. Sistema Sensorial 3 Sensores para a detecção de obstáculos. 3 Sensores para obter o ângulo relativamente ao farol. Distância discreta em relação ao farol. Estados possíveis:
6. Simular o Movimento do Robô Matriz de Transformação: Translada o objecto. Roda o objecto em torno do seu centro. Para actualizar as coordenadas dos Sensores: Actualizar o ponto inicial (centro do robô). Actualizar o ponto final (extremidade do sensor). Machine Learning - David Jardim 2008/2009 6
7. Definição do Estado Sensores de Contacto: Igual a 1 quando ocorre intersecção com uma parede. Igual a 0 quando não ocorre intersecção. Verifica intersecções apenas com as 4 paredes mais próximas. Sensores de Orientação: Através de cálculos de coordenadas polares, é possível saber qual o sensor que está a “apontar” para o farol. Distância: Foi necessário tornar a distância discreta, de forma a reduzir o número de estados possíveis. Machine Learning - David Jardim 2008/2009 7
8. Recompensa Atribuída consoante a acção efectuada: Rodar à esquerda ou à direita. Depende do valor do ângulo relativo do robô, quanto menor, maior é a recompensa. Deslocar-se para a frente. Depende do valor da distância discreta a que o robô se encontra do farol. A recompensa é calculada de forma distinta, para que o robô seja incentivado a deslocar-se para a frente mais vezes do que rodar. Machine Learning - David Jardim 2008/2009 8
9. Becos sem saída Como escolher entre 2 caminhos que: Um conduz ao farol, mas com uma recompensa imediata inferior. O outro não leva ao farol, mas possui uma recompensa imediata superior. Solução: Foi atribuída uma recompensa suficientemente grande aos estados finais. Machine Learning - David Jardim 2008/2009 9
12. Funcionalidades da Aplicação Machine Learning - David Jardim 2008/2009 12 O objectivo aqui era juntar 2 aprendizagens distintas, onde o utilizador seleccionava as “casas” de cada aprendizagem e depois criava um ficheiro único.
15. Limitações A distância entre o robô e a parede não é calculada através da tensão do sensor (IR). O deslocamento não é efectuado tendo em conta as rodas do robô. Se o cenário for demasiado complexo, a convergência da solução é muito lenta. Machine Learning - David Jardim 2008/2009 15