DC-UFRPE/Bacharelado em Ciência da Computação/Inteligência Artificial/aprendizado por reforco

No aprendizado por reforço a única informação de realimentação é se uma determinada saída está ou não correta, também chamada de aprendizagem por crítica. É dado um valor para a saída, caso esteja errada haverá uma penalização.

Exemplo: Quando um carro sair da pista irá vibrar, seus sensores irão notar esse comportamento. O crítico irá penalizar esse comportamento. O carro aprenderá que aquele comportamento é ruim e tentará não alcançar novamente aquele estado indesejado.