Este aprendizado por reforço é um modelo por machine learning talvez possa ser descrito como "aprender por". Um "agente" aprende a executar uma tarefa definida por tentativa e erro (um loop do feedback) até que este desempenho esteja dentro de 1 intervalo desejável. Possibly not. There is a lack of https://www.linkedin.com/feed/update/urn:li:share:7356320248985194496/?actorCompanyId=77283885