Разработчик DeepMimic пошли еще дальше. Для усовершенствования процесса обучения они внедрили систему вознаграждений для алгоритма. Путем проб и ошибок, совсем как человек, он учится выполнять действия в той последовательности, которые приведут его к наибольшей награде, например к предоставлению какого-нибудь заранее известного значения, облегчающего вычисления. Еще один принцип, повышающий эффективность обучения, заключается в раннем прерывании искусственным интеллектом выполнения «неправильных» действий. Это получилось благодаря заданию критических условий для алгоритма. Например касание пола головой при совершении сальто — ошибка, при совершении которой алгоритм должен прерваться. Разработчики смогли обучить виртуального гуманоида более чем 24 навыкам. Например бросать мяч в цель и перепрыгивать через препятствия. DeepMimic презентуют на конференции SIGGRAPH 2018, а статья о нем уже опубликована. Авторы надеются, что их работа поможет создавать виртуальных персонажей с естественным поведением для различных видов контента, а также обучать роботов в реальном мире.
Источник: