22 мая 2024

The Bitter Lesson by Rich Sutton — cтуденческий перевод одной из самых важных статей в теории машинного обучения и искусственного интеллекта

«Горький урок»

Рич Саттон

Самый важный урок, который можно было вынести после 70 лет изучения ИИ: наиболее эффективным методом является общий, метод, основанный на вычислениях, причем его эффективность гораздо выше других методов. Основной причиной этого является закон Мура, а точнее его обобщение о непрерывном экспоненциальном сокращении стоимости за единицу вычислений. Большинство исследований, касающихся ИИ, проводились из предположения о том, что доступные агенту вычисления остаются неизменным (и в этом случае любое продвижение вперед произошло бы только за счет использования человеческих знаний), но неизбежно за небольшой промежуток времени, лишь ненамного превышающий время, необходимое для типичного исследовательского проекта, появилось гораздо больше возможностей для вычислений. Желая улучшить производительность в краткосрочной перспективе, исследователи стремятся использовать свои человеческие знания в этой области, но единственное, что имеет значение в долгосрочной перспективе, — это использование вычислений. Эти два подхода не должны быть противопоставлены друг другу, но на практике обычно так и получается. Время, которое потратили на один метод, — это время, которое не уделили другому. Происходит это потому, что существует определенное психологическое обязательство, которое подталкивает человека инвестировать только в один подход. А подход, основанный на человеческих знаниях, часто усложняет все таким образом, что его тяжело назвать «выигрышным» перед лицом вычислительного метода. Есть много примеров того, как исследователи ИИ запоздало усвоили этот горький урок, и будет полезно рассмотреть самые известные из них.

В компьютерных шахматах методы, победившие чемпиона мира Каспарова в 1997 году, были основаны на масштабном переборе возможных ходов. В то время большинство исследователей компьютерных шахмат с недоумением смотрели на такой подход, поскольку они использовали методы, основанные на человеческом понимании особой шахматной структуры. Когда более простой, основанный на переборе подход с использованием специального оборудования и программного обеспечения оказался намного эффективнее, исследователи, чьи шахматные программы основывались на человеческих знаниях, были не в восторге. Они заявили, что в этот раз «грубая сила» подбора, возможно, и победила, но это нельзя назвать универсальной стратегией, да и вообще люди играют в шахматы совсем не так. Эти исследователи хотели, чтобы методы, основанные на человеческих данных, победили, и были разочарованы, когда этого не произошло.

Аналогичная картина прогресса исследований наблюдалась и в компьютерной версии игры Го, только с задержкой в 20 лет. Огромные первоначальные усилия были направлены на то, чтобы избежать метода подбора, используя вместо этого человеческие знания или особенности игры, но в конечном итоге все эти усилия оказались бесполезными, как только подбор стал применяться более эффективно и широко. Также важно было применять самообучение для изучения значения заданной функции (как это было во многих других играх и даже в шахматах, хотя обучение не играло большой роли в программе 1997 года, которая впервые обыграла чемпиона мира). Самообучение, как и обучение в целом, похоже на метод подбора, поскольку позволяет задействовать огромные объемы вычислений. Подбор и обучение — два наиболее важных метода использования огромных объемов вычислений в исследованиях ИИ. В компьютерной версии Го, как и в компьютерных шахматах, первоначальные усилия исследователей были направлены на попытки присвоения компьютеру подобия человеческого мышления (чтобы исключить метод подбора), и только намного позже удалось добиться большего успеха за счет использования методов подбора и обучения.

В 1970-х годах в области распознавания речи проводилось раннее соревнование, спонсируемое Управлением перспективных исследовательских проектов Министерства обороны США. На конкурсе было представлено множество специальных методов, использующих человеческие знания — знания о словах, фонемах, голосовом тракте и т. д. С другой стороны, новые методы, основанные на скрытых марковских моделях (СММ), были более статистическими по своей природе и требовали гораздо больше вычислений. И вновь статистические методы одержали верх над методами, основанными на человеческих знаниях. Это привело к тому, что постепенно, в течение десятилетий, во всей сфере обработки естественного языка произошли серьезные изменения, в результате которых статистика и вычисления стали доминировать в этой области. За последнее время применение технологии глубокого обучения в области распознавания речи увеличилось, и это стало последним шагом в направлении, в котором последовательно двигались предыдущее исследования. Методы глубокого обучения еще меньше полагаются на человеческие знания и используют еще больше вычислений, совместно с методом обучения на огромной тренировочной выборке, что позволяет создавать более совершенные системы распознавания речи. Как и в сфере игр, исследователи всегда пытались создать системы, подобные человеческому разуму, пытаясь вложить туда собственные знания, что в конечном итоге оказалось неэффективным и превратилось в колоссальную трату времени. В это же время, согласно закону Мура, исследователям стали доступны большие объемы вычислений и методы, позволяющие использовать их с пользой.

Компьютерное зрение работает по такому же принципу. Первые методы рассматривали принцип работы компьютерного зрения как поиск границ объектов, обобщённых цилиндров, или в терминах SIFT-признаков. Однако сегодня эти методы не используются. Современные нейронные сети глубокого обучения работают гораздо лучше, поскольку используют только концепцию свертки и определенные инварианты.

Это важный урок. Мы не до конца усвоили его, потому что постоянно совершаем одни и те же ошибки в этой области. Чтобы понять это и эффективно противостоять этому, необходимо осознать привлекательность этих ошибок. Мы должны усвоить горький урок. Он заключается в том, что моделирование человеческого разума не работает в долгосрочной перспективе. Горький урок основан на исторических наблюдениях: 1) Исследователи ИИ часто пытались встроить знания в своих агентов. 2) Это всегда было полезно в краткосрочной перспективе и приносило личное удовлетворение исследователю, но 3) в долгосрочной перспективе такой подход достигает своего предела и даже препятствует дальнейшему прогрессу. 4) В конце концов, прорывы происходят из диаметрально противоположных подходов, основанных на огромных объемах вычислений через поиск и обучение. Конечный успех омрачается горечью и часто не до конца принимается, поскольку это победа над привлекательным, ориентированным на человека подходом.

Важная вещь, которую мы можем извлечь из этого горького урока, — это необходимость признать огромную силу общих методов, которые продолжают масштабироваться по мере роста вычислительной мощности, даже когда требуются огромные объемы вычислений. Два метода, которые, как кажется, могут бесконечно масштабироваться, – это поиск и обучение.

Второй общий тезис, вытекающий из этого горького урока, заключается в том, что реальное содержание разума чрезвычайно и необратимо сложно. Мы должны прекратить попытки найти простые способы мышления о содержании разума, например простые способы мышления о пространстве, объектах, множественных агентах, симметриях и т. д. Все это является частью произвольного и сложного по своей природе внешнего мира. Его невозможно смоделировать, поскольку сложность мира бесконечна; вместо этого необходимо разработать метаметоды, способные обнаружить и зафиксировать эту произвольную сложность. Для этих методов важно, чтобы они могли находить хорошие приближения, но этот поиск осуществляем не мы, а сами методы. Нам нужны агенты ИИ, которые смогут самостоятельно проводить исследования, а не использовать уже имеющиеся знания. Создание систем на основе человеческих знаний только усложнит процесс обучения.