Самые дорогие модели мира моды • Топ-10 • Журнал DRESS
10 место. Кэндис Свейнпол
10 место в списке самых дорогих моделей мира занимает южноамериканская манекенщица Кэндис Свейнпол, Candice Swanepoel. Карьеру она начала в 15 лет, а уже в 19 стала одной из ангелов Victoria’s Secret. Девушка регулярно снимается для обложек известного глянца.
РЕКЛАМА — ПРОДОЛЖЕНИЕ НИЖЕ
@candiceswanepoel Candice Swanepoel
В 2022 Кэндис продолжает заниматься своим брендом пляжной одежды Tropic Of C, основанным в 2018.
@tropicofc
В модном инфополе Свейнпол почти не появляется, но это не значит, что она бездействует. В начале года, например, она поучаствовала в новой фотосессии DKNY, а чуть раньше – под занавес 2021, снялась для рекламы Versace.
@candiceswanepoel
РЕКЛАМА — ПРОДОЛЖЕНИЕ НИЖЕ
@candiceswanepoel
Годовой доход модели составляет 17 миллионов долларов.
9 место.
![](http://triksklad.ru/wp-content/plugins/a3-lazy-load/assets/images/lazy_placeholder.gif)
Лю Вэнь, Liu Wen – модель из Китая и одна из немногих азиаток, кто смог добиться мировой известности. В разные времена Лю принимала участие в показах Chanel, Balmain и Nina Richi. В 2022 снялась для мартовской обложки Bazaar и для июльской Marie Claire China, а также поучаствовала в рекламной кампании Gucci.
@liuwenlw
@liuwenlw
Ориентировочный доход Лю Вэнь – 18 миллионов долларов.
8 место. Джоан Смоллс
Пуэрториканская модель Джоан Смоллс, Joan Smalls занимает почетное восьмое место с примерным доходом около 19 миллионов. 2022 год у девушки выдался насыщенным: она снялась для американского бренда Anne Klein, амбассадором которого является, засветилась на обложке итальянского Vogue поучаствовала в подиумном показе Off-White.
@annekleinofficial
РЕКЛАМА — ПРОДОЛЖЕНИЕ НИЖЕ
@joansmalls
@joansmalls
7 место. Белла Хадид
Белла Хадид, Bella Hadid в представлении не нуждается – она регулярно появляется в светских хрониках и не менее часто участвует в новых проектах мировых брендов. Сколько зарабатывает Белла Хадид? – ее годовой доход составил 19 миллионов, которые ей принесли многочисленные рекламные контракты.
Среди самых ярких последних проектов: кутюрный показ Balenciaga и съемка для рекламной кампании модного дома, презентация бренда Marc Jacobs и заключение контракта с SWAROVSKI. С таким послужным списком неудивительно, что Белла вошла в топ самых высокооплачиваемых моделей мира 2022.
@bellahadid
@marcjacobs
@bellahadid реклама SWAROVSKI
6 место. Джиджи Хадид
Джиджи Хадид, Gigi Hadid немного опережает сестру по доходу. Молодая модель буквально нарасхват – то она снимается для бренда бикини Frankies, то мелькает на обложке бразильского Vogue, то участвует в рекламной кампании Moschino.
@gigihadid
РЕКЛАМА — ПРОДОЛЖЕНИЕ НИЖЕ
@gigihadid
@gigihadid
Годовой доход Джиджи находится в районе 20 миллионов долларов.
5 место. Адриана Лима
Пятерку самых дорогих моделей открывает Адриана Лима, Adriana Lima – бразильская супермодель и ангел Victoria’s Secret. В 2022 году она стала партнером и инвестором бренда DOGPOUND, включающего сеть тренажерных залов и магазин одежды. Про основную деятельность девушка тоже не забыла и летом 2022 снялась для Kering – группы компаний, которые продают предметы роскоши и ювелирные изделия.
@adrianalima
За минувший год девушка заработала 30 миллионов долларов.
4 место. Кара Делевинь
Кара Делевинь, Cara Delevingne теперь не только манекенщица, но и актриса. Но именно модельная карьера позволила ей занять четвертое место в топе самых востребованных моделей. Ее сняли для обложки британского Vogue, пригласили поучаствовать в рекламном ролике Dior Beauty и в рекламной кампании коллекции TOGETHER FOREVER спортивного бренда Puma.
@caradelevingne
@dior
@puma
РЕКЛАМА — ПРОДОЛЖЕНИЕ НИЖЕ
Доход Кары Делевинь за год составляет 31 миллион.
3 место. Рози Хантингтон-Уайтли
Еще один ангел Victoria’s Secret, Роузи Хантингтон-Уайтли, Rosie Huntington-Whiteley занимает третье место в списке самых популярных моделей в мире. Почти весь прошлый год и начало этого Рози провела в заботах – сначала беременность, потом роды и уход за малышом. На съёмки попросту не было времени.
@rosiehw
Как же девушке удалось получить место в топ-3? Все просто – она успешно развивает собственный бренд косметики, который, судя по годовому доходу в 32 миллиона, покорил сердца ее фанаток.
@roseinc
2 место. Жизель Бюндхен
Жизель Бундхен, Gisele Bündchen заявила о своем уходе из мира моды в 2015. До этого она несколько лет подряд занимала первое место в списке самых дорогих моделей, а теперь получает почетное второе. Хотя женщина теперь редкий гость подиумов, как фотомодель она все еще работает. В 2022 году она снялась для швейцарской компании IWC Schaffhausen, которая занимается часами класса люкс и новой коллекции бренда Burberry.
@iwcwatches
@burberry
Ее примерный годовой доход составляет 33 миллиона долларов.
1 место. Кендалл Дженнер
Начиная с 2017 и по сегодняшний день Кендалл Дженнер, Kendall Jenner является самой высокооплачиваемой супермоделью в мире. За минувший год девушка заработала 40 миллионов долларов.
@kendalljenner
Летом 2022 она снялась для китайского Vogue и рекламной кампании Prada, поучаствовала в показе Off-White, приложила руку к созданию линейки косметики для бренда Kylie и начала развивать собственный бренд текилы 818 Tequila.
@prada
@kyliecosmetics
РЕКЛАМА — ПРОДОЛЖЕНИЕ НИЖЕ
Вопросы
Кто самая известная модель в мире?
Одним именем тут не ограничиться. К числу самых известных девушек-моделей относятся все героини нашей подборки, а также Алессандра Амбросио, Наталья Водянова, Кейт Мосс, Каролина Куркова и другие.
Как называется модель больших размеров?
Таких моделей называют плюс сайз — plus size. В это категорию попадают все девушки, чей размер одежды больше российского 48.
Как называется модель на подиуме?
Так и называются – подиумные модели. Чаще всего женщины сочетают несколько направлений – выходят на подиум, снимаются в рекламе и позируют для фотографов.
Какие параметры у модели?
Для того, чтобы стать моделью, необходимо иметь рост от 170-173 см. Обхваты талии, бедер и груди варьируются в зависимости от роста. При этом показатели никогда не выходят за пределы 90-60-90.
Для моделей плюс-сайз также важен рост, а вот обхваты вторичны. Главное, чтобы фигура была пропорциональной.
Кто был назван самой высокооплачиваемой моделью в мире девять лет назад?
В 2014 году самой дорогой моделью была Жизель Бундхен. Она же получала этот титул все предыдущие годы, начиная с 2004. В 2017 она уступила место Кендалл Дженнер.
Какие бывают модели?
Направления модельной карьеры делятся по типу работы. Есть фотомодели – они позируют на фото и подиумные – участвуют в дефиле. Отдельно выделяются специфические виды: промо-модели, которые участвуют в презентациях, ring girls – их приглашают на бои, body art модели – их тело выступает холстом для художников.
Написать свое мнение
ПОДЕЛИСЬ С ДРУЗЬЯМИ!
Самые красивые модели мира (100 фото) 🔥 Прикольные картинки и юмор
Главная » Знаменитости⭐
На планете проживает огромное количество людей, большую часть из которых составляют девушки, и многие из них просто блещут красотой. При наличии возможностей и желания подобные красотки вполне могут связать свою жизнь с модельным бизнесом, ведь данная работа не очень сложная, и довольно высокооплачиваемая. В данной подборке собраны самые
красивые модели мира.
Эбби Ли Кершоу
Карли Клосс
Лара Стоун
Лю Вэнь
Аня Рубик
Дри Хемингуэй
Фрейя Беха Эриксен
Жизель Бундхен
Селита Ибэнкс
Миранда Керр
Дарья Строкоус
Изабели Фонтана
Ирина Шейк
Джулия Стегнер
Констанс Яблонски
Алессандра Амбросио
Кэролин Мёрфи
Александра Пивоварова
Адриана Лима
Кэндис Свейнпол
Кейт Мосс
Даутцен Крус
Сигрид Агрен
Нина Агдал (Дания)
Наталья Водянова (Россия)
Магдалена Фраковяк (Польша)
Лили Олдридж (США)
Кэндис Свейнпол (Южная Африка)
Кристи Тарлингтон (США)
Кендалл Дженнер (США)
Кейт Аптон (США)
Каролина Куркова (Чехия)
Кара Делевинь (Великобритания)
Джоан Смоллс (Пуэрто-Рико)
Бьянка Балти (Дания)
Барбара Палвин (Венгрия)
Бар Рафаэли (Израиль)
Ана Беатрис Баррос (Бразилия)
Адриана Лима
Хайди Клум
Тайра Бэнкс
Мариса Миллер
Ева Мендес
Дита фон Тиз
Нина Агдал
Джоан Смолсс
Эбби Ли Кершоу
Эбби Ли Кершоу
Аризона Мьюз
Ирис Штрубеггер
Кармен Педару
Анна Селезнева
Касия Страсс
Джордан Данн
Саския де Брау
Дафна Грюневельд
Линдси Уиксон
Магдалена Фраковяк
Энико Михалик
Кристалл Ренн
Фей Фей Сун
Эмили ДиДонато
Арленис Соса
Кара Делевинь
Хейли Бибер
Бхумика Арора
Робин Лоли
Джиджи Хадит
Кендалл Дженнер
Крисси Тайген
Роузи Хантингтон-Уайтли
Белла Хадид
Джордан Данн
Касия Страсс
Анна Селезнева
Кармен Педару
Анна Ягодзинска
Аризона Мьюз
Елизавета Голованова
Евгения Володина
Лада Кравченко
Наталья Белова
Татьяна Дягилева
Анна Вьялицына
Настя Кусакина
Влада Рослякова
Вика Фалилеева
Полина Куклина
Эмилия Вишневская
Александра Пивоварова
Джия Скова
Алина Сандрацкая
Дарья Строкоус
Катя Щёкина
Кристина Романова
Мария Новосёлова
Татьяна Ковылина
Софья Ломыга
Наталья Полевщикова
Валентина Зеляева
( 11 оценок, среднее 2. 64 из 5 )
моделей мира — история обучения с подкреплением | by SmartLab AI
Автор: Роберт Мони
Вы когда-нибудь клали тетрадь под подушку перед экзаменом, желая, чтобы все, что там написано, закрепилось в вашей долговременной памяти? Я знаю друга, который сделал.
Эта статья об обучении во сне. Точнее, хочет выделить работу Дэвида Ха и Юргена Шмидхубера в области глубокого обучения с подкреплением, методов на основе подполевых моделей, представленную на Neural Information Processing Systems в 2018 году. Их статья под названием «Модели мира» демонстрирует, что их агент RL способен учиться, тренируясь в своей собственной смоделированной среде. Их модель смогла обучить агента играть и набирать высокие баллы в среде OpenAi Gym Car Racing и среде ViZDoom (DOOM с настройкой для бенчмаркинга методов RL).
Модель
Давайте сразу перейдем к делу и посмотрим на модель. У нас есть базовая установка RL: среда, в которой агент пытается изучить политику методом проб и ошибок, чтобы получить максимально возможное вознаграждение.
Шаг за шагом, в рамках тематического исследования задачи «Автогонки», модель выполняет следующие действия: ширина, длина и глубина RGB).
![](/800/600/http/howstar.ru/i/womenzar/MirandaKerr/MirandaKerr9590.jpg)
Таким образом, модель мира состоит из трех основных частей, которые, как заявляют авторы, обучаются отдельно. Далее дается отдельное описание для трех модулей.
1. Vision
[Источник]Для этого модуля обучен сверточный вариационный автоэнкодер (VAE). VAE — это мощные генеративные модели, обученные с полууправляемым обучением. Чтобы глубже погрузиться в VAE, я рекомендую вам прочитать этот пост и следовать этому руководству по python, созданному с помощью Tensorflow в наборе данных MNIST. Нам важен скрытый вектор z, , которое выбирается из факторизованного распределения Гаусса N со средним значением μ и диагональной дисперсией σ. Для каждого наблюдения из окружающей среды (изображения) в следующую модель передается скрытый вектор z .
Кодирование ускоряет процесс обучения, поскольку агент видит только встроенное представление входного изображения.
2. Память
Модель M представляет собой долговременную кратковременную память (LSTM) с 256 скрытыми состояниями и сетью плотности смеси (MDN).
М-модель пытается предсказать, каким будет следующее значение z . Это подается в модуль MDN, целью которого является введение случайности. По сути, MDN изменяет вывод LSTM, который представляет собой детерминированное значение z , в диапазон возможностей для z .
3. Контроллер
Простая линейная модель, обученная принимать наилучшее решение, выглядит следующим образом: Используется алгоритм стратегии (CMA-ES). Это было выполнено с использованием размера популяции 64 ЦП, и каждый агент выполнил задачу 16 раз с разными начальными случайными начальными значениями. Таким образом, несколько вариантов контроллера были оценены для ЦП, и были выбраны лучшие параметры для работы в реальной среде.
Эта установка хорошо работала в среде Car Racing, где целью было набрать в среднем не менее 900 очков за 100 испытаний .
Действительно ли он учится во сне?
Теперь вернемся к сновидениям. Это был эксперимент, проведенный в среде DOOM. У него какая-то другая настройка, адаптированная для этой среды, учитывая другой размер входного изображения и тот факт, что агент может умереть.
Фундаментальный вклад (который собственно и раскрутили с рассказом о том, что агент узнает во сне) состоит в демонстрации того обучения агента с помощью предсказанных z скрытое представление, созданное моделью M, получило лучший результат во время игры в DOOM. Модель M учится генерировать монстров, которые стреляют огненными шарами в направлении агента, в то время как модель C обнаруживает политику, позволяющую избегать этих генерируемых огненных шаров. Модель V используется только для декодирования скрытых векторов z , созданных M, в последовательность пиксельных изображений.
Запустите метод
Большое спасибо Fábián Füleki, который собрал для экспериментов образ докера, работающий на хост-компьютере Linux. Репозиторий GitHub можно найти здесь, и убедитесь, что вы используете систему, оснащенную графическим процессором с поддержкой CUDA, и вы установили docker, nvidia-docker и CUDA 9..0.
Действия:
1. Настройка докера
a. Извлекая образ из dockerhub docker pull ffabi/gym:90 b. Создав его локально git clone https://github.com/ffabi/SemesterProject.git cd SemesterProject/docker_setup docker build -f Dockerfile_cuda90 -t ffabi/gym:90 . 2. Запуск контейнера докеров mkdir ./ffabi_shared_folder nvidia-docker create -p 8192:8192 -p 8193:22 -p 8194:8194 --name / ffabi_gym -v $(pwd)/ffabi_shared_folder:/root/ffabi_shared_folder / ffabi/gym:90 nvidia-docker start ffabi_gym docker exec -it ffabi_gym bash 3. Клонировать реализацию концепции World Models cd ffabi_shared_folder git clone https://github.com/ffabi/SemesterProject.git cd Запуск приложения SemesterProject/World04s 9.4 мкдир данных xvfb-run -a -s "-screen 0 1400x900x24" python3 01_generate_data.py car_racing --total_episodes 200 --start_batch 0 --time_steps 300 xvfb-run -a -s "-screen 0 1400x900x24" python_train3vae.train3vae.train3vae.train3vae.train3vae.train3vae. py --start_batch 0 --max_batch 9 --new_model xvfb-run -a -s "-screen 0 1400x900x24" python3 03_generate_rnn_data.py --start_batch 0 --max_batch 9 xvfb-run -a -s "- экран 0 1400x900x24" python3 04_train_rnn.py --start_batch 0 --max_batch 0 --new_model xvfb-run -a -s "-screen 0 1400x900x24" python3 05_train_controller.py car_racing --num_worker 1 --num_worker_trial 2 --num_episode 4 --max_length 1000 --eval_steps 25
9 0 Заключение
19 Неправильно, некоторые полезны (Джордж Бокс, 1976) Модель мира Дэвида Ха и Юргена Шмидхубера, безусловно, полезная модель, которая способна изучить окружающую среду и научить агента хорошо работать в ней. Эта работа дает хорошее объяснение того, как наш мозг обрабатывает информацию, чтобы принимать решения о действиях, и, таким образом, служит отличной основой для будущих исследований методов, основанных на моделях.
Ссылки
Сообщение в блоге Paper:
World Models
Интерактивная демонстрация: коснитесь экрана, чтобы отменить решения агента. Мы изучаем создание генеративных моделей нейронных сетей…
worldmodels.github.io
Репозиторий GitHub:
hardmaru/WorldModelsExperiments
World Models Experiments. Внесите свой вклад в развитие hardmaru/WorldModelsExperiments, создав учетную запись на GitHub.
github.com
2 других примера использования модели Word:
Галлюциногенное глубокое обучение с подкреплением с использованием Python и Keras
Обучение машины освоению автомобильных гонок и предотвращению огненных шаров с помощью «Мировых моделей»
medium. com
Ссылки для VAE:
Интуитивное понимание вариационных автоэнкодеров
И почему они так полезны при создании собственного генеративного текста, рисунков и даже музыки
по направлению к datascience.com
Исходный пост можно найти на личной странице Роберта: https://medium.com/@robertmoni_66330/b5611c590e6e
Мастерство Atari с дискретными моделями мира — блог Google AI
Глубокое обучение с подкреплением (RL) позволяет искусственным агентам улучшать свои решения с течением времени. Традиционные подходы без моделей узнают, какие из действий являются успешными в различных ситуациях, взаимодействуя с окружающей средой путем большого количества проб и ошибок. Напротив, недавние достижения в области глубокого RL позволили на основе моделей подходит к , чтобы узнать точные модели мира из входных изображений и использовать их для планирования. Модели мира могут обучаться за счет меньшего количества взаимодействий, облегчают обобщение автономных данных, обеспечивают перспективное исследование и позволяют повторно использовать знания в нескольких задачах.
Несмотря на свои интригующие преимущества, существующие модели мира (такие как SimPLe) не были достаточно точными, чтобы конкурировать с лучшими подходами без моделей в наиболее конкурентоспособных тестах обучения с подкреплением — на сегодняшний день хорошо зарекомендовавший себя тест Atari требует алгоритмы без моделей, таких как DQN, IQN и Rainbow, чтобы достичь производительности на уровне человека. В результате многие исследователи вместо этого сосредоточились на разработке конкретных задач методов планирования, таких как VPN и MuZero, которые обучаются, прогнозируя суммы ожидаемых вознаграждений за выполнение задач. Однако эти методы специфичны для отдельных задач, и неясно, насколько хорошо они будут обобщаться для новых задач или учиться на неконтролируемых наборах данных. Подобно недавнему прорыву в обучении представлений без учителя в компьютерном зрении [1, 2], модели мира нацелены на изучение паттернов в окружающей среде, которые являются более общими, чем любая конкретная задача, чтобы впоследствии решать задачи более эффективно.
Сегодня в сотрудничестве с DeepMind и Университетом Торонто мы представляем DreamerV2, первый агент RL, основанный на мировой модели, который достиг производительности на уровне человека в тесте Atari. Он представляет собой второе поколение агента Dreamer, который изучает поведение исключительно в скрытом пространстве модели мира, обученной из пикселей. DreamerV2 полагается исключительно на общую информацию из изображений и точно предсказывает будущие награды за выполнение задач, даже если эти награды не повлияли на его представления. Используя один графический процессор, DreamerV2 превосходит лучшие алгоритмы без моделей при том же бюджете вычислений и выборки.
Геймер нормализовал средний балл в 55 играх Atari после 200 миллионов шагов.![]() [Обновление — 04 мая 2021 г.: более ранняя версия этого рисунка показывала более низкую производительность DreamerV2, чем она была достигнута на самом деле.] Эти видеоролики показывают изображения из окружающей среды. Видео-прогнозы показаны ниже в сообщении блога. |
Абстрактная модель мира
Как и его предшественник, DreamerV2 изучает модель мира и использует ее для обучения поведению актера-критика исключительно на основе предсказанных траекторий. Модель мира автоматически учится вычислять компактные представления своих изображений, которые обнаруживают полезные концепции, такие как позиции объектов, и изучает, как эти концепции меняются в ответ на различные действия. Это позволяет агенту генерировать абстракции своих изображений, которые игнорируют ненужные детали, и позволяет выполнять массовые параллельные прогнозы на одном графическом процессоре.
DreamerV2 основан на рекуррентной модели пространства состояний (RSSM), которую мы представили для PlaNet и которая также использовалась для DreamerV1. Во время обучения кодировщик превращает каждое изображение в стохастическое представление, которое включается в повторяющееся состояние модели мира. Поскольку представления являются стохастическими, они не имеют доступа к полной информации об изображениях и вместо этого извлекают только то, что необходимо для прогнозирования, что делает агента устойчивым к невидимым изображениям. Из каждого состояния декодер реконструирует соответствующее изображение, чтобы изучить общие представления. Кроме того, небольшая сеть вознаграждений обучена ранжировать результаты во время планирования. Чтобы обеспечить планирование без создания изображений, предиктор учится угадывать стохастические представления без доступа к изображениям, из которых они были вычислены.
Процесс обучения модели мира, используемой DreamerV2. Модель мира поддерживает рекуррентные состояния (h 1 –h 3 ), которые получают действия (a 1 –a 2 ) и включают информацию об изображениях (x 1 –x 3 ) через стохастический анализ. представления (z 1 –z 3 ). Предсказатель угадывает представления как (ẑ |
Важно отметить, что DreamerV2 вводит в RSSM два новых метода, которые позволяют создать значительно более точную модель мира для изучения успешных политик. Первый метод заключается в представлении каждого изображения несколькими категориальными переменными вместо переменных Гаусса, используемых PlaNet, DreamerV1 и многими другими моделями мира в литературе [1, 2, 3, 4, 5]. Это приводит к тому, что модель мира рассуждает о мире с точки зрения дискретных концепций и позволяет более точно прогнозировать будущие представления.
Кодер превращает каждое изображение в 32 распределения по 32 классам каждое, значения которых определяются автоматически по мере обучения модели мира. Горячие векторы, выбранные из этих распределений, объединяются в разреженное представление , которое передается в рекуррентное состояние. Для обратного распространения по образцам мы используем прямые градиенты, которые легко реализовать с помощью автоматического дифференцирования. Представление изображений с категориальными переменными позволяет предсказателю точно изучить распределение по горячим векторам возможных следующих изображений. Напротив, более ранние модели мира, использующие предикторы Гаусса, не могут точно сопоставить распределение по нескольким представлениям Гаусса для возможных следующих изображений.
Множественные категориальные, которые представляют возможные следующие изображения, могут быть точно предсказаны категориальным предиктором, тогда как гауссовский предиктор недостаточно гибок, чтобы точно предсказать несколько возможных гауссовских представлений.![]() |
Второй новой техникой DreamerV2 является балансировка KL . Многие предыдущие модели мира используют цель ELBO, которая поощряет точные реконструкции, сохраняя при этом стохастические представления (апостериорные) близкими к их прогнозам (априорным), чтобы упорядочить объем информации, извлекаемой из каждого изображения, и облегчить обобщение. Поскольку цель оптимизирована от начала до конца, стохастические представления и их прогнозы можно сделать более похожими, приблизив одно из двух к другому. Однако приведение представлений к их предсказаниям может быть проблематичным, если предсказатель еще не точен. Балансировка KL позволяет прогнозам двигаться быстрее к представлениям, чем наоборот. Это приводит к более точным прогнозам, что является ключом к успешному планированию.
Долгосрочные видеопрогнозы модели мира для последовательностей удержания.![]() |
Измерение производительности Atari
DreamerV2 — первая в мире модель, которая позволяет обучаться успешному поведению с производительностью на уровне человека на хорошо зарекомендовавшем себя и конкурентоспособном эталонном тесте Atari. Мы выбираем 55 игр, которые являются общими для многих предыдущих исследований, и рекомендуем этот набор игр для будущей работы. В соответствии со стандартным протоколом оценки агентам разрешено 200 млн взаимодействий с окружением, используя повторение действия, равное 4, и фиксированные действия (вероятность 25 %, что действие будет проигнорировано, а вместо него будет повторено предыдущее действие). Мы сравниваем с топовыми агентами без моделей IQN и Rainbow, а также с известными агентами C51 и DQN, реализованными в рамках Dopamine.
Существуют разные стандарты для суммирования результатов в 55 играх. В идеале новый алгоритм должен работать лучше при любых условиях. Для всех четырех методов агрегации DreamerV2 действительно превосходит все сравниваемые безмодельные алгоритмы при том же вычислительном бюджете.
DreamerV2 превосходит лучшие модели без агентов по четырем методам суммирования результатов в 55 играх Atari. Мы представляем и рекомендуем Clipped Record Mean (крайний правый график) как информативная и надежная метрика производительности. [Обновление — 4 мая 2021 г.: более ранняя версия этого рисунка показывала более низкую производительность DreamerV2, чем она была достигнута на самом деле.] |
Ранее в литературе были предложены первые три метода агрегации. Мы выявляем важные недостатки в каждом из них и рекомендуем новый метод агрегирования, усеченных записей, означающих , для преодоления их недостатков.
- Медиана игрока. Чаще всего баллы для каждой игры нормализуются по производительности игрока-человека, которая была оценена для бумаги DQN, и сообщается медиана нормализованных результатов всех игр. К сожалению, медиана игнорирует результаты многих более простых и сложных игр.
- Игрок Среднее. Среднее значение учитывает результаты всех игр, но в основном на него влияет небольшое количество игр, в которых игрок-человек показал плохие результаты. Это позволяет алгоритму легко получать большие нормализованные результаты в некоторых играх (например, Джеймс Бонд, видео-пинбол), которые затем доминируют над средним значением.
- Запись Среднее. Предыдущая работа вместо этого рекомендует нормализацию, основанную на мировом рекорде человека, но на такой показатель по-прежнему чрезмерно влияет небольшое количество игр, в которых искусственным агентам легко превзойти человеческий рекорд.
- Усеченное значение записи.
Мы вводим новую метрику, которая нормализует баллы по мировому рекорду и обрезает их так, чтобы они не превышали рекорд. Это дает информативную и надежную метрику, которая примерно в равной степени учитывает производительность во всех играх.
Несмотря на то, что многие современные алгоритмы превосходят базовые возможности человека-геймера, они все же значительно отстают от мирового рекорда человечества. Как показано на крайнем правом графике выше, DreamerV2 лидирует, достигая 25% человеческого рекорда в среднем по играм. Сокращение очков на линии рекордов позволяет нам сосредоточить наши усилия на разработке методов, которые приближаются к мировому рекорду человечества во всех играх, а не превышают его лишь в нескольких играх.
Что важно, а что нет
Чтобы получить представление о важных компонентах DreamerV2, мы проводим обширное исследование абляции. Важно отметить, что мы обнаружили, что категориальные представления имеют явное преимущество перед гауссовскими представлениями, несмотря на то, что гауссовы представления широко использовались в предыдущих работах. Балансировка KL дает еще более существенное преимущество перед регуляризатором KL, используемым в большинстве генеративных моделей.
Не позволяя реконструкции изображения или градиентам предсказания вознаграждения формировать состояния модели, мы изучаем их важность для изучения успешных представлений. Мы обнаружили, что DreamerV2 полностью полагается на универсальную информацию из многомерных входных изображений и его представления позволяют точно прогнозировать вознаграждение, даже если они не были обучены с использованием информации о вознаграждении . Это отражает успех неконтролируемого обучения представлению в сообществе компьютерного зрения.
Производительность Atari для различных аблаций DreamerV2 (урезанное значение записи). Категориальные представления, балансировка KL и изучение изображений имеют решающее значение для успеха DreamerV2. Использование информации о наградах, характерной для узких задач, не дает дополнительных преимуществ для изучения модели мира.![]() |