Как работает система рекомендации видео на YouTube
Кристос Гудроу, вице-президент YouTube по технологическим вопросам, рассказал об алгоритмах составления индивидуальных рекомендаций роликов для пользователей.
Как работает система рекомендаций
Для того, чтобы предложить каждому пользователю индивидуальные рекомендации, система не основана на жестком регламенте. Она постоянно развивается и обучается, анализируя 80 миллиардов информационных объектов, которые мы называем «сигналами». Поэтому чтобы объяснить систему работы рекомендаций, нужно не только объяснить их принцип работы, но и рассказать, какие данные используются. Чтобы определить предпочтения, алгоритмы YouTube принимают во внимание множество сигналов: нажатия, время просмотра, результаты опросов, ссылки на контент, а также отметки «Нравится» и «Не нравится».
-
Клики. Когда вы кликаете на видео, это с большой вероятностью говорит о том, что оно покажется вам интересным. Вряд ли вы станете нажимать на то, что не хотите смотреть.
«Однако в 2011 году мы выяснили, что даже если пользователь кликнул на ролик, это не значит, что он его посмотрел. Допустим, вы ищете видео лучших моментов матча Уимблдонского турнира за определенный год. Вы прокручиваете страницу и кликаете на один из роликов, потому что по его названию и значку похоже, что он содержит видео с матча. Но оказывается, что автор видео пересказывает матч на камеру. Вы нажимаете на рекомендованный ролик на панели „Следующее“, но это снова просто пересказ игры от фаната. Пока вы найдете видео с записью матча, вы можете перебрать таким образом много роликов. Поэтому с 2012 года мы стали учитывать время просмотренных роликов», — комментирует Кристос Гудроу.
-
Время просмотра. Анализируя, какие видео вы смотрели и как долго, система YouTube получает персонализированные сигналы о том, какой контент вам скорее всего понравится. Поэтому если гипотетический фанат тенниса посмотрел 20 минут подборки ярких моментов Уимблдонского турнира и всего несколько секунд видео с анализом матча, можно с уверенностью предположить, что яркие моменты игры показались ему более интересными.
«Когда мы впервые стали учитывать время просмотра при подборе рекомендаций, то количество просмотров мгновенно упало на 20%. Однако мы верим, что нам важнее предоставлять зрителям интересный контент, ведь польза от просмотра разных видео может отличаться. Иногда я засиживаюсь допоздна, просматривая случайные видео вместо того, чтобы изучать на YouTube новый язык или оттачивать кулинарные навыки. Мы не хотим, чтобы пользователи сожалели о времени, потраченном на просмотр видео. Поэтому мы поняли, что нам нужно лучше анализировать то, насколько зрители удовлетворены временем, которые они посвящают YouTube», — комментирует Кристос Гудроу.
-
Результаты опросов. Чтобы наверняка определить, довольны ли зрители контентом, который они смотрят, YouTube учитывает так называемое «ценное время просмотра». Это время, которое вы сами оцениваете как проведенное с пользой. «Ценное время просмотра» определяется с помощью опросов, где пользователь ставит видео оценку по шкале от одного до пяти. Так система может понять, доволен ли зритель контентом. Если пользователь ставит видео одну или две звезды, YouTube спрашивает, что не понравилось, а если четыре или пять — что оказалось полезным. При подсчете ценного времени просмотра учитываются только те ролики, которым пользователь поставил четыре или пять звезд.
«Конечно, не все пользователи проходят опрос после каждого просмотренного видео. На основе ответов, которые мы получаем, наша модель машинного обучения научилась предсказывать возможные оценки. Чтобы проверить точность этих прогнозов, мы специально исключаем из задания для обучения часть уже выставленных пользователями оценок. Это позволяет нам проверить, насколько полученные с помощью нашей системы данные соответствуют реальным ответам», — комментирует Кристос Гудроу.
-
Ссылки на контент, а также отметки «Нравится» и «Не нравится». Обычно если пользователь делится видео или ставит ему отметку «Нравится», это означает, что он доволен этим контентом. Система использует эту информацию, чтобы предсказывать вероятность того, что вы поделитесь следующими роликами или поставите им отметку «Нравится». Когда пользователь нажимает «Не нравится», это сигнал, что контент не показался интересным.
«Как и в случае с рекомендациями, значимость каждого сигнала зависит от вас. Если вы делитесь всеми просмотренными видео, даже теми, которым поставили одну или две звезды, наша система не будет учитывать отправленные вами ссылки на контент при подборе рекомендаций. Именно поэтому наши алгоритмы не базируются на четких правилах, а адаптируются к вашему поведению», — - комментирует Кристос Гудроу.
Информационный контент
Перечисленные алгоритмы больше подходят для музыки и развлекательного контента. В случае с новостями и информационными видео подключаются дополнительные инструменты. В частности, фактчекинг. Проверенный контент от «пограничного» платформа отделяет с помощью классификаторов. Качество информации оценивают специалисты со всего мира, обучающиеся по подробным общедоступным правилам видеосервиса. Также YouTube обращается к сертифицированным экспертам.
Чтобы определить авторитетность контента, специалисты по оценке отвечают на несколько ключевых вопросов: «Материалы отвечают заявленной цели?», «Какой уровень квалификации требуется, чтобы понять смысл видео?», «Какая репутация у выступающего в ролике человека и канала, на котором оно опубликовано?», «Какая основная тематика видео?», «Контент задуман как сатирический?». Ответы определяют, насколько видео заслуживает доверия. Чем выше оценка, тем активнее ролик продвигается в рамках новостного и информационного контента.
Чтобы определить пограничные видео, специалисты по оценке отмечают факт присутствия неточного, вводящего в заблуждение, оскорбительного, нетолерантного, реально или потенциально вредоносного контента и другие. На основании общих результатов определяется вероятность, что ролик содержит вредоносную информацию или пограничный контент. Видео, которые классифицируются как пограничный контент, удаляются из рекомендаций.