Google Knowledge Graph и будущее поиска в интернете

Материал Google (сайт нарушает закон РФ) Knowledge Graph Could Change Search Forever из Mashable
Google (сайт нарушает закон РФ) вас не понимает. Если вы введете в поле поиска запрос «10 самых глубоких озер в США», результаты в выдаче будут релевантными. Они основаны на ключевых словах и авторитетности сайтов, которые «отзываются» на эти слова и фразу в целом. Но, как отмечает Амит Сингхал, страший вице-президент и научный сотрудник Google (сайт нарушает закон РФ), самого запроса система не понимает. «Мы скрещиваем пальцы на удачу и надеемся, что кто-то уже опубликовал в сети что-то о запрашиваемых вещах или темах», – говорит Амит.
Но будущее поиска Google (сайт нарушает закон РФ) может быть совсем другим. Сингхал, который исследует эту тему уже 20 лет, обрисовал концепцию, которая подразумевает переход от простого поиска на основе слов к поиску с учетом сущностей-объектов, их атрибутов и взаимных отношений. Другими словами, на следующей ступени развития поиск Google (сайт нарушает закон РФ) не просто поймет запрос об озерах, система тут же определит, что речь идет о водоемах и выдаст глубины, площади зеркал (поверхностей водоемов), температуры и даже уровни солености каждого озера.
Чтобы понять, куда идет Google (сайт нарушает закон РФ), надо знать, где этот путь начался.
По словам Сингхала, изначально поиск основывался только на индексе контента. Изменения в этой модели появились только с возникновением всемирной паутины, когда поиск начал «дружить» со ссылками. Амит отмечает, что Google (сайт нарушает закон РФ) был первой системой, которая стала использовать ссылки как «суррогаты рекомендаций». В те дни поисковая выдача зависела от контента ссылок и их авторитетности. Со временем, эта модель обросла дополнительными ориентировками, которые касались самого контента, ключевых слов, данных о пользователе. Все это добавлялось с целью сделать результаты поиска еще лучше.
В конце концов, Google (сайт нарушает закон РФ) перешел от оценки ключевых слов к оценке значений. «Мы поняли, что запрос New York имеет свой смысл, отличный от первоначальных значений слов New и York, взятых отдельно», – говорит Сингхал. Google (сайт нарушает закон РФ) разработал и внедрил набор эвристических правил, согласно которым некоторые сочетания слов являются новой единицей с собственным значением. Но эти правила все равно не позволяют системе «понимать», что New York – это город, расположенный в определенном месте, с таким-то населением и т.д.
Распознавание сочетаний слов и их значения – уже кое-что, однако ни Google (сайт нарушает закон РФ), ни Сингхал, недавно ставший членом Национальной Академии Инженерного Искусства (National Academy of Engineering), эти не удовлетворены.
Грядущие перемены
Сейчас Google (сайт нарушает закон РФ) учится узнавать в словах сущности и сопоставлять их с соответствующими значениями и атрибутами. Для человека это естественный процесс, но в мире компьютеров для его реализации требуется то, что называется «искусственным интеллектом».
Задача сложная, но к ее решению уже приступили. Google (сайт нарушает закон РФ) разрабатывает объемную концепцию сущностей и создает собственное хранилище записей, хранящих информацию об этих сущностях и том, что о них следует знать.
В 2010 году Google (сайт нарушает закон РФ) приобрел Freebase, собранную сообществом базу знаний, которая содержит 12 миллионов записей о сущностях. 12 миллионов – неплохо для начала, но, по словам Сингхала, Google (сайт нарушает закон РФ) вложил немалые средства в создание огромного древа знаний (knowledge graph) о связанных друг с другом вещах и их атрибутах.
Переход от основанного на словах индекса к этому древу знаний – фундаментальный сдвиг, в результате которого способности системы и ее сложность увеличатся радикально. Амит сравнивает обычный индекс с содержанием книги. «Древо знаний в разы превосходит индекс, это гораздо более совершенная и продвинутая структура», – отмечает Сингхал.
Сейчас Google (сайт нарушает закон РФ) создает инфраструктуру для более сложного (с точки зрения алгоритмов) поиска будущего. Конечно, эта задача требует значительных вычислительных мощностей. На этих мощностях и основано древо знаний, которое уже объединяет почти 200 миллионов записей. Что же можно сделать с таким массивом? Начальный этап напоминает первые шаги ребенка. Хотя в поиске Google (сайт нарушает закон РФ) уже проявляются элементы искусственного интеллекта, большинство пользователей их не замечают.
Древо знаний сегодня
Введите в поле поиска Google (сайт нарушает закон РФ), например, запрос «Моне». В выдаче, помимо стандартных результатов, вы увидите блок «Картинки по запросу Моне». В этом блоке – миниатюры 5 или 6 самых известных работ мастера. Сингхал утверждает, что этот блок – проявление понимания: система узнает в запросе фамилию известного художника, и выдает в результатах самые важные вещи, которые его касаются – картины.
На замечание о том, что ничего особенно выдающегося в этом блоке нет (в сравнении с результатами, выданными из индекса), Амит отвечает предостережением: судить о мощи древа знаний на основании такого примера – то же самое, что оценивать талант художника по картинам, написанным им в возрасте 1–2 лет.
Некоторую иронию можно усмотреть в том, что Google (сайт нарушает закон РФ) обратился к проблеме, которую активно критикует Microsoft Bing, его главный конкурент в поиске. Софтверный гигант заказал ряд роликов, в которых высмеивалась поисковая выдача, состоящая из вхождений, явно не имеющих ничего общего с контекстом запроса. Название Google (сайт нарушает закон РФ) в этих роликах, конечно, отсутствовало, но большинство видевших их людей поняли, над кем подшучивает Bing. И сейчас Google (сайт нарушает закон РФ) взялся за улучшение качества поиска.
Сингхал фактически отказался комментировать факт критики со стороны Bing и «выпячивание» этой системой своих алгоритмов, которые нацелены на выдачу полезного контента, а не просто ссылок. Атим сказал, что рассуждать о том, что делает или чего не делает Bing, он не может.
Также следует отметить мнение миллионов пользователей iPhone 4S: для них Siri, умный помощник, работающий в этой модели – воплощение искусственного интеллекта. Siri использует информацию, доступную в телефоне и интернете, чтобы давать ответы на поставленные простым человеческим языком вопросы. Древо знаний Google (сайт нарушает закон РФ) просто обязано придать системе еще более впечатляющие возможности в плане проявления AI.
Сингхал затрудняется очертить четкие рамки «поиска будущего». «Мы строим “адронный коллайдер”. Я не могу сейчас предсказать, какие частицы получатся у нас на выходе», – говорит он.
С другой стороны, Атим признает, что его мечта – построить компьютер, работающий как в «Звездном пути» (Star Trek). Впервые это выдуманное чудо техники было представлено зрителю в одноименном сериале 60-х годов прошлого века. Как и эппловская Siri, компьютер из «Звездного пути» давал осмысленные ответы практически на любые вопросы. В отношении создаваемого Google (сайт нарушает закон РФ) древа знаний Сингхал говорит: «Искусственный интеллект и общие вычисления выигрывают от того, что инфраструктура построена внутри компании. Повышая качество обработки поисковых запросов, мы приближаемся к созданию компьютера как в “Звездном пути”».
Не только поиск
Раз речь зашла о «Звездном пути», стоит упомянуть еще одну передовую отрасль, которая может использовать всю мощь древа знаний Google (сайт нарушает закон РФ): робототехнику. Амит Сингхал, конечно, не является экспертом в этой области, но он отмечает, что робототехника, существующая на стыке механики и сложных вычислений, сталкивается с большими трудностями, когда речь заходит о чем-то, связанном с языком. «Я думаю, что мы создаем основы для будущего общения между роботами и людьми, общения, которое будет происходить на обычном языке», – говорит Сингхал.
Картина рисуется следующая: робот, имеющий постоянную связь с основанным на сущностях поиском Google (сайт нарушает закон РФ), способен понять, что вверенный ему «младенец» (как, вы не доверите своего ребенка роботу?) – маленький, хрупкий и всегда голодный. Возможно, робот даже будет знать, как кормить малыша, так как ему будет знакома сущность «всегда голодный», которая вместе с сущностью «ребенок» приведет к появлению атрибута «только жидкая пища».
200 миллионов записей – это много, но объем знаний в мире не просто огромен, его границы необозримы. Сколько сущностей надо «вбить» в древо знаний Google (сайт нарушает закон РФ), чтобы получать от него ответы на все вопросы? Вместо прямого ответа и конкретной цифры, Сингхал смеется и подходит к вопросу с другой стороны: «Человеческий мозг замечателен своей способностью к оригинальности, нахождению неизбитых путей. Лучший ответ, который я могу дать, – человек будет продолжать генерировать знания, а то древо знаний, которое мы сейчас строим, является инструментом в этой генерации. Мы имеем дело с бесконечным квантитативным циклом созидания».