Главная » Каким станет интернет-поиск в будущем?
Интернет самоуправляем, он ежедневно пополняется миллионамиразрозненных документов. И поиск нужных сведений в таком колоссальноммассиве усложняется. Именно поисковые механизмы – один из важнейшихиндикаторов развитости сети - требуют постоянного совершенствования,наряду с ростом объемов информации и скоростей ее сбора и обмена.Поисковые системы используются повсеместно и постоянно. Труднопредставить себе рабочий день без обращения к поиску с интересующимзапросом. И слишком часто пользователь тратит на него неоправданноеколичество времени и сил.Рост объемов информации требует других подходов к работе поисковыхсистем. Существующая методика работы ограничена заложенной в неймоделью. Она эффективна только в замкнутом пространстве, но не пригоднадля пользователя современного интернета с его громадными и постояннообновляющимися БД. Необходимость создания новой платформы поисковыхмеханизмов очевидна, и для этого сегодня есть все: и технологическиересурсы, и быстрые машины, и большие накопители информации.В поисках истиныЧего ожидает человек при поиске? Иногда - точного ответа на вопрос.Иной раз - выборки фактов или гипотез по теме. Часто - конечных знаний.
Поиск состоит в задании вопроса поисковой машине с помощьюсемантического анализа интернет-страниц с использованием методаиндексирования QDEX (Query Detection and ExtractionНовая парадигма поиска состоит не просто в нахождении документов,где можно вычитать интересующую информацию, а в ориентации на конечныефакты и новые знания, представляющие определенную ценность. Они могутбыть разного рода: первичные сведения, предназначенные для дальнейшегоанализа и обработки, какие-то факты (например, данные о возрастечеловека или его месте работы, и даже – учитывая технологическиевозможности интернета – фрагмент его речи или видеоизображение).Но это ещё не всё. Ценные знания содержатся и в том, что прямо иликосвенно относится к искомому объекту. Если говорить о поиске человека,пользователь одновременно может интересоваться его связями, семьей иликарьерой. Вместе с тем, необходимо помнить, что не всякая информацияобщедоступна. При разработке новых моделей поисковых систем требуетсявнедрение в нее механизма защиты от предоставления сведений, которыемогут быть использованы мошенниками в корыстных целях.Итак, поисковые системы нового поколения должны быстро и четкообрабатывать большой объем данных, отличать факты от данных, обладатьмеханизмами фильтрации информации в зависимости от объектов (пониматьразницу между именем Петр и Петровским парком), учитывать историческуюхронологию запроса (в запросе о Пугачеве различать знаменитого бунтаряи примадонну), учитывать синонимы и, наконец, обрабатывать полученнуюинформацию с учетом возможностей каналов связи и без предъявлениязавышенных требований к мощности компьютеров. От методики к практикеТо, что интеллектуальный поиск возможен, убеждают успехи в областимашинного перевода с одного языка на другой. Любой пользовательинтернета знает, что перевод текста с минимальным смысловым анализомгораздо более эффективен, чем просто перевод последовательностииностранных слов. И программы такого уровня, способные осуществлятьперевод с сохранением смысла, заложенного в текст, уже есть. А этозначит, что схожие по действию механизмы смыслового анализа документовмогут применяться в системах поиска информации. Сами жеинтеллектуальные поисковые системы очень скоро будут доступны любомупользователю Интернета.Основный и базовый метод поиска сегодня – по образцу, или pattern match.Именно он используется в широкодоступных поисковых системах, таких какЯндекс и Google, и повсеместно распространен. Его главный недостатокдля всех очевиден: поисковик выдаёт зашлакованный случайнымисовпадениями результат, а ссылки на документы не соответствуютконтексту запроса.
Использование этого метода превращает поисковую систему внавигационную. Иначе говоря, поисковик не выдает пользователю желаемойинформации, он лишь указывает ссылки на сайты, которые содержатключевые слова. Возможно, пользователь найдет там какие-то нужныеданные. Содержимое сайтов индексируется, поиск идет по документам сминимальным учетом комбинаций и, тем более, смысловой нагрузки словзапроса. Другой популярный метод – поиск по досье.В этой системе возможен ввод запроса в виде фактов или утверждений.Поиск производится по соответствию цели поиска содержанию документа. Врезультате осуществляется контекстный поиск информации, но сограниченными возможностями. Дело в том, что базы досье непредназначены для широкого круга пользователей. Сами они имеютограниченный размер, совокупность внесённых в них данных относительноневелика. Среди доступных ресурсов, использующих такой метод поиска –энциклопедии, справочники по составу сотрудников учреждений, адресныесправочники и так далее. Примером использования этого метода можетслужить система zoominfo.com
Одним из новых веяний в поисковых системах является использование концепции tag cloud Следующий аналитический механизм – поиск в информационных массивах группы связанных данных.Пока этот метод должного распространения не получил, хотя являетсявесьма привлекательным и перспективным. Пример использования -LiveJournal MindMap.Наконец, четвёртый метод– использование фискально-полицейских систем.Поиск производится по специализированным базам адресной,регистрационной и налоговой информации. Этот метод способенобрабатывать огромные массивы данных, но предназначен исключительно дляспециалистов-аналитиков. Примеры использования – NetMap, Visual Links,программа i2 Analyst’s Notebook и другие.Пока объединение всех четырёх методов в той или иной степени удалосьсистемам, используемым разведкой и полицией. Но именно этот путь –объединения известных методов – и приведет к появлению общедоступных,мощных и более совершенных поисковых инструментов нового поколения.Методы усовершенствования поискаОдно из наиболее существенных улучшений поисковых механизмов – обеспечение выдачи релевантных документов.В данном случае под релевантностью понимается соответствие документовсмыслу запроса. При этом релевантность может иметь смысл только с точкизрения конкретного пользователя.Например, если человек хочет снять офис, его интересуетнепосредственно объявление о сдаче помещения соответствующего формата,а не справка о том, что в Москве их ежегодно арендуется более 5 000штук. "Идеальным" ответом будет адрес сдаваемого помещения, цена иконтакты для связи с арендодателем. Но на данном этапе развития этоедва ли возможно.Чтобы обеспечить соответствие ответов, поисковые машины используютразличные пути. Например, Google пытается отслеживать запросыпользователей и запоминать их поведение (то есть учитывать частотузапросов по различным темам). Но в результате выдаются не наиболеерелевантные, а модные, популярные или разрекламированные ссылки. Поисксопутствующей справочной информации в этом случае становится болееэффективным, но для нахождения знаний этот метод не годится.Сейчас уже ведутся опыты по практическому использованиюкластерного поиска.Результаты запроса раскладываются по отдельным смысловым группам длятого, чтобы понять: что же на самом деле нужно пользователю, какуюименно информацию он ищет в интернете.Еще один подход - поиск с обратной связью.Этот метод напоминает систему мастеров, шаблонов, которые пользовательпреодолевает шаг за шагом. Это очень перспективное направление, котороеспособно обеспечить максимальную релевантность ответа на любой запрос.Но в конце развития этого метода – система жёстко детерминированныхменю, не подразумевающая какой-либо гибкости (то есть поиск сводится квводу простых ответов типа "да / нет", а не менее определённых "и /или").Наконец, для обеспечения релевантности ответов используется добавление синонимовк самим запросам перед их выполнением. То есть перед поиском к запросудобавляются схожие по смыслу и разные по форме слова, которые облегчаютрелевантный поиск. Второе важное улучшение поисковых систем, которое можно заметить уже сегодня – грамматический разбор запроса и текстов, в которых производится поиск.При грамматическом анализе запроса фраза разделяется навзаимосвязанные объекты, а не просто на отдельные слова. В результатеосновным объектом поиска становится знание, ответ на вопрос, а непросто нахождение документов как таковых. То есть ответ на конкретныйвопрос становится главной задачей, а вывод ссылок выполняетвспомогательную, иллюстративную функцию.Сложности разработкиДля полного грамматического разбора запроса необходимо произвестилингвистический анализ документов, чтобы получить набор элементарныхутверждений (или "фактов") о наличии нужных атрибутов и связей. Этосвязано с переработкой значительных массивов данных, что и объясняеттрудности в реализации этих механизмов.Ещё одна проблема – формализация запроса. Чтобы точно выполнитьзапрос, необходимо понять его смысл, цель. В каком виде должны бытьпредставлены знания, чтобы ответы носили универсальный характер?Какого-либо специального языка для представления знаний наука до сихпор не выработала. Поиск в этом направлении ведётся, но перспективыпока остаются туманными.Пока не решена и проблема визуализации ответов. Интерфейс поисковойсистемы должен быть максимально простым, но и максимальноинформативным. Требования предъявляются крайне противоречивые. Эторавносильно тому, чтобы попытаться построить мощный персональныйкомпьютер, который бы мог быстро понять и освоить пятилетний ребёнок.Задача трудновыполнимая, но всё же... выполнимая. Ведь когда-то идистанционный пульт управления телевизором казался невероятно сложнымустройством. Наконец – идентификация объектов. Это самая сложная задача, врешении которой особых успехов пока не достигнуто. Как определитьсоответствие одного и того же документа (или объекта) к разным группамутверждений? Например, одна и та же веб-страница может содержатьинформацию о турах, об истории Египта, о гостиницах и так далее. Но приэтом поисковые запросы могут касаться только туров, только гостиниц илитолько информации о стране.Главное условие, которое отличает существующую систему поиска отпоисковой системы нового поколения – это успешное решение именнопроблемы идентификации. Его выполнение еще впереди, и не факт, что этопроизойдет в ближайшем будущем. Но рано или поздно это произойдет. Категория: Сети и все о них | Просмотров: 67 Создаём сайты. В Новый Год: создание интернет магазина. Сайт-визитка 5000р.