Алексей Кутовенко - Профессиональный поиск в Интернете
- Название:Профессиональный поиск в Интернете
- Автор:
- Жанр:
- Издательство:Издательство «Питер»046ebc0b-b024-102a-94d5-07de47c81719
- Год:2011
- Город:СПб
- ISBN:978-5-459-00334-5
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Алексей Кутовенко - Профессиональный поиск в Интернете краткое содержание
Найти нужную и актуальную информацию в Интернете порой очень непросто. Количество информационного мусора в Сети растет как снежный ком, и добраться до данных, которые вам действительно необходимы, используя традиционные Яндекс и Google, иногда просто невозможно. Книга, которую вы держите в руках, позволит увеличить эффективность вашего поиска информации в Интернете во много раз. Здесь описаны приемы, поисковые сайты и программы для специализированного поиска информации. Рассмотрены современные разновидности интернет-поиска: универсальный поиск, вертикальный поиск, метапоисковые системы, построение персональных поисковиков, поиск аудиовизуального контента, поиск по скрытому Интернету. Для всех рассмотренных систем приведены их характеристика и советы по максимально эффективному использованию.
Профессиональный поиск в Интернете - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Если же говорить о «настоящих» метапоисковиках торрентов, опирающихся на собственные базы, то ситуация здесь неоднозначная. С одной стороны, существующие решения, позволяющие охватить сразу несколько крупных трекеров, действительно способны повысить эффективность поиска торрентов и заслуживают самого серьезного внимания. С другой – невооруженным глазом заметно, что простор для дальнейшего роста у них еще весьма и весьма солидный. При этом речь не идет о каких-то сверхсложных экспериментах, достаточно присмотреться к эволюции «обычных» метапоисковиков, предназначенных для работы с веб-документами. Многие функции, ставшие для них стандартными, в торрент-машинах еще не реализованы.
Типичный современный торрент-поисковик, как правило, работает с пятью-десятью крупнейшими универсальными трекерами. Поскольку их список на большинстве метапоисковиков совпадает, на первый план выходят возможности составления сложных запросов и фильтрации результатов по различным признакам. По данному критерию, пожалуй, наиболее интересно выглядят метапоисковики Torrentz и ScrapeTorrent. Система NowTorrents полезна своей функцией обновления результатов в режиме реального времени.
Еще один важный аспект применения метапоисковой технологии – это работа с многочисленными относительно небольшими тематическими трекерами, счет которым в Сети идет на тысячи. Ручной перебор таких ресурсов при поиске редких файлов занимает массу времени и просто-таки требует автоматизации. Метапоисковики как раз и способны ввести такие редкие трекеры в поисковый оборот. Лидерами по количественному охвату торрент-ресурсов сейчас являются поисковики, использующие базу Google, однако стандартные интерфейсы и инструменты уточнения запросов Google CSE мало подходят для реального поиска торрентов, что неблагоприятно сказывается на качестве результатов.
Глава 10
Поиск для Web 3.0
Технологии «семантического веба» – главного претендента на роль следующего поколения развития. Сети, которое уже окрестили Web 3.0, неторопливо, но верно обосновываются на все большем количестве интернет-сервисов. Появление новых проектов связано с актуальной и серьезной проблемой извлечения полезной информации из огромного объема представленных в современной. Сети данных. Сбор, обработка и сведение воедино данных из множества источников остается весьма трудоемким занятием, которое было бы весьма заманчиво переложить на плечи компьютеров. Однако интернет в его современном состоянии не самым лучшим образом приспособлен для решения этой задачи. Причины этого довольно глубоки, можно сказать, концептуальны. При всем своем многообразии подавляющее большинство современных веб-проектов объединяет то, что они ориентированы исключительно на человеческое восприятие. Под это понятное и естественное требование изначально подгонялись форма и технологии создания веб-ресурсов. В конце концов, их же должен просматривать Homo Sapiens, который способен самостоятельно выделить смысл содержимого страницы.
Проанализировать смысл такой веб-страницы в автоматическом режиме – сложная задача. Что скрывается за текстом веб-страницы – ценные сведения и выводы, сделанные знатоками темы, просто бесполезная в данный момент информация или откровенная ерунда, компьютеру не ведомо. Попытка преодолеть данный семантический барьер «в лоб», на базе технологий современной сети, требует приложений, приближенных по уровню к искусственному интеллекту, что отодвигает их перспективы в неясное будущее, по крайней мере, для обычных пользователей Сети.
На этом этапе и возникает идея «семантического веба», позволяющая решить названные проблемы и во многом изменить само представление о способах работы в интернете. Она была сформулирована известнейшим специалистом. Тимом. Бернесом-Ли почти два десятка лет тому назад. Кратко ее можно изложить так: «Если создание программ, способных автоматически обрабатывать сведения из интернета, является слишком сложной задачей, то имеет смысл создать надстройку к. Сети в виде технологий, приводящих сетевую информацию в дружественный для программ-агентов вид». На основе соответствующей разметки сетевых документов, которая будет отражать смысл опубликованных данных, такие программы смогут самостоятельно собирать разрозненную информацию, сопоставлять данные, принимать решение об их достоверности и даже делать некоторые логические выводы, предоставляя на выходе пользователю готовый информационный продукт.
Сильной стороной семантического веба должен стать учет не только прямого содержания опубликованных в Сети документов, но и контекста использования информации. Различные фрагменты веб-страниц могут быть полезны при решении различных задач, надо только скомбинировать имеющиеся данные нужным образом.
Комплекс технологий, необходимых для реализации семантического веба, часто представляют в виде схемы, напоминающей слоеный пирог. Ключевые элементы данного пирога: универсальные идентификаторы ресурсов (Universal Resource Identifier, URI), основанные на XML языки семантической разметки сетевых документов и язык онтологий, позволяющий устанавливать связи и отношения между объектами. Важную роль в семантическом вебе играют технологии проверки достоверности найденных программами-агентами данных. Результатом развития таких технологий должна стать возможность простой автоматической проверки степени достоверности отдельных положений. Тим. Бернес-Ли в шутку назвал такой идеальный инструмент кнопкой «Да ну?», после щелчка на которой должен появиться либо перечень заслуживающих доверия положений, либо сообщение об ошибке (куда же без него?), говорящее о неправильной записи или о том, что системе не удалось найти в документе ничего, заслуживающего доверия.
Развитием семантических технологий в настоящее время достаточно активно занимается организация World Wide Web Consortium. Среди успехов отметим стандартизацию двух ключевых технологий: формата семантических данных (RDF) и языка веб-онтологий OWL.
Семантические технологии изящны в теории, однако воспринимать их как действительно перспективное и серьезное направление развития. Сети ранее мешало два обстоятельства. Первое – сдержанное поначалу восприятие новых технологий действительно крупными универсальными интернет-поисковиками, что сказывалось на популярности семантический разметки контента разработчиками веб-ресурсов, поскольку внедрение семантической разметки не несло каких-либо немедленных дивидендов. Второе – недостаток простых в использовании и полезных в повседневной работе приложений, способных стать популярными не только среди фанатов, но и в широких кругах пользователей. Сейчас можно наблюдать серьезные подвижки в обоих направлениях.
Читать дальшеИнтервал:
Закладка: