Алексей Кутовенко - Профессиональный поиск в Интернете
- Название:Профессиональный поиск в Интернете
- Автор:
- Жанр:
- Издательство:Издательство «Питер»046ebc0b-b024-102a-94d5-07de47c81719
- Год:2011
- Город:СПб
- ISBN:978-5-459-00334-5
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Алексей Кутовенко - Профессиональный поиск в Интернете краткое содержание
Найти нужную и актуальную информацию в Интернете порой очень непросто. Количество информационного мусора в Сети растет как снежный ком, и добраться до данных, которые вам действительно необходимы, используя традиционные Яндекс и Google, иногда просто невозможно. Книга, которую вы держите в руках, позволит увеличить эффективность вашего поиска информации в Интернете во много раз. Здесь описаны приемы, поисковые сайты и программы для специализированного поиска информации. Рассмотрены современные разновидности интернет-поиска: универсальный поиск, вертикальный поиск, метапоисковые системы, построение персональных поисковиков, поиск аудиовизуального контента, поиск по скрытому Интернету. Для всех рассмотренных систем приведены их характеристика и советы по максимально эффективному использованию.
Профессиональный поиск в Интернете - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Выбор между этими вариантами лучше всего делать с учетом степени вашей подготовленности. Если вы интересуетесь определенной темой достаточно долго, у вас, скорее всего, уже имеется хорошая коллекция ссылок на действительно полезные и информативные сайты по теме. Список таких ссылок можно использовать как основу для персонального поисковика. В этом случае лучше сразу ограничить сферу поиска только указанными сайтами, поскольку этот вариант избавит поисковик от большей части информационного шума. Если же у вас такой подборки ссылок пока нет и поисковик создается «с нуля», имеет смысл выбрать вариант поиска в базе Google с предпочтением указанных вами сайтов. Такой вариант позволит сразу же получить работоспособную систему, точность функционирования которой будет постепенно повышаться по мере пополнения персонального списка сайтов.
Поскольку в персональном поиске используется готовая индексная база Google, проверить работу своего поисковика можно сразу же после его регистрации. Для этого достаточно ввести тестовый запрос и просмотреть результаты, полученные именно с указанных вами сайтов.
Изменить большинство из указанных при регистрации параметров нового поисковика впоследствии можно с помощью раздела Основные сведения, который расположен на боковой панели управления Google CSE.
Следующий этап работы над персональным поисковиком – заполнение его индексной базы – занимает гораздо больше времени. Поддерживая свой поисковик, пользователь в основном занимается именно этой работой. В настоящее время существует ограничение на общее количество сайтов, задействованных при персональном поиске одного пользователя – не более 5000 ссылок. Добавить адреса новых сайтов в индекс поисковика можно с помощью веб-интерфейса сервиса, дополнения для браузера, а также посредством импорта предварительно отформатированного пользователем файла в формате XML.
Первый способ предполагает использование веб-интерфейса самого поисковика Google CSE. В боковой панели системы находится ссылка. Сайты, которая и открывает соответствующую форму. Работа идет сразу с двумя списками: первый из них позволяет включать сайты в индекс поисковика. Назначение второго – прямо противоположное: исключение результатов с указанных вами сайтов из результатов поиска.
В ходе добавления новых ресурсов к персональной системе в адресах сайтов можно использовать маски, позволяющие точно указать, что именно мы хотим включить в свой индекс. Это дает возможность задействовать в своей системе широкий диапазон ресурсов: от целых доменов до конкретных веб-страниц. Данная возможность серьезно повышает гибкость настройки системы поиска, поскольку позволяет «оптом» добавлять в индекс сразу группы сайтов, или наоборот – ограничивать индекс определенного сайта каким-либо одним его разделом. Это полезно, если вы нашли сайт широкого профиля. Если просто включить его в базу, то кроме полезных для вашего тематического поиска результатов в списке выдачи окажется много лишних ссылок из других разделов сайта. Если взять, например, авиационную тему, то эту ситуацию можно проиллюстрировать на примере фотогалерей. Допустим, мы хотим включить в свою систему результаты поиска в базе фотохостинга Flickr. Простое добавление в индекс адреса fLickr.com ни к чему хорошему не приведет: мы получим огромное количество результатов, большинство из которых будет иметь к тематике нашего поисковика лишь отдаленное отношение. Гораздо дальновидней включить в индекс только конкретные подборки или архивы пользователей, которые фотографируют именно авиацию. Например, следующая маска даст возможность включить в индекс нашего поисковика только фотографии группы, посвященной британскому истребителю Lightning:
www.flickr.com/groups/english_electric_lightning/*
Другие примеры шаблонов представлены в табл. 6.1.

Пополнять базы с помощью веб-интерфейса Google CSE имеет смысл, пожалуй, только на начальном этапе создания поисковика. Далее удобней пользоваться инструментом. Указатель GoogLe (рис. 6.1). Он представляет собой дополнение к браузеру, с помощью которого можно быстро включать открытые в браузере сайты и отдельные веб-страницы в базу персонального поиска во время серфинга, не открывая сайта Google CSE. Установить его можно на страничке www.google.com/coop/cse/marker. Работа с ним очень похожа на добавление записей в онлайновый сервис закладок. На панель браузера добавляется новая кнопка, которая открывает всплывающее окно с формой описания сайта. В ней указываются персональный поисковик, в индекс которого мы хотим добавить сайт, и список тематических ярлыков, которые мы можем присвоить сохраняемому ресурсу. Настройкой таких ярлыков мы займемся немного позже. Кроме того, в данной форме есть возможность выбора между добавлением сайта целиком и добавлением только одной конкретной страницы сайта. Другими словами, нам предлагают автоматически сгенерировать маску, которая обеспечит включение в индекс только открытой в данный момент веб-страницы. К сожалению, возможности более гибкой работы с масками в этом диалоге нет. Поэтому, если вам понадобится указать не одну веб-страницу, а раздел сайта, придется обратиться к стандартному веб-интерфейсу Google CSE.

Рис. 6.1. Инструмент Указатель Google
Облегчить достаточно трудоемкую работу по заполнению индексной базы Google CSE помогает режим автоматического сбора ссылок с указанной веб-страницы. Этот режим, доступный в разделе Сайты панели управления поисковиком, называется динамическим извлечением страниц. Его можно включить как для уже присутствующей в списке веб-страницы, так и для нового добавляемого в систему сайта. После включения этого режима Google CSE просматривает исходную веб-страницу и добавляет в индекс поисковика все сайты, на которые с этой страницы ведут ссылки. Данный режим весьма удобен для сбора новых адресов из разделов полезных ссылок тематических сайтов или, допустим, с обновляемых лент новостей. В результате для того, чтобы ваша персональная база начала пополняться в автоматическом режиме, достаточно включить в область поиска хотя бы один-два сайта с обновляемым тематическим контентом. Необходимо обратить внимание, что такие ссылки не добавляются в индекс в виде самостоятельных записей. В индексе сохраняется только исходная ссылка, поэтому к автоматически собранным сайтам нельзя применять индивидуальную настройку.
Читать дальшеИнтервал:
Закладка: