Алексей Кутовенко - Профессиональный поиск в Интернете
- Название:Профессиональный поиск в Интернете
- Автор:
- Жанр:
- Издательство:Издательство «Питер»046ebc0b-b024-102a-94d5-07de47c81719
- Год:2011
- Город:СПб
- ISBN:978-5-459-00334-5
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Алексей Кутовенко - Профессиональный поиск в Интернете краткое содержание
Найти нужную и актуальную информацию в Интернете порой очень непросто. Количество информационного мусора в Сети растет как снежный ком, и добраться до данных, которые вам действительно необходимы, используя традиционные Яндекс и Google, иногда просто невозможно. Книга, которую вы держите в руках, позволит увеличить эффективность вашего поиска информации в Интернете во много раз. Здесь описаны приемы, поисковые сайты и программы для специализированного поиска информации. Рассмотрены современные разновидности интернет-поиска: универсальный поиск, вертикальный поиск, метапоисковые системы, построение персональных поисковиков, поиск аудиовизуального контента, поиск по скрытому Интернету. Для всех рассмотренных систем приведены их характеристика и советы по максимально эффективному использованию.
Профессиональный поиск в Интернете - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Несмотря на свои недостатки – большой объем ручной работы и значительный временной промежуток в индексации внесенных в поиск проектов, – система Flexum способна стать мощной платформой для организации персонального тематического интернет-поиска. Предлагаемые Flexum «честное» скачивание и индексация дают автору полный и гибкий контроль над наполнением индексной базы. Такой вариант индексации особенно хорош для работы с «нераскрученными» проектами, которые зачастую недостаточно качественно индексируются крупными универсальными интернет-поисковиками.
Выводы и рекомендации
Главные достоинства средств персонального поиска – это уменьшение информационного шума в результатах поиска, а также возможность быстрого создания специализированных тематических поисковиков. Можно только порадоваться тому факту, что технологиями собственного интернет-поиска, каких-то несколько лет назад доступными только достаточно богатым корпорациям, теперь могут воспользоваться практически все желающие.
Персональный поиск – это замечательный инструмент, однако не стоит переоценивать его возможности. Как и у любых средств интернет-поиска, у него есть свои недостатки. Если сравнивать персональные поисковики со специализированными вертикальными поисковыми машинами, нетрудно заметить, что последние обладают рядом преимуществ. Для них, как правило, разрабатывают специализированные алгоритмы индексации и сортировки ресурсов, а зачастую предлагают и специализированные удобные интерфейсы, недоступные владельцам персональных поисковиков, в которых используются универсальные алгоритмы и типовые интерфейсы, что, безусловно, ограничивает их возможности.
Оба рассмотренных нами сервиса позволяют построить хороший персональный поисковик. В умелых руках они способны стать мощным средством тематического интернет-поиска. Различие их возможностей напрямую зависит от выбранной разработчиками данных систем модели индексирования ресурсов. Однозначно определить, который из предложенных подходов лучше, довольно сложно, поскольку каждый из них имеет свои достоинства и недостатки. Важно хорошо их представлять и выбирать систему персонального поиска, исходя из собственных потребностей.
При использовании Google CSE в нашем распоряжении – крупнейшая на сегодня индексная база интернет-страниц, плюс возможность добавлять к ней для индексирования собственные ресурсы. Благодаря этому обстоятельству персональный поиск можно начинать немедленно, затрат времени на предварительную индексацию выбранных сайтов здесь нет. Недостатки собственно системы Google Custom Search Engine, как это обычно водится, во многом являются продолжением ее достоинств. Ценой такого «быстрого старта» стала жесткая привязка к базе Google. Ограничивая круг поиска одной базой, мы автоматически отсекаем от результатов ресурсы, в силу тех или иных причин в нее не попавшие. Персональный поисковик оказывается полностью зависимым от качества работы индексирующего робота Google. Если определенный сайт не включается в базу либо индексируется поверхностно, мы ничего с этим поделать не можем, и в такой ситуации персональный поиск от Google бессилен.
Создание поисковика средствами Flexum занимает гораздо больше времени, поскольку, во-первых, обязательно потребуется составить полный список индексируемых сайтов, а во-вторых, системе нужно некоторое время на проведение индексации. Предлагаемая Flexum «честная» индексация дает пользователю полный и гибкий контроль над этим процессом, что может быть очень кстати, если вы планируете использовать какой-либо специфический набор сайтов. Для работы с небольшими и «малозаметными» веб-проектами система Flexum предпочтительней, чем Google. Кроме того, Flexum предлагает специальную льготную программу для тематических порталов, решивших построить свою систему поиска на этой платформе.
Глава 7
Поиск изображений
Интернет-поиск уже давно не ограничивается только текстовыми документами. Пожалуй, следующий по популярности тип контента – изображения. Сейчас можно насчитать три основных направления в развитии технологий интернет-поиска изображений – это индексация по косвенным признакам, построение разнообразных каталогов и контентный поиск изображений.
Индексация по косвенным признакам остается наиболее популярным способом поиска изображений. Этот способ широко представлен в вертикальных базах изображений универсальных интернет-поисковиков, благо практически все крупные машины предлагают такие возможности поиска. В данном варианте интернет-поиск изображений концептуально не отличается от поиска веб-страниц и других текстовых документов. Поисковик при индексации работает не с самим изображением, а с его косвенными признаками: именами графических файлов и тегами, присвоенными в HTML-разметке. Кроме того, анализируются подписи и текст, расположенный рядом с изображением на веб-странице, изучается текст гиперссылок, ведущих к той или иной картинке. Именно такие косвенные признаки изображения и заносятся в индексную базу, по которой затем ведется поиск при поступлении запросов от пользователей.
Подобные поисковики принимают запрос от пользователя в виде привычной текстовой строки, содержащей ключевые слова. Как правило, к характеристикам собственно изображений относятся только поля расширенного поиска, определяющие формат файла, размер изображения и другие подобные признаки.
Преимущества такого подхода понятны: его относительно проще реализовать. Кроме того, задействуются огромные индексные базы, что обеспечивает хороший охват поиска. Недостатки также очевидны: поскольку поиск идет по косвенным признакам, причем исключительно в автоматическом режиме, неизбежны информационный шум и ошибки.
Избавиться от неточностей и шума, свойственных автоматическому индексированию по косвенным признакам, можно несколькими способами. Один из них – включить в работу системы человека. Подробное описание картинок по заданной заранее схеме обычно имеет место в тематических галереях изображений. Перед включением изображения в базу данных на него заполняется своеобразная анкета, в которой содержится заранее отобранный список важных для поиска признаков и характеристик изображения. Такой способ позволяет качественно обработать как формальные свойства изображения, так и отразить его тематику. Благодаря четкой структуре описания обеспечивается достаточно высокая точность поиска. Если вам повезет найти по интересующей вас теме подобную специализированную галерею, эффективность поиска изображений вырастет в разы по сравнению с обычным универсальным поиском.
Читать дальшеИнтервал:
Закладка: