LibKing » Книги » comp_www » А. Артемов - Мониторинг информации в Интернете

А. Артемов - Мониторинг информации в Интернете

Тут можно читать онлайн А. Артемов - Мониторинг информации в Интернете - бесплатно ознакомительный отрывок. Жанр: Www, издательство Array Литагент «МАБИВ», год 2014. Здесь Вы можете читать ознакомительный отрывок из книги ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте LibKing.Ru (ЛибКинг) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
А. Артемов - Мониторинг информации в Интернете
  • Название:
    Мониторинг информации в Интернете
  • Автор:
  • Жанр:
  • Издательство:
    Array Литагент «МАБИВ»
  • Год:
    2014
  • ISBN:
    нет данных
  • Рейтинг:
    4/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Ваша оценка:

А. Артемов - Мониторинг информации в Интернете краткое содержание

Мониторинг информации в Интернете - описание и краткое содержание, автор А. Артемов, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
В данном пособии рассматриваются принципы организации и поиска информации в интернете, приводится описание языков запросов поисковой машины Яндекс, Гугл, Рамблер. Предназначено для преподавателей и студентов вузов всех специальностей, руководителей и менеджеров компаний, специалистов по безопасности, а также для широкого круга лиц, работающих в сети Интернет.

Мониторинг информации в Интернете - читать онлайн бесплатно ознакомительный отрывок

Мониторинг информации в Интернете - читать книгу онлайн бесплатно (ознакомительный отрывок), автор А. Артемов
Тёмная тема

Шрифт:

Сбросить

Интервал:

Закладка:

Сделать

В реальности ситуация, похоже, складывается иначе.

Тест: вводим по-русски букву [в]

Результат:

Результаты 1 – 10 из примерно 48 600 000 для в.

Вводим по-английски артикль [the]

Результат:

Результаты 1 – 10 из примерно 8 670 000 000 для the.

7. Оператор «Плюс» (+).

Тем не менее, бывают ситуации, когда надо принудительно включить в текст какое-либо слово, которое может иметь варианты написания. В хэлпе Гугла приводится пример с запросом «Star Wars Episode I», где римская единица представляет собой латинскую букву «I» («ай»). Если сделать запрос просто как:

[Star Wars Episode I], – то результат будет следующий:

Результаты 1 – 10 из примерно 13 200 000 для Star Wars Episode I.

В том числе в выдаче появятся слова «Episode II», «Episode IV» и т. п.

Если сделать запрос: [Star Wars Episode +I], – то результат будет такой:

Результаты 1 – 10 из примерно 9 290 000 для Star Wars Episode +I.

И в него войдут только тексты, содержащие слово «Episode I».

8. Морфология слов.

Гугл не поддерживает морфологию слов. Их изначально следует вводить в нужных формах. Правда, отчасти это компенсируется интеллектуальной системой поиска, которая может найти нужную словоформу в ссылках на страницу. Чтобы проверить утверждение об отсутствии поддержки морфологии, возьмем такое языковое сочетание, по которому можно увидеть все без исключения результаты. А сочетание следующее: «Глоклая куздра».

Тест:

Запрос:

[глоклая куздра]

Результаты 1–4 из примерно 16 для глоклая куздра.

В выдаче три адреса:

1. www.flame.ws/txt/index.php/t737.html

2.

www.dom.no/modules.php?name=Forums&file=viewtopic&p=31986&highligh t=

3. www.gb.anekdot.ru/vm.html?file=vm&date=1998-08-07

Запрос: [глоклую куздру]

Результаты 1–1 из 1 для глоклую куздру.

В выдаче один адрес:

gb.anekdot.ru/vm.html?file=vm&date=1998-08-07

Запрос:

[глоклой куздре]

Результат: Не найдено ни одного документа, соответствующего запросу глоклой куздре.

Правда, это не мешает Гуглу иногда выделять по запросу «площадь» слово «площади» как релевантное. Однако подобное встречается на странице выдачи, но не в кэше. Просто для сравнения приведем результат Яндекса. По всем трем запросам о «глоклой куздре» система дала на момент написания книги одинаковый результат:

Результат поиска: страниц – 13, сайтов – не менее 5.

9. Улучшение запроса во время поиска.

Поскольку Гугл выдает все слова, которые вы вводите в запросе, имеет смысл составлять новые запросы, содержащие те слова, которые вы забыли ввести в начале поиска, но обнаружили в ходе его выполнения в найденных текстах. В ряде случаев это помогает улучшить результат. Подчеркнем особо – это должны быть именно отдельные запросы.

Добавление же новых слов к уже имеющемуся списку порой приводит к излишнему сужению диапазона результатов, ведь Гугл будет пытаться выдать документ, в котором содержатся все искомые слова.

10. Исключение слов из запроса. Логическое «НЕ».

Как известно, часто при составлении запроса встречается информационный мусор. Чтобы его удалить, стандартно используется оператор исключения – логическое «НЕ». В Гугле такой оператор представлен знаком «минус». Здесь он идентичен поисковому механизму Яндекса «двойная тильда» («~~»), исключающему слово из всего документа.

Используя его, можно исключать из результатов поиска те страницы, которые содержат в тексте определенные слова.

Тест:

Запрос:

[Журавль колодец]

Результаты 1 – 10 из примерно 778 для Журавль колодец.

Запрос:

[Журавль колодец-птица]

Результаты 1 – 10 из примерно 715 для Журавль колодец – птица.

Запрос:

[Журавль – колодец-птица]

Результаты 1 – 10 из примерно 120 000 для Журавль – колодец – птица.

Запрос:

[Журавль – колодец-птица – птиц]

Результаты 1 – 10 из примерно 106 000 для Журавль – колодец – птица – птиц.

Запрос:

[Журавль – колодец – птица – птиц – журавли]

Результаты 1 – 10 из примерно 104 000 для Журавль-колодец-птица-птиц-журавли.

11. Поиск точной фразы.

Найти точную фразу, как мы уже говорили, требуется либо для поиска текста определенного произведения, либо для поиска определенных продуктов или компаний, в которых название или часть описания представляет собой стабильно повторяющееся словосочетание. В отличие от Яндекса, который может менять формы слов, входящих в текст, заключенный в кавычки, Гугл такой способностью не обладает. Мы отмечали, что эта система словоформы вообще не поддерживает.

Чтобы справиться с поиском точной фразы при помощи Гугла, требуется заключить запрос в кавычки (имеются в виду двойные кавычки, которые применяются, например, для выделения прямой речи).

Забавным, но показательным примером может быть задание из учебника русского языка для 7 класса под ред. Н. М. Шанского, где на стр. 45 предлагается разделить текст на абзацы. Автор – М. Шолохов. Произведение не указано. Приведем фрагмент текста:

[ «За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки.»].

Введем этот текст в кавычках в Гугл и получим следующий результат:

Результаты 1 – 10 из примерно 15 для «За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки». Как выяснилось, этот фрагмент относится к произведению «Тихий дон» (книга четвертая).

Курьез же состоит в том, что у М. Шолохова этот текст оказался вообще не разбитым на абзацы.

Гугл воспринимает в качестве знаков, связывающих слова в единую фразу, не только кавычки, но и такие символы, как дефис, слэш (косая черта), точка, знак равенства, апостроф.

Результаты 1 – 10 из примерно 27 400 для мать-и-мачеха.

Результаты 1 – 10 из примерно 27 300 для мать/и/мачеха.

Результаты 1 – 10 из примерно 27 300 для мать=и=мачеха.

Результаты 1 – 10 из примерно 27 300 для мать.и. мачеха.

Результаты 1 – 10 из примерно 27 300 для мать'и'мачеха.

Во всех вышеприведенных случаях первым в выдаче стоит текст, фрагмент которого приведен ниже:

«Мать-и-мачеха (Tussilago farfara) – одно из самых раноцветущих растений: зацветает в… Как лекарственное растение мать-и-мачеха применяется, прежде всего,…».

При этом все три слова: «мать», «и», «мачеха» – рассматриваются как отдельные, но стоящие рядом и в этой же самой последовательности. Интересно, что по запросу: [мать-и-мачеха] – оказалось на 100 документов больше, чем по остальным, но если взять это слово в кавычки, то результат уравнивается:

Результаты 1 – 10 из примерно 27 300 для «мать-и-мачеха». Чтобы прояснить этот казус, введем следующий запрос: [мать-и-мачеха «мать-и-мачеха»]. В итоге получим: Результаты 1 – 10 из примерно 27 для мать-и-мачеха – «мать-и-мачеха».

Читать дальше
Тёмная тема

Шрифт:

Сбросить

Интервал:

Закладка:

Сделать


А. Артемов читать все книги автора по порядку

А. Артемов - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Мониторинг информации в Интернете отзывы


Отзывы читателей о книге Мониторинг информации в Интернете, автор: А. Артемов. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
Большинство книг на сайте опубликовано легально на правах партнёрской программы ЛитРес. Если Ваша книга была опубликована с нарушениями авторских прав, пожалуйста, направьте Вашу жалобу на PGEgaHJlZj0ibWFpbHRvOmFidXNlQGxpYmtpbmcucnUiIHJlbD0ibm9mb2xsb3ciPmFidXNlQGxpYmtpbmcucnU8L2E+ или заполните форму обратной связи.
img img img img img