Коллектив Авторов - Цифровой журнал «Компьютерра» № 135

Тут можно читать онлайн Коллектив Авторов - Цифровой журнал «Компьютерра» № 135 - бесплатно полную версию книги (целиком) без сокращений. Жанр: Прочая околокомпьтерная литература. Здесь Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Коллектив Авторов - Цифровой журнал «Компьютерра» № 135 краткое содержание

Цифровой журнал «Компьютерра» № 135 - описание и краткое содержание, автор Коллектив Авторов, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
ОглавлениеИнтервью

Генеральный директор ABBYY Россия о будущем OCR и облачных сервисах Автор: Андрей Письменный

Колумнисты

Василий Щепетнёв: Рядом с троллем Автор: Василий Щепетнев

Дмитрий Шабанов: «Чувствую какую-то неизбежность...» Автор: Дмитрий Шабанов

Кафедра Ваннаха: Пропустившие взлёт Автор: Михаил Ваннах

Дмитрий Вибе: Ненаблюдавшиеся компаньоны Автор: Дмитрий Вибе

Голубятня-Онлайн

Голубятня: О блогерстве Автор: Сергей Голубицкий

Голубятня: Кококо с Жимини Автор: Сергей Голубицкий

Цифровой журнал «Компьютерра» № 135 - читать онлайн бесплатно полную версию (весь текст целиком)

Цифровой журнал «Компьютерра» № 135 - читать книгу онлайн бесплатно, автор Коллектив Авторов
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

- Как вы расцениваете угрозу появления бесплатных OCR? Google, к примеру, такой уже предоставляет.

- Мы зарабатываем достаточно много денег на применении этой технологии в бизнесе. И когда речь идёт о бизнесе, то продукт высокого качества бесплатно никто не раздаёт. И требования здесь довольно высоки: если, например, в документе приходится перепечатывать хотя бы несколько символов на каждой странице, то технология уже считается непригодной для использования в реальных условиях. Мы познакомились с тем, как работает распознавание на Google Docs. Идея хорошая, но сервису есть куда расти по качеству. Зато бесплатные решения могут популяризовать технологию в целом. Многим пользователям ещё нужно объяснять, чем отсканированный документ отличается от текста. Индивидуального пользователя может и устроить бесплатное решение, но он поймёт принцип. И если бесплатный продукт будет предоставлять недостаточное качество, то он воспользуется платным.

- То есть это ещё может оказаться плюсом?

- В принципе, да, нам кажется, что это скорее плюс, чем минус. Конечно, если Google будет вкладываться в улучшение этой технологии, не получая за это денег, то это усложнит нашу жизнь. Но у нас есть очень большой сегмент бизнес-применения технологии, а там помимо простого распознавания текста нужно извлекать разные наборы данных, сопоставлять их между собой. Если это многостраничный документ, то иногда нужно проверять самые разные вещи: сходится ли контрольная сумма, соответствуют ли значения на пятой странице значениям на первой и так далее. Это дополнительная бизнес-логика, которая накладывается сверху на процесс распознавания и задаётся специальным языком описания документов. За это организации (государственные или частные) готовы платить большие деньги, потому что иначе у них альтернатива только одна — дать эту работу человеку. А это куда менее эффективно.

- Но проверять-то всё равно надо, если такие важные документы.

- Да. Но дело в том, что технологии распознавания живут достаточно просто: неуверенно распознанные символы или те куски информации, которые между собой не согласуются, подсвечиваются, и их видит человек-оператор — ему не нужно даже смотреть документ целиком. Это экономит много времени. Учитывая, что количество и темпы роста информации с каждым годом принимают всё более угрожающие формы, мы думаем, что бизнес-применение у этой технологии как минимум достаточно светлое — на десяток-второй лет так точно. А дальше посмотрим.

- Как вы оцениваете другие рынки распознавания: распознавание речи, лиц, предметов на изображениях и так далее? Сейчас со всей этой шумихой вокруг дополненной реальности, возможно, был бы востребован такой сервис.

- Это интересные области, но мы в них усилия не вкладываем. Хоть вроде бы все они носят общее название, но подходы в них применяются совсем разные. Вот, например, систему распознавания текстов может написать и студент университета, руководствуясь теоретическими знаниями. Вопрос в том, кто создаст наиболее высокое качество этого решения: все бьются за последние проценты и даже доли процентов. У нас же есть другие интересные направления, связанные с анализом информации. Есть технология ABBYY Compreno, которая в том числе позволяет проводить семантический анализ текстов. Эти технологии в том числе позволят и более качественно решать задачи, например, распознавания речи. Хоть мы сами распознаванием речи не занимаемся, но предполагаем, что те компании, которые занимаются, будут активно обращаться к нам. Для распознавания речи очень важен контекст, он значительно облегчает задачу.

- То есть система, сделанная для перевода, поможет облегчить и распознавание?

- Да. Перевод был изначальной целью создания ABBYY Compreno, но чем дальше мы заходили, тем лучше видели, что можно получить эффекты и в других, смежных областях. Идея того, что текст на любом языке трансформировался в объекты на универсальном дереве смысловых понятий, привела нас к тому, что и поиск можно делать по смысловым понятиям, и сравнение документов, и, например, автоматическую расстановку тегов в документах. Когда у людей много электронных документов, сохраняемых на сервере, заставить каждого пользователя расставлять теги невозможно. Зато можно все документы пропускать через некоторый фильтр, который будет говорить, что этот документ на эту тему с такими-то ключевыми понятиями, автоматически расставляя теги.

- И от этого мы переходим к следующей и ещё более интересной вещи — поиску. Можно, выходит, сделать поисковик, который понимает, что написано на странице?

- Да, это одна из интересных задач. Сейчас что-то найти в интернете становится всё сложнее. Во-первых, приходится задавать вопрос не на человеческом языке, а упрощать его. Несколько месяцев назад у меня вышел из строя аккумулятор от мотоцикла. И я подумал: надо бы посмотреть, как его правильно заряжать в зимнее время. Начал искать, но находились только страницы о том, как купить новый аккумулятор, но не как заряжать его. Поисковые системы нового поколения будут искать, основываясь на семантическом индексе. С одной стороны, они из-за этого будут требовать больше ресурсов для своей работы: наша практика показывает, что семантический индекс в несколько раз превышает объёмы начального документа, ведь чтобы построить все взаимосвязи между понятиями, нужно много и вычислительных ресурсов, и места, чтобы хранить такой сложный индекс. С другой стороны, эти поисковики будут выдавать, во-первых, более релевантные результаты, а во-вторых, можно будет решать и более сложные задачи. К примеру, когда запрос сформулирован на одном языке, система всё равно поймёт, что за понятия в этом запросе, и сможет найти их в документах и на других языках, поддерживаемых системой. Если всё это будет сочетаться с переводом, то на запрос, построенный на одном языке, может быть получен релевантный ответ в виде документов на разных языках, автоматически переведённых на нужный.

- То есть можно сказать, что ABBYY — это потенциально следующий Google?

- Вряд ли мы будем как Google, мы не пишем свою поисковую систему. Мы, скорее всего, будем работать с кем-то, кто уже имеет поисковую инфраструктуру.

- Мне кажется, что я даже знаю, кто это может быть!

- Ну да, есть компании. Кроме того, хотел бы отметить, что кроме задач поиска информации частными пользователями есть ещё задачи корпоративного поиска. У организаций есть внутренние базы, в которых нужно осуществлять поиск и которые они, понятное дело, никакой внешней поисковой системе не выдадут. Однако часто бывает, что в интернете найти что-то быстрее, чем у себя на компьютере, — я не раз слышал такие жалобы. Я думаю, такие клиенты тоже будут заинтересованы в нашей технологии, в том, чтобы встраивать технологии интеллектуального и многоязычного поиска, извлечения фактов и связей между фактами в решения, обеспечивающие поиск корпоративной информации. Я бы даже сказал, что в большей степени мы ориентируемся не на массовый, а на корпоративный рынок.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Коллектив Авторов читать все книги автора по порядку

Коллектив Авторов - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Цифровой журнал «Компьютерра» № 135 отзывы


Отзывы читателей о книге Цифровой журнал «Компьютерра» № 135, автор: Коллектив Авторов. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x