Мэттью Джокерс - Код бестселлера
- Название:Код бестселлера
- Автор:
- Жанр:
- Издательство:Литагент Аттикус
- Год:2017
- Город:Москва
- ISBN:978-5-389-13993-0
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Мэттью Джокерс - Код бестселлера краткое содержание
Используя компьютерную систему, которая читает книги, распознает в них определенные характеристики и просеивает тысячи таких характеристик в тысячах текстов, мы открыли, что существуют удивительные сочетания параметров, свойственные книгам, которые с наибольшей вероятностью будут пользоваться успехом на рынке. Наша система обрабатывала каждую книгу так, словно это новая, никому не известная рукопись, а затем не просто выносила один из двух вердиктов – “вероятно, бестселлер” или “скорее всего, нет”, – но и вычисляла индекс, указывающий, каковы шансы книги обрести популярность. Эти индексы сами по себе чрезвычайно интересны, и мы не только расскажем, как они устроены, но и объясним, что держит читателя как магнитом, заставляя переворачивать страницы одну за другой».
Джоди Арчер, Мэттью Л. Джокерс
Код бестселлера - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
18
Журнал книжной индустрии Publishers Weekly публикует список книг года – чемпионов по уровню продаж. ( Примеч. авторов. )
19
The Spy Who Came in from the Cold, John le Carré.
20
Lord of the Flies, William Golding.
21
On the Road, Jack Kerouac.
22
Animal Farm, George Orwell.
23
A Time to Kill, John Grisham.
24
Списки бестселлеров в разных странах немного различаются, но мы будем говорить исключительно о списке NYT, поскольку он неизменно играет роль культурного стандарта и наиболее важен для книжной отрасли. В интернете легко найти критику методов, по которым составляются подобные списки, поскольку ни один из них не покрывает абсолютно все продажи из всех источников. Список NYT учитывает примерно 75 % всех продаж и строится на данных Nielsen BookScan. ( Примеч. авторов. )
25
The Shack, William P. Young.
26
House of Leaves, Mark Z. Danielewski.
27
Jimmy Corrigan: The Smartest Kid on Earth, Chris Ware.
28
Определенный артикль в английском языке.
29
Предлог, в русском языке ему могут соответствовать разные предлоги, такие как «из», «от» и др. ( Примеч. перев. )
30
Общее описание нашего метода содержится в послесловии. ( Примеч. авторов. )
31
Неопределенный артикль в английском языке.
32
Предлог, в русском языке ему могут соответствовать разные предлоги, такие как «в», «через» и др. ( Примеч. перев. )
33
Она ( англ .).
34
Jane Eyre, Charlotte Brontё.
35
The Devil Wears Prada, Lauren Weisberger.
36
The Bonfire of the Vanities, Tom Wolfe.
37
The Quickie, James Patterson.
38
Extremely Loud & Incredibly Close, Jonathan Safran Foer.
39
Первую попытку выявления бестселлеров мы предприняли в первом нашем эксперименте, в Стэнфорде, еще в 2008 г. Наш корпус текстов состоял из 20 000 романов, но параметров для анализа у нас было гораздо меньше, всего 505. Такой большой корпус текстов был полезен для определенных видов анализа, но при этом он был составлен с уклоном в пользу более ранних периодов – в нем содержалось слишком много книг XIX века, а среди более современной литературы преобладали научная фантастика, фэнтези и любовные романы. Несмотря на эти недостатки, мы получили хорошие результаты: точность определения бестселлера колебалась в пределах 70–80 %.
При написании этой книги мы построили совершенно новый корпус текстов: более разнообразный и более современный. В нем содержалось почти 5000 произведений, в том числе электронные книги, не ставшие бестселлерами, романы, опубликованные традиционным путем, а также бестселлеры из списка NYT числом чуть больше 500. ( Примеч. авторов. )
40
Pride and Prejudice and Zombies, Seth Grahame-Smith.
41
Не знаю что ( фр .).
42
Джонсон Адам (р. 1967) – американский писатель, лауреат Пулитцеровской премии.
43
Многие методы, упомянутые в данной книге, описаны в учебнике авторства Мэтта «Text Analysis with R for Students of Literature». Этот учебник представляет собой вводное пособие в анализ текста и извлечение данных и предназначен для читателей, не имеющих подготовки в области компьютерных наук. Другая книга Мэтта, «Macroanalysis: Digital Methods and Literary History», содержит подробное описание методов, использованных нами в данной работе, в том числе моделирования темы (обсуждается во 2-й главе) и стилеметрии (в 4-й главе). Для тех, кому нужно еще более подробное описание методов, лежащих в основе наших исследований, мы рекомендуем труд Christopher Manning, Prabhakar Raghavan и Hinrich Schutze «Introduction to Information Retrieval» издательства Cambridge University Press, а также Gareth James, Daniela Witten, Trevor Hastie и Robert Tibshirani «An Introduction to Statistical Learning» издательства Springer. Обе эти книги требуют некоторого знакомства с предметом, но вместе они дают полный и очень хорошо написанный обзор дисциплин анализа текста и машинного обучения. ( Примеч. авторов. )
44
The Goldfinch, Donna Tartt.
45
Сокращение расшифровывается как «Стандарты и обмен информацией в книжном деле».
46
On Writing: A Memoir of the Craft, Stephen King.
47
To Kill a Mockingbird, Harper Lee.
48
В отдельных случаях примеры адаптированы для русского читателя. ( Примеч. ред .)
49
Мы использовали латентное размещение Дирихле – алгоритм моделирования тем, предложенный Дэвидом Блеем, сотрудником Колумбийского университета. Слово «латентный» в названии метода Блея отражает то, что некоторые темы могут присутствовать в тексте в неявном виде. ( Примеч. авторов. )
50
В 8-й главе своей книги «Macroanalysis: Digital Methods and Literary History» (UIUC Press, 2013) Мэтт более подробно описывает алгоритм моделирования тем. В 13-й главе своей книги «Text Analysis with R for Students of Literature» (Springer, 2014) Мэтт объясняет читателям, как проводить моделирование тем на алгоритмическом языке R (и как создавать словесные облака, которые вы увидите на этих страницах). Мэтт также опубликовал несколько объяснений для неспециалистов у себя в блоге ( www.matthewjockers.org), в том числе: «The LDA Buffet is Now Open; or, Latent Dirichlet Allocation for English Majors» (29.09.2011) и «“Secret” Recipe for Topic Modeling Themes» (12.04.2013). ( Примеч. авторов. )
51
A Clockwork Orange, Anthony Burgess. Использован перевод «Заводного апельсина», сделанный Е. Г. Синельщиковым.
52
A River Runs through It, Norman Maclean.
53
Rogue Lawyer, John Grisham.
54
All the Light We Cannot See, Anthony Doerr.
55
The Girl on the Train, Paula Hawkins.
56
Go Set a Watchman, Harper Lee.
57
The Nightingale, Kristin Hannah.
58
O Alquimista, Paulo Coelho.
59
Ready Player One, Ernest Cline.
60
Роман Селесты Инг. Everything I Never Told You, Celeste Ng.
61
Роман Кристины Бейкер Кляйн. Orphan Train, Christina Baker Kline.
62
Роман Колма Тойбина. Brooklyn, Colm Tóibín.
63
House Rules, Jodi Picoult.
64
Точность измеряется с помощью перекрестной проверки. В этом случае мы использовали два типа перекрестной проверки: в первом (скажем для читателей, которых интересуют подробности) сначала использовалось многократное обучение на случайной выборке 90 % книг, а затем проверка результатов на оставшихся 10 %. Во втором мы использовали принцип «все, кроме одной», заключавшийся в том, что мы обучали модель на множестве всех книг, изымая оттуда лишь по одной книге единомоментно. В обоих экспериментах успехом считалось, когда машина правильно угадывала класс (бестселлер или небестселлер) изъятой книги (или книг, при первом подходе). Это длительный и кропотливый процесс, включающий в себя обучение и испытание множества моделей. При обучении этих моделей нам приходилось использовать уже изданные книги, про которые было известно, стали они бестселлерами или нет. Первая модель была построена в 2011 г. Добавив в корпус текстов все бестселлеры и некоторое количество небестселлеров, вышедшие за следующие пять лет, мы смогли снова испытать модель и в каком-то смысле проверить, работают ли наши наблюдения, сделанные в 2011-м, для 2015 г. Оказалось, что да. Подкрепив свою уверенность с помощью перекрестной проверки, мы можем исследовать прогноз и связанные с ним показатели вероятностей для каждой книги. По поводу некоторых книг модель не смогла прийти к окончательному выводу, и такие книги получали индекс 51 %. Поскольку случайная догадка имеет вероятность 50 на 50, это не очень высокая степень уверенности. В таком случае мы исследовали все остальные характеристики текста – например стиль или сюжет, – прежде чем сделать вывод о вероятности успеха. Но для других книг модель прогнозировала индекс успеха с большой уверенностью и присваивала им соответствующий рейтинг. ( Примеч. авторов. )
Читать дальшеИнтервал:
Закладка: