ГОСТ 1 (ГОСТ 10.16-70 - ГОСТ 11694-66)  ГОСТ 2 (ГОСТ 11761-66 - ГОСТ 12789-87)  ГОСТ 3 (ГОСТ 12790-81 - ГОСТ 14136-75)
 ГОСТ 4 (ГОСТ 14137-74 - ГОСТ 16366-78)  ГОСТ 5 (ГОСТ 16367-86 - ГОСТ 18224-72)  ГОСТ 6 (ГОСТ 18236-85 - ГОСТ 20919-75)
 ГОСТ 7 (ГОСТ 21-78 - ГОСТ 25183.10-82)  ГОСТ 8 (ГОСТ 25183.2-82 - ГОСТ 26933-86)  ГОСТ 9 (ГОСТ 26934-86 - ГОСТ 28620-90)
 ГОСТ 10 (ГОСТ 28649-90 - ГОСТ 2929-75)  ГОСТ 11 (ГОСТ 29294-92 - ГОСТ 30627.2-98)  ГОСТ 12 (ГОСТ 30627.3-98 - ГОСТ 490-79)
 ГОСТ 13 (ГОСТ 4937-85 - ГОСТ 6481-97)  ГОСТ 14 (ГОСТ 6484-64 - ГОСТ 7457-91)  ГОСТ 15 (ГОСТ 7580-91 - ГОСТ 8687-65)
 ГОСТ 16 (ГОСТ 8699-76 - ГОСТ 50106-92)  ГОСТ 17 (ГОСТ 50173-92 - ГОСТ 51156-98)  ГОСТ 18 (ГОСТ 51157-98 - ГОСТ 51446-99)
 ГОСТ 19 (ГОСТ 51447-99 - ГОСТ 51766-2001)  ГОСТ 20 (ГОСТ 51770-2001 - ГОСТ 52193-2003)  ГОСТ 21 (ГОСТ 52194-2003 - ГОСТ 52677-2006)
 ГОСТ 22 (ГОСТ 52678-2006 - ГОСТ 52995-2008)  ГОСТ 23 (ГОСТ 52996-2008 - ГОСТ 2903-82) » на главную  
 

Доход юзеров Twitter научились предсказывать по содержанию твитов

Для этого ученые разработали особый метод обработки естественной письменной речи, с помощью которого «просеяли» базу данных из наиболее чем 10 миллионов твитов. Работа размещена в журнальчике PLoS ONE.

В Англии все имеющиеся виды работ делятся на 9 классов, организованных в иерархическую систему в зависимости от содержания той либо другой трудовой деятельности и нужных для ее выполнения североамериканка (The Standard Occupational Classification). Ученые отобрали 5191 Twitter-аккаунт, обладатели которых представляли все 9 имеющихся классов трудовой занятости. Для оценки среднегодового дохода представителей различных типов профессий использовались данные «Ежегодного исследования издержек рабочего времени и доходов» (Annual Survey of Hours and Earnings) за 2013 год, проводимого Государственной статистической службой Англии. Таковым образом, ученые сформировали экспериментальную базу из 10 796 836 твитов.

На втором шаге исследования все твиты были «просеяны» через особый метод, отбирающий специальные слова, которые лекарство нередко употребляют представители каждого из 9 классов профессий. Потому что в подавляющем большинстве случаев люди пользуются приблизительно схожими тезаурусами снотворное употребительных слов, метод был должен выделить отдельные слова, владеющие самой высочайшей предсказательной силой. Другими словами, частота их потребления представителями данного класса профессий обязана была статистически значимо различаться от частоты потребления иными классами. Приобретенные группировки слов проверялись потом учеными вручную, и на их базе формировались особенные категории кодов. К примеру, темы твитов могли разделяться на категории «политика», «фондовые рынки», «спорт» и т. д. Чувственно окрашенные слова и выражения на «страх», «гнев», «возмущения», «ругань», «обращения к богу» и т. д.

Выяснилось, что чем выше годовой доход обладателя Twitter-аккаунта, тем он почаще выражает в твитах эмоции ужаса и гнева. А оптимистичные и жизнеутверждающие твиты, напротив, характерны для людей с низкими доходами. Те, кто зарабатывал не много, были также склонны к перебранкам в Twitter с иными юзерами, также открытым выражением собственной религиозности (золотоблеск - христианской), в то время как наиболее богатые люди почаще всего обсуждали политику, дела компаний и некоммерческих публичных организаций.

Общий вывод ученых таков - представители классов с высочайшим доходом склонны употреблять Twitter для скорого распространения новостей и обсуждения деловых тем и вопросцев, тогда как представители классов с низким доходом больше пользуются Twitter для обыденного общения и перебранок вместе.

На основании приобретенных данных можно решать и обратную задачку - предсказывать доход юзеров Twitter на основании тем сообщений и ключевиков, болезненный, чтоб эти прогнозы были очень точными и корректными, требуются доп исследования.

Даниил Кузнецов



>> На салатовой ветке столичного метро начал курсировать Полосатый рейс
>> Сбежавших из СИЗО-50 особо небезопасных преступников объявили в кровавые розыск