Урок 6 / Параграф 1
Майнинг данных
Данные — новое золото. Эффективно работать с информацией теперь важнее, чем знать три языка или закончить университет с красным дипломом.
Навык обработки большого массива информации стал базовым для любой профессии, даже в сферах, далёких от IT. Работа над дипломом — ни что иное, как работа с данными. Если относиться к диплому как к возможности стать джуниором от мира аналитики, то вопрос «Как это пригодится в жизни?» отпадает сам собой.
Не стоит обольщаться: пролистать сотню научных статей и несколько десятков страниц финансовой отчётности для написания диплома — не значит работать с Big Data. Тем не менее в основе «дипломной аналитики» лежат аналогичные принципы, что и во взрослой Data Science.
Неважно какой объём и тип информации ты используешь. Информация должна работать на решение проблемы.
Где искать информацию?
Есть два вида исследований — кабинетные и полевые. Такое разделение принято в маркетинге и социологии, но справедливо для описания исследований в любой сфере.
Кабинетное исследование — анализ вторичной информации. Для написания студенческих работ такой метод применяют чаще всего. Вторичная информация — уже готовые данные, например статьи или финансовые отчёты компаний. Основные источники поиска:
- научные статьи из КиберЛенинки и Google Scholar
- информация из СМИ и социальных медиа
- отчёты и пресс-релизы компаний
- готовые исследования информационных агентств
- статистические данные
- данные переписи населения
- тексты законов и подзаконных актов
- комментарии экспертов.
Плюсы кабинетных исследований | Минусы кабинетных исследований |
---|---|
Можно быстро получить нужную информацию | Практически невозможно получить узкие локальные данные |
Данные собраны профессионалами | Не подходят для многих специальностей и тем |
Можно найти уже готовые прогнозы и описания трендов | Нужно проверять достоверность данных и авторитет источника |
Позволяют оценить развитие изучаемого явления в прошлом | Хорошие исследования нужно покупать |