Вопрос или проблема
Моя цель заключается в том, чтобы оценить различия в том, как пять политических партий используют моральные слова в своих твитах и речах. С этой целью я использую словарь, который применяю к каждому тексту твита / аудиотранскрипции с помощью регулярных выражений (это важно, потому что аудиотранскрипции немного шумные и я не могу использовать мешок слов) и получаю частоты, с которыми упоминается каждое моральное значение. Позже я воспользуюсь интервалами Тьюки HSD для оценки различий между партиями. Тем не менее, моя самая большая проблема заключается в том, следует ли мне сравнивать абсолютные или относительные частоты слов. Относительные частоты, кажется, являются правильным выбором, потому что они позволяют понять, насколько часто используется каждое моральное значение с учетом длины текста / аудио. Но с другой стороны, абсолютные различия тоже интересны (особенно в случае аудиозаписей, которые могут быть шумными и не полностью отражать общую длину текстов и аудиозаписей в соответствии с пробелами). Есть ли какие-либо рекомендации, которым следует следовать здесь?
Некоторые моменты, которые я могу отметить
- Найдите схожесть слов, используя gensim. Ваш словарь может не содержать всех слов
Ответ или решение
При оценке различий в использовании моральных слов в твитах и речах пяти политических партий важно правильно выбрать метод анализа частот — относительные или абсолютные частоты. Выбор между этими подходами зависит от конкретных целей вашего исследования, а также от характера данных, с которыми вы работаете. В данном ответе мы рассмотрим основные моменты, которые помогут вам принять обоснованное решение.
Понимание абсолютных и относительных частот
Абсолютные частоты представляют собой простое количество упоминаний каждого морального значения в тексте или аудиозаписи. Это может быть полезно для выявления конкретных паттернов использования в абсолютных терминах. Например, если одна партия использует моральное слово «справедливость» 50 раз, а другая — 30 раз, это указывает на явное предпочтение первой партии к этому значению.
Относительные частоты, с другой стороны, нормализуют данные с учетом длины текста или аудиозаписи. Они рассчитываются как отношение количества упоминаний морального слова к общему количеству слов в тексте. Этот подход позволяет сравнивать разные работы на более справедливой основе, особенно когда длина текстов или аудиозаписей различается. Например, если первая партия имеет 10% упоминаний «справедливости» в длинном тексте, а вторая партия — 15% в более коротком тексте, относительные частоты помогут вам более точно оценить использование морального значения между ними.
Рекомендации по выбору частот
-
Цель исследования: Если ваша основная цель — выявить, как именно партии используют моральные слова, то относительные частоты могут быть более информативными. Если же вы заинтересованы в сравнении количества использования слов для всякой отдельной партии, абсолютные частоты могут предоставить ценную информацию.
-
Длина текстов: В вашем случае, учитывая, что аудиозаписи могут быть шумными и не всегда точно отражают общее количество слов, стоит использовать относительные частоты. Это позволит избежать перекосов, связанных с различиями в длине текстов и качестве транскрипции.
-
Контекст и анализ: Использование инструментов, таких как gensim, для нахождения семантической близости слов может помочь дополнить ваш анализ. Ваш словарь может не охватывать все возможные подходящие термины, и подобные алгоритмы могут выявить скрытые связи и сводные значения, которые помогут в оценке моральных контекстов.
Заключение
Сравнение относительных частот обычно является более надежным подходом к изучению различий в использовании моральных слов в твитах и речах, так как они учитывают длину текстов и аудиозаписей, снижая вероятность искажений, вызванных шумом. Однако, если абсолютные частоты могут предоставить дополнительную ценность, их следует рассматривать как дополнительный критерий для понимания уникального контекста каждой партии. Выбор метода должен опираться на ваши исследовательские цели и характеристики ваших данных.