feature-engineering
Data Science
Вопрос или проблема У меня есть признак, который имеет определенные категориальные значения, например (Технологии, Оборудование, Программное обеспечение, Маркетинг, События и т.д.). На основе этого и некоторых других признаков я пытаюсь классифицировать
Data Science
Вопрос или проблема (Простите, если вопрос сформулирован неудачно. Я новичок в области Data Science. Пожалуйста, прокомментируйте или отредактируйте, чтобы улучшить вопрос) У меня есть набор данных, где необходимо предсказать будущую продажу магазина. “
Data Science
Вопрос или проблема Почему при создании признаков и извлечении признаков я не должен использовать Ид в таких задачах, как регрессия Ид, как имя человека, обычно является уникальным идентификатором, не имеющим значимого отношения к целевой переменной.
Data Science
Вопрос или проблема Как мне выполнить кодирование для категории, если данные содержат повторяющиеся строки? Могу ли я выполнить целевое кодирование? Или могу использовать другое кодирование? Я хочу выяснить, как включить категориальную переменную в модель
Data Science
Вопрос или проблема Нужен совет по лучшему способу представления представленных ниже данных для подачи в алгоритм машинного обучения (который еще предстоит выбрать). Это связано с процессом онлайн-заказов. Заказ состоит из набора переменного количества товаров.
Data Science
Вопрос или проблема Я хочу оценить важность каждой из признаков в наборе данных 2000×60 в задаче классификации с использованием случайного леса. Самыми широко используемыми, по всей видимости, являются: Кросс-энтропия –
Data Science
Вопрос или проблема Я работаю с моделью распознавания эмоций на датасете IEMOCAP. Для извлечения признаков я беру мел-спектрограмму, затем преобразую её в массив NumPy и преобразую массив в датафрейм признаков спектрограммы. Сгенерированный датафрейм
Data Science
Вопрос или проблема Я строю модель, которая имеет в качестве входных данных некоторые категориальные переменные. Я уже имел дело с такими данными раньше и применял различные техники, такие как создание фиктивных переменных и факторное оценивание.
Data Science
Вопрос или проблема В настоящее время я работаю над проектом, в котором использую LSTM для обучения и предсказания последовательностей категориальных данных. Мой набор данных состоит из последовательностей переменной длины элементов $s_i = [x_{i_0}, x_{i_1}, …
Data Science
Вопрос или проблема Я работаю над практической задачей по машинному обучению с https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/#ProblemStatement Я хочу заменить нулевые значения в столбце ‘
Data Science
Вопрос или проблема У меня есть набор данных из N столбцов. Теперь я могу предобрабатывать данные и находить подмножество признаков, которые могу использовать для обучения модели и выполнения предсказаний. В случае, если в обучающих данных отсутствуют
Data Science
Вопрос или проблема Мне интересно, есть ли смысл создавать комбинированные признаки из нескольких категориальных переменных, когда отдельные категориальные переменные уже закодированы методом one-hot? Простой пример: есть переменная P с категориями {X
Data Science
Вопрос или проблема Я работаю над классификатором документов, который может выполнять классификацию на основе структуры документа. Мой план состоит в том, чтобы получить векторное представление слов, а также координаты слов и как-то комбинировать эти
Data Science
Вопрос или проблема Я разрабатываю систему рекомендаций, в которой есть несколько категорий. Я хотел бы узнать, насколько популярен продукт в каждой категории. Для этого я рассматриваю вероятность как один из факторов. Например, у меня есть 3 категории
Data Science
Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.
Data Science
Вопрос или проблема Учитывая набор данных с 100 наблюдениями и 3 признаками плюс одна метка (регрессия), мы обучаем модель на данных 100 * 4 (3 признака + 1 метка). Теперь можем ли мы предсказать признаки, когда метка задана в качестве входных данных.
Data Science
Вопрос или проблема Я приведу крайне упрощенный пример, чтобы проиллюстрировать вопрос, но я думаю, что ответ должен быть актуален и для более обобщенных случаев. Предположим, я хочу создать регрессионную модель временного ряда (сама модель не имеет значения
Data Science
Вопрос или проблема Я хочу преобразовать некоторые значения признаков в своей модели, используя кубический корень, чтобы уменьшить некоторую асимметрию в своих данных. Однако я заметил, что после того, как я применяю кубический корень к определенным признакам
Data Science
Вопрос или проблема Я пытаюсь найти общепринятые техники для работы с многоценностными категориальными переменными с высокой кардинальностью. В данный момент я использую набор данных с признаком CATEGORY, который имеет кардинальность около 20,000.
Data Science
Вопрос или проблема Я работал над задачей идентификации именованных сущностей (а не распознавания). В этой задаче обработки естественного языка (NLP) модели дано предложение, и она должна предсказать, является ли каждое слово (или токен) именованной сущностью или нет.