Data Science
Data Science
Вопрос или проблема Я довольно новичок в пакете NLTK для Python и в NLP тоже (обычно я работаю в R, но для целей NLP и парсинга, возможно, Python более подходит). Я собираю статьи с венгерских новостных порталов и хочу создать облако слов, чтобы показать
Data Science
Вопрос или проблема У меня есть идея, но я не уверен, что ее можно смоделировать в архитектуре глубокого обучения. Предположим, у нас есть изображения разного качества, основанные на цветовом паттерне, и их оценка в качестве меток в диапазоне от 0 до 1.
Data Science
Вопрос или проблема Как мы знаем, сезонность в данных, что в основном означает цикл, является нестационарными данными. Я вижу несколько примеров в интернете, где я могу увидеть четкий цикл, но все равно это упоминается как стационарные данные, я не могу
Data Science
Вопрос или проблема Я самостоятельно изучаю материалы курса глубокого обучения Эндрю НГ из курса машинного обучения (CS 229) Стэнфорда. Материалы доступны здесь. У меня есть вопрос о технике цепного правила, использованной для вывода шага обратного распространения
Data Science
Вопрос или проблема Мой вопрос: можем ли мы использовать “обучение”, когда мы не применяем глубокое обучение или модели машинного обучения, а просто “обучаемся” на данных, используя базовую статистику? Хотя термин “
Data Science
Вопрос или проблема Я работаю над моделью, в которой исходные данные по своей природе коррелированы группами. Поэтому некоторые из моих наблюдений почти дублируют друг друга, но не совсем. Проблема довольно проста: у меня есть переменная y, которую нужно
Data Science
Вопрос или проблема https://en.wikipedia.org/wiki/Causal_model#Definition Википедия определяет каузальные модели как: упорядоченную тройку $\langle U, V, E\rangle$, где $U$ – это множество экзогенных переменных, значения которых определяются факторами вне модели;
Data Science
Вопрос или проблема Для нормального трансформера только с кодировщиком, такого как BERT, я знаю, что мы можем добавить токен CLS к входным данным, который “агрегирует” информацию из всех других токенов. Затем мы можем прикрепить MLP к этому
Data Science
Вопрос или проблема Я работаю над проектом, который включает применение моделей глубокого обучения. Я собрал обучающие данные. На собранных изображениях у меня больше одного объекта интереса. Я не совсем понимаю, как пометить эти изображения.
Data Science
Вопрос или проблема Вот пример набора данных, который похож на тот, который я использую. Назовем одну строку = один эксперимент. Я пытаюсь предсказать Y на основе признаков X1 до X7 Проблема, с которой я сталкиваюсь, очень похожа на эту, в том смысле
Data Science
Вопрос или проблема Это то, о чем я давно размышляю, но никогда не мог получить ответ. Я пытаюсь понять, как создать фрейм данных в R, где каждый элемент фрейма данных сам по себе является вектором или матрицей. Например, пусть у нас есть обычный вектор
Data Science
Вопрос или проблема Мы используем данные за целый год для предсказания определенной целевой переменной. Модель работает как данные – OneHot кодирование категориальных переменных – MinMaxScaler – PCA (для выбора подмножества из 2000 компонентов из 15к) –
Data Science
Вопрос или проблема У меня есть набор данных, который собирает ежедневные данные на основе транзакций между двумя субъектами. Я хочу выяснить силу, направление и вид отношения между двумя непрерывными переменными, т.е. количеством транзакций (No_of_transactions)
Data Science
Вопрос или проблема Я использую pySpark и настраиваю свою конфигурацию следующим образом: spark = (SparkSession.builder.master("local[*]") .config("spark.driver.memory", "20g") .config("spark.executor.memory", "10g") .config("spark.
Data Science
Вопрос или проблема У меня есть большой датафрейм с почти миллионом строк и 2000 столбцов. Я пытаюсь сделать отбор признаков, используя корреляцию между переменными. Проблема в том, что для набора из n признаков нам нужна корреляция между nC2 или n*(n-1)/2
Data Science
Вопрос или проблема У меня есть данные временного ряда, полученные из видео. Данные состоят из пар битрейтов и соответствующих меток для каждой временной метки: Распределение за первые 30 секунд выглядит следующим образом: Я построил модель LSTM для этого
Data Science
Вопрос или проблема Я читал раздел 14 книги Юрафски «Вопросы и ответы, извлечение информации и RAG» о точности и полноте и посмотрел это видео, чтобы понять 2 метрики, интерполяцию и среднюю точность. Это видеоОценка 9: когда полнота/точность вводит в
Data Science
Вопрос или проблема У меня есть модель бинарной классификации, которую я обучил на обучающем наборе. На валидационном наборе ее точность составляет примерно 85%. Я настроил раннее остановку, которая завершила обучение, когда потери на валидации увеличились.
Data Science
Вопрос или проблема Допустим, у меня есть набор данных, на котором я хочу провести классификацию: id признак класс фактор 1 … 1 A 2 … 1 B $\vdots$ Как я могу сравнить производительность модели, учитывая значения фактора?
Data Science
Вопрос или проблема В обучении с переносом мы всегда используем новые данные для повторной тренировки предварительно обученной модели. Но каково конкретное и официальное определение повторной тренировки? Или какие исследования упоминали это определение