Data Science
Завершите венгерский корень до настоящего слова.
00
Вопрос или проблема Я довольно новичок в пакете NLTK для Python и в NLP тоже (обычно я работаю в R, но для целей NLP и парсинга, возможно, Python более подходит). Я собираю статьи с венгерских новостных порталов и хочу создать облако слов, чтобы показать
Data Science
Модель DL для оценки качества изображения
00
Вопрос или проблема У меня есть идея, но я не уверен, что ее можно смоделировать в архитектуре глубокого обучения. Предположим, у нас есть изображения разного качества, основанные на цветовом паттерне, и их оценка в качестве меток в диапазоне от 0 до 1.
Data Science
Как стационарны циклические временные ряды?
00
Вопрос или проблема Как мы знаем, сезонность в данных, что в основном означает цикл, является нестационарными данными. Я вижу несколько примеров в интернете, где я могу увидеть четкий цикл, но все равно это упоминается как стационарные данные, я не могу
Data Science
(Глубокое обучение) Производная обратного распространения из заметок Эндрю НГ
00
Вопрос или проблема Я самостоятельно изучаю материалы курса глубокого обучения Эндрю НГ из курса машинного обучения (CS 229) Стэнфорда. Материалы доступны здесь. У меня есть вопрос о технике цепного правила, использованной для вывода шага обратного распространения
Data Science
Можем ли мы использовать термин “федеративное обучение” для решений, не связанных с машинным обучением?
00
Вопрос или проблема Мой вопрос: можем ли мы использовать “обучение”, когда мы не применяем глубокое обучение или модели машинного обучения, а просто “обучаемся” на данных, используя базовую статистику? Хотя термин “
Data Science
Обработка почти дублирующих наблюдений в регрессионной / байесовской модели
00
Вопрос или проблема Я работаю над моделью, в которой исходные данные по своей природе коррелированы группами. Поэтому некоторые из моих наблюдений почти дублируют друг друга, но не совсем. Проблема довольно проста: у меня есть переменная y, которую нужно
Data Science
Экзогенные и эндогенные переменные в структурной причинной модели
00
Вопрос или проблема https://en.wikipedia.org/wiki/Causal_model#Definition Википедия определяет каузальные модели как: упорядоченную тройку $\langle U, V, E\rangle$, где $U$ – это множество экзогенных переменных, значения которых определяются факторами вне модели;
Data Science
Как можно использовать TransformerXL для классификации текста?
02
Вопрос или проблема Для нормального трансформера только с кодировщиком, такого как BERT, я знаю, что мы можем добавить токен CLS к входным данным, который “агрегирует” информацию из всех других токенов. Затем мы можем прикрепить MLP к этому
Data Science
Как подготовить обучающие данные для моделей глубокого обучения
00
Вопрос или проблема Я работаю над проектом, который включает применение моделей глубокого обучения. Я собрал обучающие данные. На собранных изображениях у меня больше одного объекта интереса. Я не совсем понимаю, как пометить эти изображения.
Data Science
Как применить контролируемое машинное обучение, когда целевая переменная зависит от нескольких строк (с различным количеством строк)?
00
Вопрос или проблема Вот пример набора данных, который похож на тот, который я использую. Назовем одну строку = один эксперимент. Я пытаюсь предсказать Y на основе признаков X1 до X7 Проблема, с которой я сталкиваюсь, очень похожа на эту, в том смысле
Data Science
Как создать датафрейм с элементами в виде списков или векторов
00
Вопрос или проблема Это то, о чем я давно размышляю, но никогда не мог получить ответ. Я пытаюсь понять, как создать фрейм данных в R, где каждый элемент фрейма данных сам по себе является вектором или матрицей. Например, пусть у нас есть обычный вектор
Data Science
Структурирование данных эксперимента/обучения с учетом месяцев
00
Вопрос или проблема Мы используем данные за целый год для предсказания определенной целевой переменной. Модель работает как данные – OneHot кодирование категориальных переменных – MinMaxScaler – PCA (для выбора подмножества из 2000 компонентов из 15к) –
Data Science
Взаимосвязь между двумя непрерывными переменными в данных временных рядов
00
Вопрос или проблема У меня есть набор данных, который собирает ежедневные данные на основе транзакций между двумя субъектами. Я хочу выяснить силу, направление и вид отношения между двумя непрерывными переменными, т.е. количеством транзакций (No_of_transactions)
Data Science
Spark: Как запустить PCA параллельно? Используется только один поток.
00
Вопрос или проблема Я использую pySpark и настраиваю свою конфигурацию следующим образом: spark = (SparkSession.builder.master("local[*]") .config("spark.driver.memory", "20g") .config("spark.executor.memory", "10g") .config("spark.
Data Science
Оптимизированные алгоритмы для устранения признаков на основе корреляции
00
Вопрос или проблема У меня есть большой датафрейм с почти миллионом строк и 2000 столбцов. Я пытаюсь сделать отбор признаков, используя корреляцию между переменными. Проблема в том, что для набора из n признаков нам нужна корреляция между nC2 или n*(n-1)/2
Data Science
Мой набор данных не поддается обучению или моя модель LSTM недостаточно умная?
00
Вопрос или проблема У меня есть данные временного ряда, полученные из видео. Данные состоят из пар битрейтов и соответствующих меток для каждой временной метки: Распределение за первые 30 секунд выглядит следующим образом: Я построил модель LSTM для этого
Data Science
Пороговые стратегии в определении точности и полноты
00
Вопрос или проблема Я читал раздел 14 книги Юрафски «Вопросы и ответы, извлечение информации и RAG» о точности и полноте и посмотрел это видео, чтобы понять 2 метрики, интерполяцию и среднюю точность. Это видеоОценка 9: когда полнота/точность вводит в
Data Science
Частая дообучаемость на новых данных может привести к переобучению?
00
Вопрос или проблема У меня есть модель бинарной классификации, которую я обучил на обучающем наборе. На валидационном наборе ее точность составляет примерно 85%. Я настроил раннее остановку, которая завершила обучение, когда потери на валидации увеличились.
Data Science
Сравните производительность классификации подмножеств данных на основе факторов.
00
Вопрос или проблема Допустим, у меня есть набор данных, на котором я хочу провести классификацию: id признак класс фактор 1 … 1 A 2 … 1 B $\vdots$ Как я могу сравнить производительность модели, учитывая значения фактора?
Data Science
Каково определение повторной подготовки?
00
Вопрос или проблема В обучении с переносом мы всегда используем новые данные для повторной тренировки предварительно обученной модели. Но каково конкретное и официальное определение повторной тренировки? Или какие исследования упоминали это определение