Data Science

Избегание переобучения в неконтролируемом машинном обучении

00

Вопрос или проблема Я использую метод несупервизированного распознавания шаблонов для создания торговой стратегии. Я использую результаты совпадения шаблонов, чтобы решить, стоит ли входить в сделку. Для выбора лучших параметров шаблонов я запускаю несколько

Data Science

Автоматический поиск зависимостей между произвольными признаками

00

Вопрос или проблема Дан тензор третьего ранга с размерами $x,y,z$. Где: $x$: количество графов (количество выборок) $y$: количество узлов/векторов/признаков (скажем, $5$: $a, b, c, d,$ и $e$) $z$: размерность вложения (например, $2$ для декартовой плоскости

Data Science

Машинное обучение в TensorFlow

00

Вопрос или проблема Я выполняю работу, основанную на анализе различных библиотек Python для машинного обучения. Я выбрал для анализа Scikit-Learn, Keras, Tensorflow и Pytorch, так как они наиболее известны. Идея заключалась в обучении различных моделей

Data Science

Модель кодирования LLM цитируется в статье ACM, но не хватает деталей.

01

Вопрос или проблема В этой статье An Exploration of Large Language Models in Malicious Source Code Detection упоминается “code-mutl-model”, но они не предоставляют информацию о происхождении этой модели (аналогично code-llama).

Data Science

пандас датафрейм ничего не показывает, когда просматривается как датафрейм в PyCharm

00

Вопрос или проблема import pandas as pd; dataSet = pd.read_csv("winequality-red.csv"); dataSet.describe(include="all"); Когда просматриваю набор данных в виде фрейма данных, он показывает пустую таблицу. Но при выводе dataSet я получаю следующий результат. <

Data Science

Распределение вероятностей

00

Вопрос или проблема Просто хотел узнать, распределены ли значения, которые мы получаем, передавая, например, random.normal(shape=(3,2)) в Tensorflow и др., нормально, или же они случайно выбраны из набора значений, которые нормально распределены?

Data Science

Уменьшение ложных срабатываний с помощью модели распознавания именованных сущностей с аннотацией.

00

Вопрос или проблема Я обучаю модель NER для обнаружения упомянутых фраз и сленговых слов в исследовании предвзятости, проведенном на судебных делах. По сути, у меня есть пакеты текста, которые я отсканировал, и это полные протоколы.

Data Science

Как обрабатывать неопределённые значения, которые имеют смысл?

00

Вопрос или проблема В настоящее время я пытаюсь создать несколько функций для улучшения производительности модели. Одна из этих функций, которую я хотел бы создать, соответствует разнице в днях между покупкой клиента и его последней покупкой.

Data Science

Форма сглаженного слоя в CNN

00

Вопрос или проблема Если у меня есть сверточный слой с размерностью (5,5,4), (т.е. 4 блока признаков размером 5x5x1), какой будет размер сглаженного слоя, если я применю сглаживание к сверточному слою? Для простой свертки (игнорируя padding и шаг), размерность

Data Science

Тонкая настройка GPT на данных эскизов (штрих-3)

00

Вопрос или проблема В эти последние дни я начал личный проект, в рамках которого хотел бы создать модель, которая, получив незавершенный эскиз, сможет его закончить. Я планировал использовать некоторые предварительно обученные модели, доступные в HuggingFace

Data Science

Изображение с метками пикселей необходимо для семантической сегментации с использованием глубокого обучения в Matlab.

00

Вопрос или проблема У меня есть большой набор КТ-изображений, содержащих области легких. Но у меня нет соответствующих пиксельно отмеченных изображений. Как я могу выполнить семантическую сегментацию, используя глубокое обучение в MATLAB?

Data Science

Как выбрать «лучший» алгоритм обучения без учителя для кластеризации моего конкретного набора данных?

00

Вопрос или проблема Я хочу кластеризовать набор данных без предварительного знания о правильном количестве кластеров. Для разных алгоритмов (например, k-means, GMM и т.д.) я могу перебирать различные значения и пытаться найти лучшее решение для любого

Data Science

Модель предсказывает узкий диапазон значений, но с многообещающими значениями MSE и RMSE; проблемы с нормализацией и метриками ошибок в задаче регрессии.

00

Вопрос или проблема Я работаю над проектом, основанным на обнаружении спектра, где мне нужно предсказывать значения SNR по изображениям спектрограмм. Чтобы обучить и оценить модель, я нормализовал истинные значения SNR и получил приличные значения MSE (0.

Data Science

Чем CBOW отличается от построения матрицы PMI и последующего уменьшения размерности с помощью PCA?

00

Вопрос или проблема PMI-матрица и уменьшение с использованием PCA: На основе количества раз, когда 2 слова появляются вместе (в определенном заранее заданном окне), и индивидуальной частоты слов, мы строим PMI-матрицу. Затем уменьшаем ее с помощью PCA

Data Science

лучший алгоритм или модель для кластеризации областей на карте?

00

Вопрос или проблема У меня есть база данных, которая содержит информацию, такую как широта, долгота, а также другую информацию, например, достопримечательности, рестораны и торговые центры, сельская местность это или пригород, …

Data Science

Алгоритм/библиотека выбора признаков для CRF

00

Вопрос или проблема Я использую алгоритм-обертку Conditional Random Fields CRF suite scikit-learn. Я читал в литературе о различных подходах к выбору признаков, но не могу найти никаких для этого пакета или, в общем, доступных для CRF.

Data Science

Корреляция между непрерывными и категориальными переменными и отбор признаков

00

Вопрос или проблема Я хочу создать модель классификации, и для этого в конце моего предобработки и создания признаков я получаю 167 непрерывных признаков и дискретную цель (5 модальностей). Я хотел бы уменьшить количество признаков, так как оно кажется слишком большим.

Data Science

Ограничение памяти для трюков с ядрами в машинном обучении

00

Вопрос или проблема Основываясь на лекции Эндрю Ына о ядрах, вы используете обучающие образцы (называемые ориентирами l) и используете их во время предсказания для построения представления данного образца в более высоком измерении.

Data Science

Классификация с использованием текстов в качестве признаков

00

Вопрос или проблема Я хочу создать модель классификации для сопоставления клиентов и продуктов. У меня есть описание каждого продукта и каждого клиента, а также метка: клиент *i* купил/не купил продукт *j*. Каждый пример/строка — это пара (клиент, продукт)

Data Science

Почему использовать fit, если уже есть fit_transform?

00

Вопрос или проблема Это последующий вопрос к: Какая разница между fit и fit_transform в моделях scikit-learn? Я хочу узнать, зачем вообще использовать fit, когда у нас есть fit_transform, который намного быстрее, чем использование fit и transform отдельно?