Сcurve_fit Scipy и метод “dogbox”

Question 1

Я пытаюсь воспроизвести в этом исследовании¹ инженерию признаков для активности пользователей. Они используют 14 дней накопленной активности пользователей и сохраняют параметры (2 параметра), которые соответствуют сигмоиде. Я хотел бы сделать то же самое, но с 7 днями активности.

Они используют представленную ниже формулу и сохраняют параметры x0 и k в качестве признаков.

from scipy.optimize import curve_fit
import numpy as np

def sigmoid(x, x0, k):
y = 1 / (1 + np.exp(-k*(x-x0)))
return y

Я использовал scipy curve_fit для нахождения этих параметров следующим образом:

ppov, pcov = curve_fit(sigmoid, np.arange(len(ydata)), ydata, maxfev=20000)

Когда у меня был пользователь с такими значениями:

ydata1 = [0,0,0,0,0,91,91]

У меня возникла следующая ошибка:

RuntimeError: Optimal parameters not found: gtol=0.000000 is too small func(x) is orthogonal to the columns of the Jacobian to machine precision.

Я заметил, что если я добавляю метод ‘dogbox’, то ошибка больше не возникает.

ppov, pcov = curve_fit(sigmoid, np.arange(len(ydata1)), ydata1, maxfev=20000, method='dogbox')
print(ppov[0], ppov[1])
5.189237217957538 11.509279446215949

Тем не менее, я поиграл с другими значениями и заметил, что полученные параметры могут иметь очень различные значения.

Например, если у меня есть такие значения:

ydata2=[0,3,5,30,34,50,91]

ppov, pcov = curve_fit(sigmoid, np.arange(len(ydata2)), ydata2, maxfev=20000)
print(ppov[0], ppov[1])
-24.681668846480264 118.77183210605865

Однако, если я добавлю метод=’dogbox’, я получаю очень разные значения параметров k и x0.

ppov, pcov = curve_fit(sigmoid, np.arange(len(ydata2)), ydata2,  maxfev=20000, method='dogbox')
print(ppov[0], ppov[1])
0.28468096463676695 8.154477352500013

Может кто-то помочь мне с двумя вопросами:

Я прочитал документацию о ‘dogbox’ и не совсем понимаю. Можете объяснить это проще?
Функция curve_fit scipy проходит около 100,000 пользователей, и мне нужно установить параметры curve_fit, чтобы она не выдавала ошибку. Подходит ли метод ‘dogbox’ для моих целей, зная, что результаты параметров кажутся очень различными между методами ‘dogbox’ и стандартным ‘lm’? Или есть другие аргументы в функции curve_fit, которые я мог бы установить вместо этого, чтобы помочь мне избежать этой ошибки?

¹ Yang, C., Shi, X., Jie, L., & Han, J. (2018, июль). Я знаю, что вы вернётесь: Интерпретируемая кластеризация новых пользователей и прогноз оттока в мобильном социальном приложении. В материалах 24-й Международной конференции ACM SIGKDD по открытию знаний и добыче данных (стр. 914-922). PDF

Question 2

Я не могу говорить о алгоритме dogbox, но сигмоида имеет диапазон (0,1), поэтому подгонка к вашим данным, как показано в примере, определенно будет неудачной. В статье, на которую вы ссылаетесь, вероятно, сначала масштабируют входные данные.

Первый пример, который вы приводите, имеет лучшую подгонку, которая является ступенчатой функцией, которую можно аппроксимировать сигмоидой с параметрами, стремящимися к бесконечности; поэтому неудивительно, что алгоритм не сойдется.

ИЗМЕНЕНИЕ: Возможно, вам стоит попробовать увеличить допустимые значения (переданные как kwargs через curve_fit в least_squares); ваше сообщение об ошибке упоминает gtol специально: https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.least_squares.html#scipy.optimize.least_squares
Или, если сходимость достаточна для ваших целей, просто поймайте и обработайте эту ошибку?

Сcurve_fit Scipy и метод “dogbox”

Вопрос или проблема

Ответ или решение

Ответ на вопросы о `scipy.curve_fit` и методе "dogbox"

1. Простое объяснение метода "dogbox"

2. Подбор параметров для `curve_fit`

Заключение

Сcurve_fit Scipy и метод “dogbox”

Вопрос или проблема

Ответ или решение

Ответ на вопросы о scipy.curve_fit и методе "dogbox"

1. Простое объяснение метода "dogbox"

2. Подбор параметров для curve_fit

Заключение

Ответ на вопросы о `scipy.curve_fit` и методе "dogbox"

2. Подбор параметров для `curve_fit`