Обучение нейронной сети для локализации звука

Question 1

Я пытаюсь обучить нейронную сеть, чтобы оценить местоположение (в градусах от 0 до 180), откуда исходит звук.

Я использую TensorFlow Keras в Python для обучения модели.

Входные данные представляют собой два бинауральных признака, а именно ILD (Интерауральная разница уровней) и ITD (Интерауральная временная разница), каждый вектор, состоящий из двух вышеописанных признаков, имеет размеры [1,71276]. У меня есть в общей сложности 2639 измерений, 10% из которых используются в качестве данных для валидации и еще 10% в качестве тестовых данных.

Выходное значение должно быть углом в диапазоне [0,180].

Я нормализовал данные в диапазоне [-1, 1], и лучшее значение потерь, которого я смог достичь, составляет MSE = 16.

Модель, достигшая наивысшего MSE, следующая:

model = tf.keras.Sequential(([
    tf.keras.layers.Input(shape=(71276,), name="input"),

    tf.keras.layers.Dense(units=900,activation='relu', name="dense_1"),
    tf.keras.layers.Dense(units=360,activation='relu', name="dense_2"),
    tf.keras.layers.Dense(units=180,activation='relu', name="dense_3"),

    tf.keras.layers.Dense(units=1,activation='linear', name="output")
]))

model.compile(loss="mse",
              optimizer=tf.keras.optimizers.Adam(lr=0.001),
              metrics=['mae'])

EPOCHS = 500
BATCH_SIZE = 32

callbacks = [
    tf.keras.callbacks.EarlyStopping(monitor="val_loss", mode="min", min_delta=0.5, patience=100, verbose=1),
    tf.keras.callbacks.ModelCheckpoint('best_model.h5', monitor="val_loss", mode="min", save_best_only=True),
    tf.keras.callbacks.ReduceLROnPlateau(monitor="val_loss", factor=0.1, patience=50, verbose=1, mode="min", min_delta=2, cooldown=0, min_lr=0.000001)
]

history = model.fit(X_train, y_train, validation_data=(X_val,y_val), shuffle=True,
                    batch_size=BATCH_SIZE, 
                    epochs=EPOCHS, verbose=1,
                    callbacks=callbacks)

Поскольку это первая нейронная сеть, которую я обучал, используя собственные данные, я задаюсь вопросом, есть ли что-то очевидное, что я упустил и что могло бы уменьшить функцию потерь. Если нет, любые предложения приветствуются!

Следует отметить, что я использую Google Collaboratory, и я уже пробовал добавить еще один скрытый слой, но получил ошибку нехватки памяти. Я также пробовал увеличивать/уменьшать количество нейронов в каждом слое, но не получил лучших результатов, также пробовал использовать архитектуру CNN, но без особого успеха, так как она даже не сошлась после 300 эпох.

Заранее спасибо!

Question 2

Измените ваши активационные слои, используйте сигмоиду или Tanh для вашего последнего слоя.

Я бы попробовал CNN снова, но с другими шагами, размерами фильтров и количеством фильтров. Дело в том, что в CNN, поскольку у вас меньше признаков на слой, вы сможете иметь больше слоев.

Вот пример сверточного слоя для аудио:

import keras
from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten, Conv2D, MaxPooling2D
from keras.optimizers import SGD
from keras.layers.advanced_activations import LeakyReLU
model = Sequential()
model.add(Conv2D(16, (3,3), padding='same', input_shape=(513, 25, 1)))
model.add(LeakyReLU())
model.add(Conv2D(16, (3,3), padding='same'))
model.add(LeakyReLU())
model.add(MaxPooling2D(pool_size=(3,3)))
model.add(Dropout(0.25))
model.add(Conv2D(16, (3,3), padding='same'))
model.add(LeakyReLU())
model.add(Conv2D(16, (3,3), padding='same'))
model.add(LeakyReLU())
model.add(MaxPooling2D(pool_size=(3,3)))
model.add(Dropout(0.25))
model.add(Flatten())
model.add(Dense(64))
model.add(LeakyReLU())
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))

Если у вас есть время, попробуйте обучить слой LSTM.

Обучение нейронной сети для локализации звука

Вопрос или проблема

Ответ или решение

Рекомендации по улучшению модели:

Заключение: