Как эффективно кластеризовать речевые сегменты по говорящему?

Question 1

У нас есть ~30 аудиофрагментов, из которых около 50% принадлежат одному и тому же говорящему, который является нашей целевой целью, а остальные — от различных других говорящих. Мы хотим извлечь все аудиофрагменты от нашего целевого говорящего, то есть определить, какой голос встречается чаще всего, а затем выбрать все аудиозаписи с этим голосом.

Для этой цели мы попытались использовать библиотеку resemblyzer для генерации эмбеддингов на уровне говорящего из наших аудиозаписей, а затем применить PCA, чтобы выяснить, сможем ли мы обнаружить какие-либо кластеры:

from resemblyzer import VoiceEncoder
encoder = VoiceEncoder()

embeddings = []
for snippet in audio_snippets: # audio_snippets — это список numpy представлений наших записей
    embeddings.append(encoder.embed_utterance(snippet, return_partials=False))

from sklearn.cluster import AgglomerativeClustering
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

clustering = AgglomerativeClustering(n_clusters=None, distance_threshold=0.8, linkage="ward")
labels = clustering.fit_predict(embeddings)

pca = PCA(n_components=2)
X_pca = pca.fit_transform(embeddings)

plt.figure()
for i, k in enumerate(embeddings):
    x_val, y_val = X_pca[i, 0], X_pca[i, 1]
    plt.scatter(x_val, y_val, color=f"C{labels[i]}")
    plt.annotate(k, (x_val, y_val), xytext=(5, 2), textcoords="offset points")

plt.xlabel("PC1")
plt.ylabel("PC2")
plt.title("PCA Embeddings Говорящих (Топ 2 Говорящих/Видео)")
plt.show()

Из этого мы ожидаем увидеть четкий кластер из 15 аудиофрагментов, оставшиеся 15 будут разбросаны повсеместно. Однако, это не кластеризует фрагменты по говорящему, так как в большинстве кластеров все еще содержатся записи других говорящих и это, в целом, не очень точно:

Существует ли более эффективный способ достижения этой цели?

Question 2

Я думаю, было бы полезно сначала визуализировать эмбеддинги, чтобы увидеть, насколько хорошо они позволяют различать разных говорящих.

Мой подход заключался бы в использовании UMAP для проекции эмбеддингов в двумерное пространство, а затем создания диаграммы разброса этих результатов, окрашенных в цвета в зависимости от говорящего.

В идеале вы обнаружите, что разные цвета (говорящие) в целом отделены друг от друга. Если цвета сильно перекрываются (что означает, что эмбеддинги не вполне разделяют разных говорящих), возможно, вам придется пересмотреть, как извлекаются эмбеддинги и/или являются ли проблемой ограничения данных.

Если эмбеддинги выглядят хорошо, я бы попробовал использовать HDBSCAN для кластеризации эмбеддингов$^\dagger$. Важно проецировать эмбеддинги на меньшее количество измерений перед запуском кластеризации ($<50$ для HDBSCAN) – это можно сделать с использованием UMAP(n_components=5, min_dist=0).

$\dagger$ HDBSCAN вернет столько кластеров, сколько найдет; вы не можете ограничить его 15 кластерами, поэтому потребуется некоторая пост-обработка. Вы можете также использовать алгоритм кластеризации, который принимает аргумент n_clusters=, например KMeans. Стоит попробовать несколько различных алгоритмов.

Как эффективно кластеризовать речевые сегменты по говорящему?

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение