Wadaboa
diff --git a/‎README.md
+35-7 b/‎README.md
+35-7
diff --git a/‎assets/d-vector.png ‎assets/models/d-vector.png b/‎assets/d-vector.png ‎assets/models/d-vector.png
diff --git a/‎assets/titanet-architecture.png ‎assets/models/titanet-architecture.png b/‎assets/titanet-architecture.png ‎assets/models/titanet-architecture.png
diff --git a/‎assets/training/baseline-titanet-ce-train-accuracy.png
448 KB b/‎assets/training/baseline-titanet-ce-train-accuracy.png
448 KB
diff --git a/‎assets/training/baseline-titanet-ce-train-loss.png
409 KB b/‎assets/training/baseline-titanet-ce-train-loss.png
409 KB
diff --git a/‎assets/training/baseline-titanet-ce-val-accuracy.png
480 KB b/‎assets/training/baseline-titanet-ce-val-accuracy.png
480 KB
diff --git a/‎assets/training/baseline-titanet-ce-val-loss.png
442 KB b/‎assets/training/baseline-titanet-ce-val-loss.png
442 KB
diff --git a/‎assets/training/titanet-ce-arc-train-accuracy.png
404 KB b/‎assets/training/titanet-ce-arc-train-accuracy.png
404 KB
diff --git a/‎assets/training/titanet-ce-arc-train-loss.png
369 KB b/‎assets/training/titanet-ce-arc-train-loss.png
369 KB
diff --git a/‎assets/training/titanet-ce-arc-val-accuracy.png
457 KB b/‎assets/training/titanet-ce-arc-val-accuracy.png
457 KB
diff --git a/‎assets/training/titanet-ce-arc-val-loss.png
414 KB b/‎assets/training/titanet-ce-arc-val-loss.png
414 KB
diff --git a/‎results/ls-baseline-ce-svd.png ‎assets/visualization/ls-baseline-ce-svd.png b/‎results/ls-baseline-ce-svd.png ‎assets/visualization/ls-baseline-ce-svd.png
diff --git a/‎results/ls-baseline-ce-umap.png ‎assets/visualization/ls-baseline-ce-umap.png b/‎results/ls-baseline-ce-umap.png ‎assets/visualization/ls-baseline-ce-umap.png
diff --git a/‎results/ls-titanet-arc-svd.png ‎assets/visualization/ls-titanet-arc-svd.png b/‎results/ls-titanet-arc-svd.png ‎assets/visualization/ls-titanet-arc-svd.png
diff --git a/‎results/ls-titanet-arc-umap.png ‎assets/visualization/ls-titanet-arc-umap.png b/‎results/ls-titanet-arc-umap.png ‎assets/visualization/ls-titanet-arc-umap.png
diff --git a/‎results/ls-titanet-ce-svd.png ‎assets/visualization/ls-titanet-ce-svd.png b/‎results/ls-titanet-ce-svd.png ‎assets/visualization/ls-titanet-ce-svd.png
diff --git a/‎results/ls-titanet-ce-umap.png ‎assets/visualization/ls-titanet-ce-umap.png b/‎results/ls-titanet-ce-umap.png ‎assets/visualization/ls-titanet-ce-umap.png
diff --git a/‎results/vctk-baseline-ce-svd.png ‎assets/visualization/vctk-baseline-ce-svd.png b/‎results/vctk-baseline-ce-svd.png ‎assets/visualization/vctk-baseline-ce-svd.png
diff --git a/‎results/vctk-baseline-ce-umap.png ‎assets/visualization/vctk-baseline-ce-umap.png b/‎results/vctk-baseline-ce-umap.png ‎assets/visualization/vctk-baseline-ce-umap.png
diff --git a/‎results/vctk-titanet-arc-svd.png ‎assets/visualization/vctk-titanet-arc-svd.png b/‎results/vctk-titanet-arc-svd.png ‎assets/visualization/vctk-titanet-arc-svd.png
diff --git a/‎results/vctk-titanet-arc-umap.png ‎assets/visualization/vctk-titanet-arc-umap.png b/‎results/vctk-titanet-arc-umap.png ‎assets/visualization/vctk-titanet-arc-umap.png
diff --git a/‎results/vctk-titanet-ce-svd.png ‎assets/visualization/vctk-titanet-ce-svd.png b/‎results/vctk-titanet-ce-svd.png ‎assets/visualization/vctk-titanet-ce-svd.png
diff --git a/‎results/vctk-titanet-ce-umap.png ‎assets/visualization/vctk-titanet-ce-umap.png b/‎results/vctk-titanet-ce-umap.png ‎assets/visualization/vctk-titanet-ce-umap.png
diff --git a/‎src/learn.py
+4-1 b/‎src/learn.py
+4-1
diff --git a/‎titanet.ipynb
+29-5 b/‎titanet.ipynb
+29-5
@@ -1,7 +1,7 @@
 # TitaNet
 
 <p align="center">
-	<img src="assets/titanet-architecture.png" alt="titanet-architecture" style="width: 450px;"/>
+	<img src="assets/models/titanet-architecture.png" alt="titanet-architecture" style="width: 450px;"/>
 </p>
 
 This repository contains a small scale implementation of the following paper:
@@ -40,7 +40,35 @@ python3 src/train.py -p "./parameters.yml"
 
 Training and evaluation metrics, along with model checkpoints and results, are directly logged into a W&B project, which is openly accessible [here](https://wandb.ai/wadaboa/titanet). In case you want to perform a custom training run, you have to either disable W&B (see `parameters.yml`) or provide your own entity (your username), project and API key file location in the `parameters.yml` file. The W&B API key file is a plain text file that contains a single line with your W&B API key, that you can get from [here](https://wandb.ai/authorize).
 
-## Results
+## Training & validation
+
+This section shows training and validation metrics observed for around 75 epochs. In case you want to see more metrics, please head over to the [W&B project](https://wandb.ai/wadaboa/titanet).
+
+### Baseline CE vs TitaNet CE
+
+This experiment compares training and validation loss and accuracy of the baseline and TitaNet models trained with cross-entropy loss. As we can see,  training metrics reach similar values, while validation metrics are much better with TitaNet. Moreover, plots suggest that the baseline model had a slight overfitting problem.
+
+Training Loss             |  Training Accuracy
+:-------------------------:|:-------------------------:
+![](assets/training/baseline-titanet-ce-train-loss.png)  |  ![](assets/training/baseline-titanet-ce-train-accuracy.png)
+
+Validation Loss             |  Validation Accuracy
+:-------------------------:|:-------------------------:
+![](assets/training/baseline-titanet-ce-val-loss.png)  |  ![](assets/training/baseline-titanet-ce-val-accuracy.png)
+
+### TitaNet CE vs TitaNet ArcFace
+
+This experiment compares training and validation loss and accuracy of two TitaNet models (model size "s"), trained with cross-entropy and ArcFace loss. The ArcFace parameters (scale and margin) are the ones specified in the original paper (30 and 0.2). As we can see, metrics are quite similar and no major differences can be observed.
+
+Training Loss             |  Training Accuracy
+:-------------------------:|:-------------------------:
+![](assets/training/titanet-ce-arc-train-loss.png)  |  ![](assets/training/titanet-ce-arc-train-accuracy.png)
+
+Validation Loss             |  Validation Accuracy
+:-------------------------:|:-------------------------:
+![](assets/training/titanet-ce-arc-val-loss.png)  |  ![](assets/training/titanet-ce-arc-val-accuracy.png)
+
+## Visualizations
 
 This section shows some visual results obtained after training each embedding model for around 75 epochs. Please note that all figures represent the same set of utterances, even though different figures use different colours for the same speaker.
 
@@ -50,28 +78,28 @@ This test compares the baseline and TitaNet models on the LibriSpeech dataset us
 
 Baseline             |  TitaNet
 :-------------------------:|:-------------------------:
-![](results/ls-baseline-ce-umap.png)  |  ![](results/ls-titanet-ce-umap.png)
+![](assets/visualization/ls-baseline-ce-umap.png)  |  ![](assets/visualization/ls-titanet-ce-umap.png)
 
 ### Baseline vs TitaNet on VCTK
 
 This test compares the baseline and TitaNet models on the VCTK dataset, unseen during training. Both models were trained with cross-entropy loss and 2D projections were performed with UMAP. As above, TitaNet beats the baseline model by a large margin.
 
 Baseline             |  TitaNet
 :-------------------------:|:-------------------------:
-![](results/vctk-baseline-ce-umap.png)  |  ![](results/vctk-titanet-ce-umap.png)
+![](assets/visualization/vctk-baseline-ce-umap.png)  |  ![](assets/visualization/vctk-titanet-ce-umap.png)
 
 ### SVD vs UMAP reduction
 
 This test compares two 2D reduction methods, namely SVD and UMAP. Both figures rely on the TitaNet model trained with cross-entropy loss. As we can see, the choice of the reduction method highly influences our subjective evaluation, with UMAP giving much better separation in the latent space.
 
-TitaNet LS SVD             |  TitaNet LS UMAP
+SVD             |  UMAP
 :-------------------------:|:-------------------------:
-![](results/ls-titanet-ce-svd.png)  |  ![](results/ls-titanet-ce-umap.png)
+![](assets/visualization/ls-titanet-ce-svd.png)  |  ![](assets/visualization/ls-titanet-ce-umap.png)
 
 ### Cross-entropy vs ArcFace loss
 
 This test compares two TitaNet models, one trained with cross-entropy loss and the other one trained with ArcFace loss. Both figures rely on UMAP as their 2D reduction method. As we can see, there doesn't seem to be a winner in this example, as both models are able to obtain good clustering properties.
 
 Cross-entropy           |  ArcFace
 :-------------------------:|:-------------------------:
-![](results/ls-titanet-ce-umap.png)  |  ![](results/ls-titanet-arc-umap.png)
+![](assets/visualization/ls-titanet-ce-umap.png)  |  ![](assets/visualization/ls-titanet-arc-umap.png)
@@ -410,6 +410,7 @@ def evaluate(
 def test(
     model,
     test_dataset,
+    indices=None,
     wandb_run=None,
     log_console=True,
     mindcf_p_target=0.01,
@@ -425,7 +426,7 @@ def test(
 
     # Get cosine similarity scores and labels
     samples = (
-        test_dataset.get_sample_pairs(device=device)
+        test_dataset.get_sample_pairs(indices=indices, device=device)
         if not isinstance(test_dataset, torch.utils.data.Subset)
         else test_dataset.dataset.get_sample_pairs(
             indices=test_dataset.indices, device=device
@@ -455,6 +456,8 @@ def test(
     if wandb_run is not None:
         wandb_run.notes = json.dumps(metrics, indent=2).encode("utf-8")
 
+    return metrics
+
 
 def infer(
     model,
 
@@ -197,7 +197,7 @@
   {
    "cell_type": "code",
    "execution_count": 49,
-   "id": "92f4d67d",
+   "id": "d9dcaf4a",
    "metadata": {},
    "outputs": [],
    "source": [
@@ -594,7 +594,7 @@
    "id": "7c2b36b1",
    "metadata": {},
    "source": [
-    "<img src=\"assets/d-vector.png\" alt=\"d-vector\" style=\"width: 450px;\"/>\n",
+    "<img src=\"assets/models/d-vector.png\" alt=\"d-vector\" style=\"width: 450px;\"/>\n",
     "    \n",
     "Our baseline model is based on the d-vector concept. A d-vector is simply a way to refer to speaker embeddings generated by a DNN (Deep Neural Network), hence the \"d\" prefix. The standard way to compute such d-vectors, as described in [Generalized End-to-End Loss for Speaker Verification](https://arxiv.org/abs/1710.10467), is through a stack of LSTM layers processing spectrogram segments. In particular, the full spectrogram of shape $B\\times M\\times T$ is unfolded in a sequence of tensors of shape $B\\times M \\times S$, where $S$ is the segment length. Then, each segment is fed into a recurrent module and hidden states are collapsed in a single dimension by either averaging or simply taking the last one. Collapsed vectors are then projected onto the embedding size and once we have one embedding vector for each segment, the embedding vector of the full spectrogram is just the average of all its constituent segments' embeddings."
    ]
@@ -628,7 +628,7 @@
    "id": "1b9a37c4",
    "metadata": {},
    "source": [
-    "<img src=\"assets/titanet-architecture.png\" alt=\"titanet-architecture\" style=\"width: 450px;\"/>"
+    "<img src=\"assets/models/titanet-architecture.png\" alt=\"titanet-architecture\" style=\"width: 450px;\"/>"
    ]
   },
   {
@@ -1137,7 +1137,7 @@
   {
    "cell_type": "code",
    "execution_count": 83,
-   "id": "864d1f1a",
+   "id": "a0e5fb74",
    "metadata": {},
    "outputs": [
     {
@@ -1506,6 +1506,30 @@
     ")"
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "235d9152",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Loading sample pairs: 659it [00:10, 63.73it/s]"
+     ]
+    }
+   ],
+   "source": [
+    "learn.test(\n",
+    "    titanet_model, \n",
+    "    ls_dataset, \n",
+    "    indices=ls_utterances, \n",
+    "    log_console=False,\n",
+    "    device=device\n",
+    ")"
+   ]
+  },
   {
    "cell_type": "markdown",
    "id": "ddbdd0a1",
@@ -1762,7 +1786,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "f486921c",
+   "id": "88126c4a",
    "metadata": {},
    "outputs": [],
    "source": []