Update seed

Artrajz · Artrajz · commit 5aa3e925ed7a · 2024-03-25T19:58:24.000+08:00
Fix text
diff --git a/config.py b/config.py
@@ -6,15 +6,14 @@
 After the initial launch that automatically generates the config.yaml file, any modifications to the configuration should be made directly in the config.yaml file, not in the config.py file.
 """
 
-import copy
 import logging
 import os
 import secrets
 import shutil
 import string
 import sys
 import traceback
-from dataclasses import dataclass, field, asdict, fields, is_dataclass
+from dataclasses import dataclass, field, fields, is_dataclass
 from typing import List, Union, Optional, Dict
 
 import torch
@@ -183,6 +182,7 @@ class GPTSoVitsConfig(AsDictMixin):
     use_streaming: bool = False
     batch_size: int = 5
     speed: float = 1.0
+    seed: int = -1
     presets: Dict[str, GPTSoVitsPreset] = field(default_factory=lambda: {"default": GPTSoVitsPreset(),
                                                                          "default2": GPTSoVitsPreset()})
 
diff --git a/gpt_sovits/gpt_sovits.py b/gpt_sovits/gpt_sovits.py
@@ -1,21 +1,21 @@
 import logging
 import math
 import os.path
+import random
 import re
 from typing import List
 
 import librosa
 import numpy as np
 import torch
-from time import time as ttime
 
 from contants import config
 from gpt_sovits.AR.models.t2s_lightning_module import Text2SemanticLightningModule
 from gpt_sovits.module.mel_processing import spectrogram_torch
 from gpt_sovits.module.models import SynthesizerTrn
-from gpt_sovits.utils import DictToAttrRecursive
 from gpt_sovits.text import cleaned_text_to_sequence
 from gpt_sovits.text.cleaner import clean_text
+from gpt_sovits.utils import DictToAttrRecursive
 from utils.classify_language import classify_language
 from utils.data_utils import check_is_none
 from utils.sentence import split_languages, sentence_split
@@ -120,6 +120,25 @@ def load_gpt(self, gpt_path):
         total = sum([param.nelement() for param in self.t2s_model.parameters()])
         logging.info(f"Number of parameter: {total / 1e6:.2f}M")
 
+    def set_seed(self, seed: int):
+        seed = int(seed)
+        seed = seed if seed != -1 else random.randrange(1 << 32)
+        logging.debug(f"Set seed to {seed}")
+        os.environ['PYTHONHASHSEED'] = str(seed)
+        random.seed(seed)
+        np.random.seed(seed)
+        torch.manual_seed(seed)
+        try:
+            if torch.cuda.is_available():
+                torch.cuda.manual_seed(seed)
+                torch.cuda.manual_seed_all(seed)
+                # torch.backends.cudnn.deterministic = True
+                # torch.backends.cudnn.benchmark = False
+                # torch.backends.cudnn.enabled = True
+        except:
+            pass
+        return seed
+
     def get_speakers(self):
         return self.speakers
 
@@ -165,20 +184,21 @@ def get_bert_feature(self, text, phones, word2ph, language):
     def get_bert_and_cleaned_text_multilang(self, text: list):
         sentences = split_languages(text, expand_abbreviations=True, expand_hyphens=True)
 
-        phones, word2ph, norm_text, bert = [], [], [], []
+        phones_list, word2ph_list, norm_text_list, bert_list = [], [], [], []
 
         for sentence, lang in sentences:
-            _phones, _word2ph, _norm_text = self.get_cleaned_text(sentence, lang)
-            _bert = self.get_bert_feature(sentence, _phones, _word2ph, _norm_text)
-            phones.extend(_phones)
-            if _word2ph is not None:
-                word2ph.extend(_word2ph)
-            norm_text.extend(_norm_text)
-            bert.append(_bert)
+            phones, word2ph, _norm_text = self.get_cleaned_text(sentence, lang)
+            bert = self.get_bert_feature(sentence, phones, word2ph, _norm_text)
+            phones_list.extend(phones)
+            if word2ph is not None:
+                word2ph_list.extend(word2ph)
+            norm_text_list.extend(_norm_text)
+            bert_list.append(bert)
 
-        bert = torch.cat(bert, dim=1).to(self.device, dtype=self.torch_dtype)
+        norm_text = ''.join(norm_text_list)
+        bert = torch.cat(bert_list, dim=1).to(self.device, dtype=self.torch_dtype)
 
-        return phones, word2ph, norm_text, bert
+        return phones_list, word2ph_list, norm_text, bert
 
     def get_spepc(self, audio, orig_sr):
         """audio的sampling_rate与模型相同"""
@@ -238,6 +258,11 @@ def preprocess_text(self, text: str, lang: str, segment_size: int):
 
         result = []
         for text in texts:
+            text = text.strip("\n")
+            if (text[0] not in splits and len(self.get_first(text)) < 4):
+                text = "。" + text if lang != "en" else "." + text
+            if (text[-1] not in splits):
+                text += "。" if lang != "en" else "."
             phones, word2ph, norm_text, bert_features = self.get_bert_and_cleaned_text_multilang(text)
             res = {
                 "phones": phones,
@@ -251,7 +276,7 @@ def preprocess_prompt(self, reference_audio, reference_audio_sr, prompt_text: st
         if self.prompt_cache.get("prompt_text") != prompt_text:
             if prompt_lang.lower() == "auto":
                 prompt_lang = classify_language(prompt_text)
-
+            prompt_text = prompt_text.strip("\n")
             if (prompt_text[-1] not in splits):
                 prompt_text += "。" if prompt_lang != "en" else "."
             phones, word2ph, norm_text = self.get_cleaned_text(prompt_text, prompt_lang)
@@ -438,9 +463,11 @@ def speed_change(self, input_audio: np.ndarray, speed_factor: float, sr: int):
 
     def infer(self, text, lang, reference_audio, reference_audio_sr, prompt_text, prompt_lang, top_k, top_p,
               temperature, batch_size: int = 5, batch_threshold: float = 0.75, split_bucket: bool = True,
-              return_fragment: bool = False, speed_factor: float = 1.0,
+              return_fragment: bool = False, speed_factor: float = 1.0, seed: int = -1,
               segment_size: int = config.gpt_sovits_config.segment_size, **kwargs):
 
+        self.set_seed(seed)
+
         if return_fragment:
             split_bucket = False
 
@@ -476,7 +503,7 @@ def infer(self, text, lang, reference_audio, reference_audio_sr, prompt_text, pr
             if self.is_half:
                 all_bert_features = all_bert_features.half()
 
-            logging.debug(f"Infer text:{[''.join(text) for text in norm_text]}")
+            logging.debug(f"Infer text:{norm_text}")
             if no_prompt_text:
                 prompt = None
             else:
diff --git a/tts_app/static/js/index.js b/tts_app/static/js/index.js
@@ -82,6 +82,7 @@ function getLink() {
     let temperature = null;
     let batch_size = null;
     let speed = null;
+    let seed = null;
 
     if (currentModelPage == 1 || currentModelPage == 2 || currentModelPage == 3) {
         length = document.getElementById("input_length" + currentModelPage).value;
@@ -112,6 +113,7 @@ function getLink() {
         top_p = document.getElementById('input_top_p4').value;
         temperature = document.getElementById('input_temperature4').value;
         batch_size = document.getElementById('input_batch_size4').value;
+        seed = document.getElementById('input_seed4').value;
         // speed = document.getElementById('input_speed4').value;
         url += "/voice/gpt-sovits?id=" + id;
 
@@ -182,6 +184,8 @@ function getLink() {
             url += "&batch_size=" + batch_size;
         if (speed !== null && speed !== "")
             url += "&speed=" + speed;
+        if (seed !== null && seed !== "")
+            url += "&seed=" + seed;
     }
 
     if (api_key != "") {
@@ -273,6 +277,7 @@ function setAudioSourceByPost() {
     let temperature = null;
     let batch_size = null;
     let speed = null;
+    let seed = null;
 
     let headers = {};
 
@@ -313,6 +318,8 @@ function setAudioSourceByPost() {
         temperature = $("#input_temperature4").val();
         batch_size = $("#input_batch_size4").val();
         // speed = $("#input_speed4").val();
+        seed = $("#input_seed4").val();
+
     }
 
 
@@ -375,6 +382,9 @@ function setAudioSourceByPost() {
     if (currentModelPage == 4 && speed) {
         formData.append('speed', speed);
     }
+    if (currentModelPage == 4 && seed) {
+        formData.append('seed', seed);
+    }
 
     let downloadButton = document.getElementById("downloadButton" + currentModelPage);
 
diff --git a/tts_app/templates/pages/gpt_sovits.html b/tts_app/templates/pages/gpt_sovits.html
@@ -22,7 +22,7 @@
     </form>
     <form class="w-100">
         <div class="row">
-            <div class="col-md-4 mb-3">
+            <div class="col-md-3 mb-3">
                 <label data-toggle="tooltip" data-placement="top"
                        title="默认为wav">format</label>
                 <select class="form-control input_format" id="input_format4" oninput="updateLink()">
@@ -34,22 +34,29 @@
                     <option>flac</option>
                 </select>
             </div>
-            <div class="col-md-4 mb-3">
+            <div class="col-md-3 mb-3">
                 <label data-toggle="tooltip" data-placement="top"
                        title="自动识别语言auto：可识别的语言根据不同speaker而不同，方言无法自动识别。方言模型需要手动指定语言，比如粤语Cantonese要指定参数lang=gd">lang</label>
                 <input type="text" class="form-control input_lang" id="input_lang4" oninput="updateLink()"
                        value=""
                        placeholder="auto"/>
             </div>
-            <div class="col-md-4 mb-3">
+            <div class="col-md-3 mb-3">
                 <label data-toggle="tooltip" data-placement="top"
                        title="按标点符号分段，加起来大于segment_size时为一段文本。segment_size<=0表示不分段。">segment_size</label>
                 <input type="number" class="form-control input_segment_size" id="input_segment_size4"
                        oninput="updateLink()"
                        value=""
                        placeholder="50" step="1"/>
             </div>
-
+            <div class="col-md-3 mb-3">
+                <label for="seed" data-toggle="tooltip" data-placement="top"
+                       title="随机种子">seed</label>
+                <input type="text" class="form-control seed" id="input_seed4"
+                       oninput="updateLink()"
+                       value=""
+                       placeholder="5"/>
+            </div>
         </div>
 
         <div class="row">
@@ -85,14 +92,15 @@
                        value=""
                        placeholder="5"/>
             </div>
-{#            <div class="col-md-2 mb-3">#}
-{#                <label for="speed" data-toggle="tooltip" data-placement="top"#}
-{#                       title="">speed</label>#}
-{#                <input type="text" class="form-control speed" id="input_speed4"#}
-{#                       oninput="updateLink()"#}
-{#                       value=""#}
-{#                       placeholder="1.0"/>#}
-{#            </div>#}
+
+            {#            <div class="col-md-2 mb-3">#}
+            {#                <label for="speed" data-toggle="tooltip" data-placement="top"#}
+            {#                       title="">speed</label>#}
+            {#                <input type="text" class="form-control speed" id="input_speed4"#}
+            {#                       oninput="updateLink()"#}
+            {#                       value=""#}
+            {#                       placeholder="1.0"/>#}
+            {#            </div>#}
 
         </div>
         <div class="row">
diff --git a/tts_app/voice_api/views.py b/tts_app/voice_api/views.py
@@ -1,22 +1,18 @@
 import copy
-import logging
 import os
 import time
-import traceback
 import uuid
 from io import BytesIO
 
-import librosa
-import numpy as np
 from flask import request, jsonify, make_response, send_file, Blueprint
 from werkzeug.utils import secure_filename
 
+from contants import ModelType
 from contants import config
 # from gpt_sovits.utils import load_audio
 from logger import logger
-from contants import ModelType
-from tts_app.voice_api.auth import require_api_key
 from tts_app.model_manager import model_manager, tts_manager
+from tts_app.voice_api.auth import require_api_key
 from tts_app.voice_api.utils import *
 from utils.data_utils import check_is_none
 
@@ -586,6 +582,7 @@ def voice_gpt_sovits_api():
         use_streaming = get_param(request_data, 'streaming', config.gpt_sovits_config.use_streaming, bool)
         batch_size = get_param(request_data, 'batch_size', config.gpt_sovits_config.batch_size, int)
         speed_factor = get_param(request_data, 'speed', config.gpt_sovits_config.speed, float)
+        seed = get_param(request_data, 'seed', config.gpt_sovits_config.seed, int)
     except Exception as e:
         logger.error(f"[{ModelType.GPT_SOVITS.value}] {e}")
         return make_response("parameter error", 400)
@@ -643,7 +640,8 @@ def voice_gpt_sovits_api():
              "temperature": temperature,
              "preset": preset,
              "batch_size": batch_size,
-             "speed_factor": speed_factor
+             "speed_factor": speed_factor,
+             "seed": seed
              }
 
     if use_streaming: