Fix: Support for limiting language range in VITS

Artrajz · Artrajz · commit 483826226173 · 2024-09-25T12:14:10.000+08:00
diff --git a/manager/TTSManager.py b/manager/TTSManager.py
@@ -271,7 +271,12 @@ def vits_infer(self, state, encode=True):
             state["text"] = re.sub(r'\s+', ' ', state["text"]).strip()
         sampling_rate = model.sampling_rate
 
-        sentences_list = sentence_split_and_markup(state["text"], state["lang"], state["segment_size"])
+        sentences_list = sentence_split_and_markup(
+            text=state["text"],
+            target_language=state["lang"],
+            segment_size=state["segment_size"],
+            speaker_lang=state["speaker_lang"],
+        )
 
         # 停顿0.5s，避免语音分段合成再拼接后的连接突兀
         brk = np.zeros(int(0.5 * sampling_rate), dtype=np.int16)
diff --git a/tts_app/voice_api/views.py b/tts_app/voice_api/views.py
@@ -160,6 +160,7 @@ def voice_vits_api():
     # 校验模型是否支持输入的语言
     speaker_lang = model_manager.voice_speakers[ModelType.VITS.value][id].get('lang')
     lang_list, status, msg = get_lang_list(lang, speaker_lang)
+
     if status == "error":
         return make_response(jsonify({"status": status, "message": msg}), 400)
 
@@ -173,15 +174,17 @@ def voice_vits_api():
 
     fname = f"{str(uuid.uuid1())}.{format}"
     file_type = f"audio/{format}"
-    state = {"text": text,
-             "id": id,
-             "format": format,
-             "length": length,
-             "noise": noise,
-             "noisew": noisew,
-             "segment_size": segment_size,
-             "lang": lang_list,
-             "speaker_lang": speaker_lang}
+    state = {
+        "text": text,
+        "id": id,
+        "format": format,
+        "length": length,
+        "noise": noise,
+        "noisew": noisew,
+        "segment_size": segment_size,
+        "lang": lang_list,
+        "speaker_lang": speaker_lang,
+    }
 
     if use_streaming:
         audio = tts_manager.stream_vits_infer(state)
diff --git a/utils/sentence.py b/utils/sentence.py
@@ -162,15 +162,15 @@ def sentence_split_reading(text: str) -> list:
     return sentences_list
 
 
-def sentence_split_and_markup(text, target_language, segment_size=50):
+def sentence_split_and_markup(text, target_language, segment_size=50, speaker_lang=None):
     sentences_list = []
 
     if target_language[0].upper() == "MIX":
         sentences_list.append(text)
     else:
         for _text in sentence_split(text, segment_size):
             if target_language[0].upper() == "AUTO":
-                sentence = markup_language(_text, target_language)
+                sentence = markup_language(_text, speaker_lang)
             elif len(target_language) == 1:
                 sentence = f"[{target_language[0].upper()}]{_text}[{target_language[0].upper()}]"
             else: