Update split_languages for Bert-VITS2

Artrajz · Artrajz · commit 6ced73006095 · 2024-02-14T20:40:59.000+08:00
diff --git a/bert_vits2/bert_vits2.py b/bert_vits2/bert_vits2.py
@@ -327,7 +327,7 @@ def infer(self, text, id, lang, sdp_ratio, noise, noisew, length, reference_audi
 
     def infer_multilang(self, text, id, lang, sdp_ratio, noise, noisew, length, reference_audio=None, emotion=None,
                         text_prompt=None, style_text=None, style_weigth=0.7, **kwargs):
-        sentences_list = split_languages(text, self.lang)
+        sentences_list = split_languages(text, self.lang, expand_abbreviations=True, expand_hyphens=True)
 
         emo = None
         if self.hps_ms.model.emotion_embedding == 1:
diff --git a/manager/TTSManager.py b/manager/TTSManager.py
@@ -364,7 +364,8 @@ def bert_vits2_infer(self, state, encode=True):
         # if state["lang"] == "auto":
         # state["lang"] = classify_language(state["text"], target_languages=model.lang)
         if state["lang"] == "auto":
-            sentences_list = split_languages(state["text"], state["speaker_lang"])
+            sentences_list = split_languages(state["text"], state["speaker_lang"], expand_abbreviations=True,
+                                             expand_hyphens=True)
         else:
             sentences_list = [(state["text"], state["lang"])]
         audios = []
@@ -404,7 +405,8 @@ def stream_bert_vits2_infer(self, state, fname=None):
             state["text"] = re.sub(r'\s+', ' ', state["text"]).strip()
         sampling_rate = model.sampling_rate
 
-        sentences_list = split_languages(state["text"], state["speaker_lang"])
+        sentences_list = split_languages(state["text"], state["speaker_lang"], expand_abbreviations=True,
+                                         expand_hyphens=True)
 
         # audios = []
 
@@ -499,15 +501,15 @@ def gpt_sovits_infer(self, state, encode=True):
             infer_func = model.infer
 
         audio = infer_func(text=state.get("text"),
-                            lang=state.get("lang"),
-                            reference_audio=state.get("reference_audio"),
-                            reference_audio_sr=state.get("reference_audio_sr"),
-                            prompt_text=state.get("prompt_text"),
-                            prompt_lang=state.get("prompt_lang"),
-                            top_k=state.get("top_k"),
-                            top_p=state.get("top_p"),
-                            temperature=state.get("temperature"),
-                            )
+                           lang=state.get("lang"),
+                           reference_audio=state.get("reference_audio"),
+                           reference_audio_sr=state.get("reference_audio_sr"),
+                           prompt_text=state.get("prompt_text"),
+                           prompt_lang=state.get("prompt_lang"),
+                           top_k=state.get("top_k"),
+                           top_p=state.get("top_p"),
+                           temperature=state.get("temperature"),
+                           )
         sampling_rate = model.sampling_rate
 
         return self.encode(sampling_rate, audio, state["format"]) if encode else audio