ddPn08
diff --git a/‎launch.py
Lines changed: 3 additions & 23 deletions b/‎launch.py
Lines changed: 3 additions & 23 deletions
diff --git a/‎lib/rvc/checkpoints.py
Lines changed: 11 additions & 3 deletions b/‎lib/rvc/checkpoints.py
Lines changed: 11 additions & 3 deletions
diff --git a/‎lib/rvc/config.py
Lines changed: 1 addition & 0 deletions b/‎lib/rvc/config.py
Lines changed: 1 addition & 0 deletions
diff --git a/‎lib/rvc/mel_processing.py
Lines changed: 35 additions & 91 deletions b/‎lib/rvc/mel_processing.py
Lines changed: 35 additions & 91 deletions
diff --git a/‎lib/rvc/models.py
Lines changed: 28 additions & 30 deletions b/‎lib/rvc/models.py
Lines changed: 28 additions & 30 deletions
@@ -1,8 +1,8 @@
-import subprocess
+import importlib.util
 import os
-import sys
 import shlex
-import importlib.util
+import subprocess
+import sys
 
 commandline_args = os.environ.get("COMMANDLINE_ARGS", "")
 sys.argv += shlex.split(commandline_args)
@@ -88,24 +88,6 @@ def extract_arg(args, name):
     return [x for x in args if x != name], name in args
 
 
-def fix_faiss():
-    spec = importlib.util.find_spec("faiss")
-    if (
-        spec.submodule_search_locations is None
-        or len(spec.submodule_search_locations) == 0
-    ):
-        return
-    dir = spec.submodule_search_locations[0]
-    if os.path.exists(os.path.join(dir, "swigfaiss_avx2.py")):
-        return
-    try:
-        os.symlink(
-            os.path.join(dir, "swigfaiss.py"), os.path.join(dir, "swigfaiss_avx2.py")
-        )
-    except:
-        pass
-
-
 def prepare_environment():
     commit = commit_hash()
 
@@ -140,8 +122,6 @@ def prepare_environment():
         errdesc=f"Couldn't install requirements",
     )
 
-    fix_faiss()
-
 
 def start():
     os.environ["PATH"] = (
 
@@ -14,10 +14,12 @@ def write_config(state_dict: Dict[str, Any], cfg: Dict[str, Any]):
 
 def create_trained_model(
     weights: Dict[str, Any],
+    version: Literal["v1", "v2"],
     sr: str,
-    f0: int,
+    f0: bool,
     emb_name: str,
     emb_ch: int,
+    emb_output_layer: int,
     epoch: int,
 ):
     state_dict = OrderedDict()
@@ -101,19 +103,23 @@ def create_trained_model(
                 "sr": 32000,
             },
         )
+    state_dict["version"] = version
     state_dict["info"] = f"{epoch}epoch"
     state_dict["sr"] = sr
-    state_dict["f0"] = int(f0)
+    state_dict["f0"] = 1 if f0 else 0
     state_dict["embedder_name"] = emb_name
+    state_dict["embedder_output_layer"] = emb_output_layer
     return state_dict
 
 
 def save(
     model,
+    version: Literal["v1", "v2"],
     sr: str,
-    f0: int,
+    f0: bool,
     emb_name: str,
     emb_ch: int,
+    emb_output_layer: int,
     filepath: str,
     epoch: int,
 ):
@@ -126,10 +132,12 @@ def save(
 
     state_dict = create_trained_model(
         state_dict,
+        version,
         sr,
         f0,
         emb_name,
         emb_ch,
+        emb_output_layer,
         epoch,
     )
     os.makedirs(os.path.dirname(filepath), exist_ok=True)
 
@@ -52,6 +52,7 @@ class TrainConfigModel(BaseModel):
 
 
 class TrainConfig(BaseModel):
+    version: Literal["v1", "v2"] = "v2"
     train: TrainConfigTrain
     data: TrainConfigData
     model: TrainConfigModel
 
@@ -24,23 +24,21 @@ def dynamic_range_decompression_torch(x, C=1):
 
 
 def spectral_normalize_torch(magnitudes):
-    output = dynamic_range_compression_torch(magnitudes)
-    return output
+    return dynamic_range_compression_torch(magnitudes)
 
 
 def spectral_de_normalize_torch(magnitudes):
-    output = dynamic_range_decompression_torch(magnitudes)
-    return output
+    return dynamic_range_decompression_torch(magnitudes)
 
 
 mel_basis = {}
 hann_window = {}
 
 
 def spectrogram_torch(y, n_fft, sampling_rate, hop_size, win_size, center=False):
-    if torch.min(y) < -1.0:
+    if torch.min(y) < -1.07:
         print("min value is ", torch.min(y))
-    if torch.max(y) > 1.0:
+    if torch.max(y) > 1.07:
         print("max value is ", torch.max(y))
 
     global hann_window
@@ -58,33 +56,25 @@ def spectrogram_torch(y, n_fft, sampling_rate, hop_size, win_size, center=False)
     )
     y = y.squeeze(1)
 
-    # 現在、mpsはtorch.stftをサポートしていない。
+    # mps does not support torch.stft.
     if y.device.type == "mps":
-        spec = torch.stft(
-            y.cpu(),
-            n_fft,
-            hop_length=hop_size,
-            win_length=win_size,
-            window=hann_window[wnsize_dtype_device].cpu(),
-            center=center,
-            pad_mode="reflect",
-            normalized=False,
-            onesided=True,
-            return_complex=False,
-        ).to(device=y.device)
+        i = y.cpu()
+        win = hann_window[wnsize_dtype_device].cpu()
     else:
-        spec = torch.stft(
-            y,
-            n_fft,
-            hop_length=hop_size,
-            win_length=win_size,
-            window=hann_window[wnsize_dtype_device],
-            center=center,
-            pad_mode="reflect",
-            normalized=False,
-            onesided=True,
-            return_complex=False,
-        )
+        i = y
+        win = hann_window[wnsize_dtype_device]
+    spec = torch.stft(
+        i,
+        n_fft,
+        hop_length=hop_size,
+        win_length=win_size,
+        window=win,
+        center=center,
+        pad_mode="reflect",
+        normalized=False,
+        onesided=True,
+        return_complex=False,
+    ).to(device=y.device)
 
     spec = torch.sqrt(spec.pow(2).sum(-1) + 1e-6)
     return spec
@@ -99,71 +89,25 @@ def spec_to_mel_torch(spec, n_fft, num_mels, sampling_rate, fmin, fmax):
         mel_basis[fmax_dtype_device] = torch.from_numpy(mel).to(
             dtype=spec.dtype, device=spec.device
         )
-    spec = torch.matmul(mel_basis[fmax_dtype_device], spec)
-    spec = spectral_normalize_torch(spec)
-    return spec
+    melspec = torch.matmul(mel_basis[fmax_dtype_device], spec)
+    melspec = spectral_normalize_torch(melspec)
+    return melspec
 
 
 def mel_spectrogram_torch(
     y, n_fft, num_mels, sampling_rate, hop_size, win_size, fmin, fmax, center=False
 ):
-    if torch.min(y) < -1.0:
-        print("min value is ", torch.min(y))
-    if torch.max(y) > 1.0:
-        print("max value is ", torch.max(y))
+    """Convert waveform into Mel-frequency Log-amplitude spectrogram.
 
-    global mel_basis, hann_window
-    dtype_device = str(y.dtype) + "_" + str(y.device)
-    fmax_dtype_device = str(fmax) + "_" + dtype_device
-    wnsize_dtype_device = str(win_size) + "_" + dtype_device
-    if fmax_dtype_device not in mel_basis:
-        mel = librosa_mel_fn(sampling_rate, n_fft, num_mels, fmin, fmax)
-        mel_basis[fmax_dtype_device] = torch.from_numpy(mel).to(
-            dtype=y.dtype, device=y.device
-        )
-    if wnsize_dtype_device not in hann_window:
-        hann_window[wnsize_dtype_device] = torch.hann_window(win_size).to(
-            dtype=y.dtype, device=y.device
-        )
-
-    y = torch.nn.functional.pad(
-        y.unsqueeze(1),
-        (int((n_fft - hop_size) / 2), int((n_fft - hop_size) / 2)),
-        mode="reflect",
-    )
-    y = y.squeeze(1)
-
-    # 現在、mpsはtorch.stftをサポートしていない。
-    if y.device.type == "mps":
-        spec = torch.stft(
-            y.cpu(),
-            n_fft,
-            hop_length=hop_size,
-            win_length=win_size,
-            window=hann_window[wnsize_dtype_device].cpu(),
-            center=center,
-            pad_mode="reflect",
-            normalized=False,
-            onesided=True,
-            return_complex=False,
-        ).to(device=y.device)
-    else:
-        spec = torch.stft(
-            y,
-            n_fft,
-            hop_length=hop_size,
-            win_length=win_size,
-            window=hann_window[wnsize_dtype_device],
-            center=center,
-            pad_mode="reflect",
-            normalized=False,
-            onesided=True,
-            return_complex=False,
-        )
-
-    spec = torch.sqrt(spec.pow(2).sum(-1) + 1e-6)
+    Args:
+        y       :: (B, T)           - Waveforms
+    Returns:
+        melspec :: (B, Freq, Frame) - Mel-frequency Log-amplitude spectrogram
+    """
+    # Linear-frequency Linear-amplitude spectrogram :: (B, T) -> (B, Freq, Frame)
+    spec = spectrogram_torch(y, n_fft, sampling_rate, hop_size, win_size, center)
 
-    spec = torch.matmul(mel_basis[fmax_dtype_device], spec)
-    spec = spectral_normalize_torch(spec)
+    # Mel-frequency Log-amplitude spectrogram :: (B, Freq, Frame) -> (B, Freq=num_mels, Frame)
+    melspec = spec_to_mel_torch(spec, n_fft, num_mels, sampling_rate, fmin, fmax)
 
-    return spec
+    return melspec
@@ -714,36 +714,6 @@ def infer(self, phone, phone_lengths, sid, max_len=None):
         return o, x_mask, (z, z_p, m_p, logs_p)
 
 
-class MultiPeriodDiscriminator(torch.nn.Module):
-    def __init__(self, use_spectral_norm=False):
-        super(MultiPeriodDiscriminator, self).__init__()
-        periods = [2, 3, 5, 7, 11, 17]
-        # periods = [3, 5, 7, 11, 17, 23, 37]
-
-        discs = [DiscriminatorS(use_spectral_norm=use_spectral_norm)]
-        discs = discs + [
-            DiscriminatorP(i, use_spectral_norm=use_spectral_norm) for i in periods
-        ]
-        self.discriminators = nn.ModuleList(discs)
-
-    def forward(self, y, y_hat):
-        y_d_rs = []  #
-        y_d_gs = []
-        fmap_rs = []
-        fmap_gs = []
-        for i, d in enumerate(self.discriminators):
-            y_d_r, fmap_r = d(y)
-            y_d_g, fmap_g = d(y_hat)
-            # for j in range(len(fmap_r)):
-            #     print(i,j,y.shape,y_hat.shape,fmap_r[j].shape,fmap_g[j].shape)
-            y_d_rs.append(y_d_r)
-            y_d_gs.append(y_d_g)
-            fmap_rs.append(fmap_r)
-            fmap_gs.append(fmap_g)
-
-        return y_d_rs, y_d_gs, fmap_rs, fmap_gs
-
-
 class DiscriminatorS(torch.nn.Module):
     def __init__(self, use_spectral_norm=False):
         super(DiscriminatorS, self).__init__()
@@ -851,3 +821,31 @@ def forward(self, x):
         x = torch.flatten(x, 1, -1)
 
         return x, fmap
+
+
+class MultiPeriodDiscriminator(torch.nn.Module):
+    def __init__(self, use_spectral_norm=False, periods=[2, 3, 5, 7, 11, 17]):
+        super(MultiPeriodDiscriminator, self).__init__()
+
+        discs = [DiscriminatorS(use_spectral_norm=use_spectral_norm)]
+        discs = discs + [
+            DiscriminatorP(i, use_spectral_norm=use_spectral_norm) for i in periods
+        ]
+        self.discriminators = nn.ModuleList(discs)
+
+    def forward(self, y, y_hat):
+        y_d_rs = []  #
+        y_d_gs = []
+        fmap_rs = []
+        fmap_gs = []
+        for i, d in enumerate(self.discriminators):
+            y_d_r, fmap_r = d(y)
+            y_d_g, fmap_g = d(y_hat)
+            # for j in range(len(fmap_r)):
+            #     print(i,j,y.shape,y_hat.shape,fmap_r[j].shape,fmap_g[j].shape)
+            y_d_rs.append(y_d_r)
+            y_d_gs.append(y_d_g)
+            fmap_rs.append(fmap_r)
+            fmap_gs.append(fmap_g)
+
+        return y_d_rs, y_d_gs, fmap_rs, fmap_gs