Spaces:

rahul7star
/

Nava-Infrence

Sleeping

App Files Files Community

rahul7star commited on 30 days ago

Commit

822ab8c

verified ·

1 Parent(s): 702232e

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -13

app.py CHANGED Viewed

@@ -29,8 +29,9 @@ def generate_audio_cpu_lora(text: str):
     logs = []
     try:
         DEVICE_CPU = "cpu"
-        # Load tokenizer and base model
         tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
         base_model = AutoModelForCausalLM.from_pretrained(
             MODEL_NAME,
@@ -38,14 +39,14 @@ def generate_audio_cpu_lora(text: str):
             torch_dtype=torch.float32,
             trust_remote_code=True
         )
-        logs.append("✅ Loaded base Maya model")
-        # Load LoRA adapter
         model = PeftModel.from_pretrained(base_model, LORA_NAME, device_map={"": DEVICE_CPU})
         model.eval()
-        logs.append(f"✅ Applied LoRA adapter from {LORA_NAME}")
-        # Build prompt
         soh_token = tokenizer.decode([128259])
         eoh_token = tokenizer.decode([128260])
         soa_token = tokenizer.decode([128261])
@@ -56,7 +57,7 @@ def generate_audio_cpu_lora(text: str):
         inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE_CPU)
-        # Generate tokens
         with torch.inference_mode():
             outputs = model.generate(
                 **inputs,
@@ -69,9 +70,9 @@ def generate_audio_cpu_lora(text: str):
                 pad_token_id=tokenizer.pad_token_id
             )
         generated_ids = outputs[0, inputs['input_ids'].shape[1]:].tolist()
-        logs.append(f"✅ Generated {len(generated_ids)} token IDs")
-        # Extract SNAC codes
         snac_min, snac_max = 128266, 156937
         eos_id = 128258
         try:
@@ -80,7 +81,7 @@ def generate_audio_cpu_lora(text: str):
             eos_idx = len(generated_ids)
         snac_tokens = [t for t in generated_ids[:eos_idx] if snac_min <= t <= snac_max]
-        # Unpack 7-token SNAC frames
         l1, l2, l3 = [], [], []
         frames = len(snac_tokens) // 7
         snac_tokens = snac_tokens[:frames*7]
@@ -89,9 +90,8 @@ def generate_audio_cpu_lora(text: str):
             l1.append((slots[0]-128266)%4096)
             l2.extend([(slots[1]-128266)%4096, (slots[4]-128266)%4096])
             l3.extend([(slots[2]-128266)%4096, (slots[3]-128266)%4096, (slots[5]-128266)%4096, (slots[6]-128266)%4096])
-        logs.append(f"✅ Unpacked to {len(l1)} L1 frames, {len(l2)} L2 codes, {len(l3)} L3 codes")
-        # SNAC decoder
         snac_model = SNAC.from_pretrained("hubertsiuzdak/snac_24khz").eval().to(DEVICE_CPU)
         codes_tensor = [torch.tensor(level, dtype=torch.long, device=DEVICE_CPU).unsqueeze(0) for level in [l1,l2,l3]]
         with torch.inference_mode():
@@ -102,7 +102,7 @@ def generate_audio_cpu_lora(text: str):
         audio_path = OUT_ROOT / "tts_output_cpu_lora.wav"
         sf.write(audio_path, audio, TARGET_SR)
-        logs.append(f"✅ Audio saved: {audio_path}, duration: {len(audio)/TARGET_SR:.2f}s")
         return str(audio_path), str(audio_path), "\n".join(logs)

     logs = []
     try:
         DEVICE_CPU = "cpu"
+        print(text)
         tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
         base_model = AutoModelForCausalLM.from_pretrained(
             MODEL_NAME,
             torch_dtype=torch.float32,
             trust_remote_code=True
         )
         model = PeftModel.from_pretrained(base_model, LORA_NAME, device_map={"": DEVICE_CPU})
         model.eval()
         soh_token = tokenizer.decode([128259])
         eoh_token = tokenizer.decode([128260])
         soa_token = tokenizer.decode([128261])
         inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE_CPU)
         with torch.inference_mode():
             outputs = model.generate(
                 **inputs,
                 pad_token_id=tokenizer.pad_token_id
             )
         generated_ids = outputs[0, inputs['input_ids'].shape[1]:].tolist()
         snac_min, snac_max = 128266, 156937
         eos_id = 128258
         try:
             eos_idx = len(generated_ids)
         snac_tokens = [t for t in generated_ids[:eos_idx] if snac_min <= t <= snac_max]
         l1, l2, l3 = [], [], []
         frames = len(snac_tokens) // 7
         snac_tokens = snac_tokens[:frames*7]
             l1.append((slots[0]-128266)%4096)
             l2.extend([(slots[1]-128266)%4096, (slots[4]-128266)%4096])
             l3.extend([(slots[2]-128266)%4096, (slots[3]-128266)%4096, (slots[5]-128266)%4096, (slots[6]-128266)%4096])
         snac_model = SNAC.from_pretrained("hubertsiuzdak/snac_24khz").eval().to(DEVICE_CPU)
         codes_tensor = [torch.tensor(level, dtype=torch.long, device=DEVICE_CPU).unsqueeze(0) for level in [l1,l2,l3]]
         with torch.inference_mode():
         audio_path = OUT_ROOT / "tts_output_cpu_lora.wav"
         sf.write(audio_path, audio, TARGET_SR)
         return str(audio_path), str(audio_path), "\n".join(logs)