Spaces:

ACloudCenter
/

canary-qwen-transcriber-2.5b

Runtime error

App Files Files Community

ACloudCenter commited on Aug 26

Commit

5bc92c5

1 Parent(s): e46b406

Fix pipeline error by using model.generate() directlyclear

Browse files

Files changed (1) hide show

app.py +76 -21

app.py CHANGED Viewed

@@ -1,30 +1,85 @@
 import gradio as gr
-from transformers import pipeline
 import torch
-from nemo.collections.speechlm2 import SALM
 import spaces
-if torch.cuda.is_available():
-    device = torch.device("cuda")
-else:
-    device = torch.device("cpu")
-SAMPLE_RATE = 16000 # Hz - NVIDIA model sampling rate
-MAX_AUDIO_MINUTES = 120 # wont try to transcribe if longer than this
-CHUNK_SECONDS = 40.0  # max audio length seen by the model
-BATCH_SIZE = 192  # for parallel transcription of audio longer than CHUNK_SECONDS
-# Initialize the ASR model which is based on the "nvidia/canary-qwen-2.5b" architecture and uses NVIDIA's NeMo framework
 model = SALM.from_pretrained("nvidia/canary-qwen-2.5b").bfloat16().eval().to(device)
-transcriber = pipeline("automatic-speech-recognition", model = model)
-# Transcribe audio file using NeMo's transcribe class and use spaces for GPU acceleration
 @spaces.GPU
-def transcribe_audio(audio_file):
-    transcript = transcriber([audio_file])[0].text
-    return transcript
-demo = gr.Interface(
-    fn=transcribe_audio,
-    inputs=gr.Audio(source="upload", type="filepath"),
-    outputs=gr.Textbox())

 import gradio as gr
 import torch
 import spaces
+from lhotse import Recording
+from nemo.collections.speechlm2 import SALM
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+SAMPLE_RATE = 16000
 model = SALM.from_pretrained("nvidia/canary-qwen-2.5b").bfloat16().eval().to(device)
 @spaces.GPU
+def transcribe_audio(audio_filepath):
+    if audio_filepath is None:
+        return "Please upload an audio file", ""
+    rec = Recording.from_file(audio_filepath, recording_id="temp")
+    cut = rec.resample(SAMPLE_RATE).to_cut()
+    if cut.num_channels > 1:
+        cut = cut.to_mono(mono_downmix=True)
+    audio, audio_lens = cut.load_audio()
+    with torch.inference_mode():
+        output_ids = model.generate(
+            prompts=[[{"role": "user", "content": f"Transcribe the following: {model.audio_locator_tag}"}]],
+            audios=torch.as_tensor(audio).unsqueeze(0).to(device),
+            audio_lens=torch.as_tensor([audio_lens]).to(device),
+            max_new_tokens=256,
+        )
+    transcript = model.tokenizer.ids_to_text(output_ids[0].cpu())
+    return transcript, transcript
+@spaces.GPU
+def answer_question(transcript, question):
+    if not transcript:
+        return "Please transcribe audio first"
+    with torch.inference_mode(), model.llm.disable_adapter():
+        output_ids = model.generate(
+            prompts=[[{"role": "user", "content": f"{question}\n\n{transcript}"}]],
+            max_new_tokens=512,
+        )
+    answer = model.tokenizer.ids_to_text(output_ids[0].cpu())
+    answer = answer.split("<|im_start|>assistant")[-1]
+    return answer.strip()
+with gr.Blocks(title="Canary-Qwen Transcriber & Q&A") as demo:
+    gr.Markdown("# Canary-Qwen Transcriber with Q&A")
+    gr.Markdown("Upload audio to transcribe, then ask questions about it!")
+    with gr.Row():
+        with gr.Column():
+            audio_input = gr.Audio(sources=["microphone", "upload"], type="filepath", label="Audio Input")
+            transcribe_btn = gr.Button("Transcribe", variant="primary")
+        with gr.Column():
+            transcript_output = gr.Textbox(label="Transcript", lines=8)
+    transcript_state = gr.State()
+    with gr.Row():
+        with gr.Column():
+            question_input = gr.Textbox(label="Ask a question about the transcript", placeholder="What is the main topic?")
+            ask_btn = gr.Button("Ask", variant="primary")
+        with gr.Column():
+            answer_output = gr.Textbox(label="Answer", lines=4)
+    transcribe_btn.click(
+        fn=transcribe_audio,
+        inputs=[audio_input],
+        outputs=[transcript_output, transcript_state]
+    )
+    ask_btn.click(
+        fn=answer_question,
+        inputs=[transcript_state, question_input],
+        outputs=[answer_output]
+    )
+demo.queue()
+demo.launch()