Spaces:

xujinheng666
/

CS_Quality_Analysis_FinalProject

Running

App Files Files Community

xujinheng666 commited on Mar 23, 2025

Commit

9afd3be

verified ·

1 Parent(s): b20dd94

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -70

app.py CHANGED Viewed

@@ -2,97 +2,66 @@ import streamlit as st
 import torch
 import torchaudio
 import os
-import re
-import jieba
-from difflib import SequenceMatcher
 from transformers import pipeline
 # Device setup
 device = "cuda" if torch.cuda.is_available() else "cpu"
-# Load Whisper model for transcription
 MODEL_NAME = "alvanlii/whisper-small-cantonese"
 language = "zh"
-pipe = pipeline(
     task="automatic-speech-recognition",
     model=MODEL_NAME,
     chunk_length_s=60,
-    device=device,
-    generate_kwargs={
-        "no_repeat_ngram_size": 4,
-        "repetition_penalty": 1.15,
-        "temperature": 0.5,
-        "top_p": 0.97,
-        "top_k": 40,
-        "max_new_tokens": 300,
-        "do_sample": True
-    }
 )
-pipe.model.config.forced_decoder_ids = pipe.tokenizer.get_decoder_prompt_ids(language=language, task="transcribe")
-def is_similar(a, b, threshold=0.8):
-    return SequenceMatcher(None, a, b).ratio() > threshold
-def remove_repeated_phrases(text):
-    sentences = re.split(r'(?<=[。！？])', text)
-    cleaned_sentences = []
-    for i, sentence in enumerate(sentences):
-        if i == 0 or not is_similar(sentence.strip(), cleaned_sentences[-1].strip()):
-            cleaned_sentences.append(sentence.strip())
-    return " ".join(cleaned_sentences)
-def remove_punctuation(text):
-    return re.sub(r'[^\w\s]', '', text)
 def transcribe_audio(audio_path):
-    waveform, sample_rate = torchaudio.load(audio_path)
-    duration = waveform.shape[1] / sample_rate
-    if duration > 60:
-        results = []
-        for start in range(0, int(duration), 55):
-            end = min(start + 60, int(duration))
-            chunk = waveform[:, start * sample_rate:end * sample_rate]
-            if chunk.shape[1] == 0:
-                continue
-            temp_filename = f"temp_chunk_{start}.wav"
-            torchaudio.save(temp_filename, chunk, sample_rate)
-            if os.path.exists(temp_filename):
-                try:
-                    result = pipe(temp_filename)["text"]
-                    results.append(remove_punctuation(result))
-                finally:
-                    os.remove(temp_filename)
-        return remove_punctuation(remove_repeated_phrases(" ".join(results)))
-    return remove_punctuation(remove_repeated_phrases(pipe(audio_path)["text"]))
-# Load quality rating model
-rating_pipe = pipeline("text-classification", model="tabularisai/multilingual-sentiment-analysis")
 def rate_quality(text):
-    chunks = [text[i:i+512] for i in range(0, len(text), 512)]
-    results = []
     label_map = {"Very Negative": "Very Poor", "Negative": "Poor", "Neutral": "Neutral", "Positive": "Good", "Very Positive": "Very Good"}
-    for chunk in chunks:
-        result = rating_pipe(chunk)[0]
-        results.append(label_map.get(result["label"], "Unknown"))
-    return max(set(results), key=results.count)
-# Streamlit UI
-st.title("Cantonese Audio Transcription and Quality Rating")
-st.write("Upload your Cantonese audio file to get the transcription and quality rating.")
-audio_file = st.file_uploader("Upload Audio File", type=["wav", "mp3", "m4a"])
-if audio_file is not None:
-    audio_path = audio_file.name
-    with open(audio_path, "wb") as f:
-        f.write(audio_file.getbuffer())
-    st.write("Processing audio...")
-    transcript = transcribe_audio(audio_path)
-    st.write("**Transcript:**", transcript)
-    quality_rating = rate_quality(transcript)
-    st.write("**Quality Rating:**", quality_rating)

 import torch
 import torchaudio
 import os
 from transformers import pipeline
 # Device setup
 device = "cuda" if torch.cuda.is_available() else "cpu"
+# Load Whisper model for Cantonese transcription
 MODEL_NAME = "alvanlii/whisper-small-cantonese"
 language = "zh"
+transcriber = pipeline(
     task="automatic-speech-recognition",
     model=MODEL_NAME,
     chunk_length_s=60,
+    device=device
 )
+transcriber.model.config.forced_decoder_ids = transcriber.tokenizer.get_decoder_prompt_ids(language=language, task="transcribe")
+# Load Summarization model
+summarizer = pipeline("summarization", model="Ayaka/bart-base-cantonese")
+# Load quality rating model
+rating_pipe = pipeline("text-classification", model="tabularisai/multilingual-sentiment-analysis")
+# Streamlit UI setup
+st.set_page_config(page_title="Cantonese Audio Analysis", layout="centered")
+st.title("🌟 Cantonese Audio Analysis")
+st.write("Upload a Cantonese audio file to transcribe, summarize, and evaluate its quality.")
+# File uploader
+audio_file = st.file_uploader("Upload your audio file (WAV format)", type=["wav"])
 def transcribe_audio(audio_path):
+    return transcriber(audio_path)["text"]
+def summarize_text(text):
+    return summarizer(text, max_length=150, min_length=50, do_sample=False)[0]['summary_text']
 def rate_quality(text):
+    result = rating_pipe(text[:512])[0]
     label_map = {"Very Negative": "Very Poor", "Negative": "Poor", "Neutral": "Neutral", "Positive": "Good", "Very Positive": "Very Good"}
+    return label_map.get(result["label"], "Unknown")
+if audio_file:
+    st.audio(audio_file, format="audio/wav")
+    temp_audio_path = "temp_audio.wav"
+    with open(temp_audio_path, "wb") as f:
+        f.write(audio_file.read())
+    with st.spinner("Transcribing audio..."):
+        transcript = transcribe_audio(temp_audio_path)
+        st.subheader("📝 Transcript")
+        st.write(transcript)
+    with st.spinner("Summarizing transcript..."):
+        summary = summarize_text(transcript)
+        st.subheader("📖 Summary")
+        st.write(summary)
+    with st.spinner("Evaluating conversation quality..."):
+        quality_rating = rate_quality(summary)
+        st.subheader("🏆 Quality Rating")
+        st.write(f"**{quality_rating}**")
+    os.remove(temp_audio_path)