update

Browse files

Files changed (10) hide show

.dockerignore +3 -0
.gitattributes +35 -0
.gitignore +3 -0
.python-version +1 -0
Dockerfile +23 -0
README.md +10 -0
docker-compose.yaml +9 -0
pyproject.toml +21 -0
serve.py +60 -0
uv.lock +0 -0

.dockerignore ADDED Viewed

	@@ -0,0 +1,3 @@

+.venv
+__pycache__
+ReazonSpeech/

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,3 @@

+.venv
+__pycache__
+ReazonSpeech/

.python-version ADDED Viewed

	@@ -0,0 +1 @@


1	+ 3.11

Dockerfile ADDED Viewed

	@@ -0,0 +1,23 @@

+FROM nvidia/cuda:12.6.3-cudnn-devel-ubuntu20.04
+RUN apt-get update && DEBIAN_FRONTEND=noninteractive apt-get install -y tzdata \
+    curl \
+    git \
+    cmake \
+    build-essential \
+    ffmpeg \
+    && apt-get -y clean all
+RUN curl -LsSf https://astral.sh/uv/install.sh | sh
+ENV PATH="/root/.local/bin/:$PATH"
+RUN uv python install 3.11
+WORKDIR /app
+RUN git clone https://github.com/reazon-research/ReazonSpeech
+COPY . .
+RUN uv sync
+CMD ["uv", "run", "python", "serve.py"]

README.md ADDED Viewed

	@@ -0,0 +1,10 @@

+---
+title: Stt Gpu Test
+emoji: 👁
+colorFrom: purple
+colorTo: green
+sdk: docker
+pinned: false
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

docker-compose.yaml ADDED Viewed

	@@ -0,0 +1,9 @@

+version: '3.8'
+services:
+  stt:
+    build:
+      context: .
+      dockerfile: Dockerfile
+    ports:
+      - "8000:8000"

pyproject.toml ADDED Viewed

	@@ -0,0 +1,21 @@

+[project]
+name = "stt"
+version = "0.1.0"
+description = "Add your description here"
+readme = "README.md"
+requires-python = ">=3.11"
+dependencies = [
+    "fastapi[all]>=0.115.12",
+    "numpy<2",
+    "pydub>=0.25.1",
+    "torch",
+    "reazonspeech-espnet-asr",
+]
+[[tool.uv.index]]
+name = "torch-cuda"
+url = "https://download.pytorch.org/whl/cu126"
+explicit = true
+[tool.uv.sources]
+reazonspeech-espnet-asr = { path = "ReazonSpeech/pkg/espnet-asr" }

serve.py ADDED Viewed

	@@ -0,0 +1,60 @@

+from reazonspeech.espnet.asr import load_model, transcribe, audio_from_numpy
+from espnet2.bin.asr_inference import Speech2Text
+import torch
+from fastapi import FastAPI, HTTPException, UploadFile, File
+import uvicorn
+import numpy as np
+import io
+from pydub import AudioSegment
+import time
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model = load_model(device)
+print(f"Model loaded on {device}")
+def transcribe_audio(audio_data_bytes):
+    try:
+        start_time = time.time()
+        audio_segment = AudioSegment.from_mp3(io.BytesIO(audio_data_bytes))
+        # Get audio data as numpy array
+        audio_data_int16 = np.array(audio_segment.get_array_of_samples())
+        # Convert to float32 normalized to [-1, 1]
+        audio_data_float32 = audio_data_int16.astype(np.float32) / 32768.0
+        # Process with reazonspeech
+        audio = audio_from_numpy(audio_data_float32, samplerate=audio_segment.frame_rate)
+        result = transcribe(model, audio)
+        end_time = time.time()
+        print(f"Time taken: {end_time - start_time} seconds")
+        return result
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
+app = FastAPI()
+@app.post("/transcribe")
+async def transcribe_endpoint(file: UploadFile = File(...)):
+    audio_data = await file.read()
+    try:
+        result = transcribe_audio(audio_data)
+        return {
+            "result": [
+                {
+                    "text": result.text
+                }
+            ]
+        }
+    except HTTPException as e:
+        return {
+            "result": [
+                {
+                    "text": "エラーが発生しました, もう一度試してください",
+                }
+            ]
+        }
+if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=8000)

uv.lock ADDED Viewed

The diff for this file is too large to render. See raw diff