Spaces:

rubenaghayan
/

llm_memory_visualizer

Sleeping

App Files Files Community

rubenaghayan commited on Sep 26

Commit

84f0b80

0 Parent(s):

calculator skeleton

Browse files

Files changed (6) hide show

__init__.py +0 -0
__pycache__/defaults.cpython-311.pyc +0 -0
__pycache__/state.cpython-311.pyc +0 -0
app.py +53 -0
defaults.py +16 -0
state.py +8 -0

__init__.py ADDED Viewed

File without changes

__pycache__/defaults.cpython-311.pyc ADDED Viewed

Binary file (805 Bytes). View file

__pycache__/state.cpython-311.pyc ADDED Viewed

Binary file (639 Bytes). View file

app.py ADDED Viewed

	@@ -0,0 +1,53 @@

+import gradio as gr
+from defaults import DEFAULTS
+def greet(name, intensity)->str:
+    return "Hello, " + name + "!" * int(intensity)
+def create_parallelism_block():
+    with gr.Column():
+        gr.Markdown("# Parallelism Parameters")
+        tp = gr.Number(label="Tensor Parallelism", value=1, interactive=True)
+        pp = gr.Number(label="Pipeline Parallelism", value=1, interactive=True)
+        cp = gr.Number(label="Context Parallelism", value=1, interactive=True)
+        ep = gr.Number(label="Expert Parallelism", value=1, interactive=True)
+        return tp, pp, cp, ep
+def create_model_block():
+    with gr.Column():
+        gr.Markdown("# Model Parameters")
+        layers = gr.Number(label="Number of Layers", value=32, interactive=True)
+        vocab = gr.Number(label="Vocab Size", value=32000, interactive=True)
+        hidden = gr.Number(label="Hidden Dim", value=4096, interactive=True)
+        intermediate = gr.Number(label="Intermediate Dim", value=11008, interactive=True)
+        presets = gr.Dropdown(list(DEFAULTS.keys()), label="Presets", interactive=True)
+        return layers, vocab, hidden, intermediate, presets
+def create_training_block():
+    with gr.Column():
+        gr.Markdown('# Training Parameters')
+        seq_len = gr.Number(label="Sequence Length", value=8192, interactive=True)
+        batch_size = gr.Number(label="Batch Size", value=8, interactive=True)
+        return seq_len, batch_size
+def calculate(*args)->int:
+    out = 1
+    for arg in args:
+        out *= arg
+    return arg
+with gr.Blocks() as demo:
+    with gr.Column():
+        with gr.Row():
+            tp, pp, cp, ep = create_parallelism_block()
+            layers, vocab, hidden, intermediate, presets = create_model_block()
+            seq_len, batch_size = create_training_block()
+        calculate_button = gr.Button("Calculate")
+        output = gr.Number(label="Output")
+        calculate_button.click(fn=calculate, inputs=[tp,pp,cp,ep],outputs=output)
+demo.launch()

defaults.py ADDED Viewed

	@@ -0,0 +1,16 @@

+from state import ModelState
+GEMMA3_270M = ModelState(vocab_size=256000, num_layers=9, hidden_size=1152, intermediate_size=4608)
+GEMMA3_1B = ModelState(vocab_size=262208, num_layers=26, hidden_size=2304, intermediate_size=9216)
+GEMMA3_4B = ModelState(vocab_size=262208, num_layers=28, hidden_size=3072, intermediate_size=12288)
+GEMMA3_12B = ModelState(vocab_size=262208, num_layers=42, hidden_size=4608, intermediate_size=18432)
+GEMMA3_27B = ModelState(vocab_size=262208, num_layers=46, hidden_size=6144, intermediate_size=24576)
+DEFAULTS = {
+    "Gemma3 270M": GEMMA3_270M,
+    "Gemma3 1B": GEMMA3_1B,
+    "Gemma3 4B": GEMMA3_4B,
+    "Gemma3 12B": GEMMA3_12B,
+    "Gemma3 27B": GEMMA3_27B
+}

state.py ADDED Viewed

	@@ -0,0 +1,8 @@

+from dataclasses import dataclass
+@dataclass
+class ModelState:
+    vocab_size: int
+    num_layers: int
+    hidden_size: int
+    intermediate_size: int