hanzlajavaid

hanzla

·

AI & ML interests

Direct Preference Optimization, Supervised Finetuning, Stable Diffusion

Organizations

upvoted a paper over 1 year ago

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Paper • 2503.14476 • Published Mar 18, 2025 • 146

upvoted a paper almost 2 years ago

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Paper • 2408.16725 • Published Aug 29, 2024 • 53