new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jan 9

Submitted by

sliuau

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

nvidia

Submitted by

JingweiZuo

Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

tiiuae

Technology Innovation Institute

Submitted by

yulunliu

RL-AWB: Deep Reinforcement Learning for Auto White Balance Correction in Low-Light Night-time Scenes

·
4 authors

Submitted by

taesiri

Token-Level LLM Collaboration via FusionRoute

·
8 authors

Submitted by

HikariDawn

RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation

·
11 authors

Submitted by

ChengsongHuang

RelayLLM: Efficient Reasoning via Collaborative Decoding

·
6 authors

Submitted by

zzfoutofspace

AT^2PO: Agentic Turn-based Policy Optimization via Tree Search

tencent

Submitted by

ANUHW

Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

Australian National University

Submitted by

taesiri

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

Submitted by

taesiri

VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

·
6 authors

2

Submitted by

YanAdjeNole

The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models

TheFinAI

2

Submitted by

taesiri

Plenoptic Video Generation

nvidia

Submitted by

taesiri

Agent-as-a-Judge

·
8 authors

Submitted by

lhmd

CoV: Chain-of-View Prompting for Spatial Reasoning

ziplab

Submitted by

callanwu

DocDancer: Towards Agentic Document-Grounded Information Seeking

PekingUniversity

Peking University

2

Submitted by

refkxh

Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing

·
14 authors

Submitted by

danielhzlin

DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs

HKBU-NLP

2

Submitted by

remiii25

ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting

NYCU

National Yang Ming Chiao Tung University

Submitted by

XiangZ

Guardians of the Hair: Rescuing Soft Boundaries in Depth, Stereo, and Novel Views

ethz

2

Submitted by

billli

One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling

·
9 authors

Submitted by

pudashi

Memorization in 3D Shape Generation: An Empirical Study

PrincetonUniversity

Princeton University

Submitted by

habibian

Multi-Scale Local Speculative Decoding for Image Generation

qualcomm

3

Submitted by

habibian

PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference

qualcomm

2

Submitted by

di-zhang-fdu

AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering

·
1 authors

Submitted by

guaguaa

Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing

elefantai

Submitted by

habibian

ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers

qualcomm

5

Submitted by

mengcy

Beyond Binary Preference: Aligning Diffusion Models to Fine-grained Criteria by Decoupling Attributes

zju

Zhejiang University

Submitted by

mbar0075

Enhancing Object Detection with Privileged Information: A Model-Agnostic Teacher-Student Approach

·
7 authors

2

Submitted by

de-Rodrigo

VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding

CICLAB-Comillas

CICLAB Comillas ICAI

Submitted by

shuhaibmehri

Learning User Preferences Through Interaction for Long-Term Collaboration

·
4 authors

Submitted by

ttttonyhe

Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance

·
7 authors

2

Submitted by

Approximetal

LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models

LEMAS-Project

Submitted by

water-fountain

Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset

·
3 authors