대무무
혁신적인 DeepSeek R1-Zero: 강화 학습으로 무장한 추론 능력의 도약