Tag: capability

Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models

Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models arXiv:2503.20807v1 Announce Type: new Abstract: Fine-tuning Large Language Models (LLMs) on some task-specific datasets has been a primary use of LLMs. However, it has been empirically observed that this approach to enhancing capability inevitably compromises safety, a phenomenon also known as the safety-capability trade-off in LLM fine-tuning.…

March 28, 2025

Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models