Deep Ganguli, Danny Hernandez, Liane Lovitt, Nova DasSarma, Tom Henighan, Andy Jones, Nicholas Joseph, Jackson Kernion, Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen, Tom Conerly, Dawn Drain, Nelson Elhage, Sheer El Showk, Stanislav Fort, Zac Hatfield-Dodds, Scott Johnston, Shauna Kravec, Neel Nanda, Kamal Ndousse, Catherine Olsson, Daniela Amodei, Dario Amodei, Tom Brown, Jared Kaplan, Sam McCandlish, Chris Olah, & Jack Clark (2022), References, Textbook of AI

Deep Ganguli, Danny Hernandez, Liane Lovitt, Nova DasSarma, Tom Henighan, Andy Jones, Nicholas Joseph, Jackson Kernion, Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen, Tom Conerly, Dawn Drain, Nelson Elhage, Sheer El Showk, Stanislav Fort, Zac Hatfield-Dodds, Scott Johnston, Shauna Kravec, Neel Nanda, Kamal Ndousse, Catherine Olsson, Daniela Amodei, Dario Amodei, Tom Brown, Jared Kaplan, Sam McCandlish, Chris Olah, & Jack Clark (2022)

ACM Conference on Fairness, Accountability, and Transparency.

URL: https://arxiv.org/abs/2202.07785

Abstract. Anthropic's foundational paper on the dual nature of large-scale model behaviour: aggregate metrics like loss are highly predictable as a function of compute, but the specific capabilities that emerge at a given scale are not. The paper documents instances where capabilities appeared discontinuously between checkpoints, calls attention to the policy and safety implications, and argues for systematic capability forecasting and pre-deployment safety evaluations. The paper is widely credited as catalysing the labs' shift toward formal safety cases.

Tags: safety emergence scaling

Cited in:

Chapter 16: Ethics & Safety

AI tools used: Claude (research, coding, text), ChatGPT (diagrams, images), Grammarly (editing).

Predictability and Surprise in Large Generative Models