Rethinking Evals: Behavioral Attraction Basins in Language Models

MAP-Elites framework for systematically mapping LLM failure modes via Quality-Diversity optimization.

Setup

curl -LsSf https://astral.sh/uv/install.sh | sh
uv sync

export OPENAI_API_KEY="your-key"
export ANTHROPIC_API_KEY="your-key"

Usage

Main Experiment

uv run python experiments/run_main_experiment.py --model llama3_8b --iterations 5000 --seed-prompts 100

Baselines

uv run python experiments/run_baselines.py --model llama3_8b

Ablation Study

uv run python experiments/run_ablation.py --model llama3_8b --budget 10000 --runs 3

GP Prediction

uv run python experiments/run_gp_prediction.py --model llama3_8b

Configuration

Model, experiment, and harm category configs are in config/. See config/models.yaml for available target and judge models.

Citation

@article{bhatt2025rethinking,
  title={Rethinking Evals: Behavioral Attraction Basins in Language Models},
  author={Bhatt, Manish and Munshi, Sarthak and Habler, Idan and Al-Kahfah, Ammar and Huang, Ken and Gatto, Blake},
  journal={arXiv preprint},
  year={2025}
}

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
artifacts		artifacts
config		config
experiments		experiments
src		src
tests		tests
visualization		visualization
.gitignore		.gitignore
README.md		README.md
build_artifacts.py		build_artifacts.py
build_panel.py		build_panel.py
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
requirements.txt.old		requirements.txt.old

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Rethinking Evals: Behavioral Attraction Basins in Language Models

Setup

Usage

Main Experiment

Baselines

Ablation Study

GP Prediction

Configuration

Citation

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Rethinking Evals: Behavioral Attraction Basins in Language Models

Setup

Usage

Main Experiment

Baselines

Ablation Study

GP Prediction

Configuration

Citation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages