← Explore Research Questions Research Question

How do we prevent gaming or manipulation of AI backup systems?

Related Goals

Hybrid human-AI systems that can provide legitimate backup mechanisms.

Related Capability

Handle challenges

Ability to withstand changing contexts and less-than-ideal conditions.

Dimension: Robustness

Related Existing Resources

Adversarial testing for Generative AI

Google’s guide defining adversarial testing as systematically evaluating ML models against malicious or inadvertently harmful input, covering explicit queries (containing policy-violating language) and implicit queries (seeming harmless but involving sensitive topics). The four-stage workflow inv...