mean llm_as_judge 0.488 0.488