Podlodka #433 – Как оцениваются LLM

Podlodka #433 -- Как оцениваются LLM

Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт.

Слушать выпуск

Полезные ссылки:

Бенчмарки

https://huggingface.co/datasets/cais/mmlu
https://huggingface.co/datasets/MMMU/MMMU
https://huggingface.co/datasets/allenai/ai2_arc
https://huggingface.co/datasets/Rowan/hellaswag
https://huggingface.co/datasets/allenai/winogrande
https://huggingface.co/datasets/Idavidrein/gpqa
https://lastexam.ai/
https://www.swebench.com/
https://arcprize.org/arc-agi
https://github.com/t3dotgg/SnitchBench

Арена

https://lmarena.ai/

Фреймворк для эвалов

https://github.com/EleutherAI/lm-evaluation-harness

Бумаги

https://arxiv.org/abs/2504.07825
https://arxiv.org/abs/2311.12022
https://arxiv.org/abs/2406.12045

Тех репорты с таблицами

https://www.anthropic.com/news/claude-4
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro
https://openai.com/index/introducing-o3-and-o4-mini/

Похожие выпуски

Wednesday, July 9

Podlodka #432 – AI за пределами кодинга

Podlodka #427 – AI в небольших командах

Monday, April 3

Podlodka #314 – AI пишет код

Tuesday, May 10

Podlodka #267 – Кодеки

Monday, December 2

Podlodka #140 — Искусственный интеллект