|
От
|
Pout
|
|
К
|
Г.С.
|
|
Дата
|
29.03.2025 10:55:33
|
|
Рубрики
|
ВВС;
|
|
Re: для дидактических образовательных целей "ИИ" вреден
>Я работаю с разными ИИ, которые распознают хитросформатированные тексты, в т.ч. рукописные, на всевозможных языках в разных областях от софта до медицины и правлю их, когда они глупят или начинают считать себя слишком умными.
проблЭма
FT: Человечество тупеет с каждым годом. С 2010 года наблюдается снижение интеллекта.
https://www.ft.com/content/a8016c64-63b7-458b-a371-e0e1c54a13fc
В «развитых» странах 25% взрослых не могут справиться с элементарной математикой. В США таких уже 35%. Все меньше людей могут сосредоточиться на одном деле, решать базовые задачи и думать логически - зато бесконечно скроллят ленты.
Половина опрошенных за год прочитали только одну книгу, а 45% подростков вообще не читают
Mat Honan
The answer engines
The way we search the web is changing, and it’s paving the way to a more AI-saturated future.
volume 128 number 1 January/February 2025
MIT Review
Языковые модели имеют тенденцию выдумывать всякую ерунду — они могут галлюцинировать бессмыслицу. Более того, генеративный ИИ может каждый раз выдавать совершенно новый ответ на один и тот же вопрос или давать разные ответы разным людям на основе того, что он о них знает. Это может означать конец канонического отвечания
Абсолютная импотентность справиться с математикой начальной школы
Отрицательная "эффективность"
разработчики ИИ из Apple опубликовала статью, в которой опровергли способность больших языковых моделей к рассуждениям. Основная идея материала — ИИ не умеет думать как человек, а лишь имитирует мышление.
Математические рассуждения в больших языковых моделях
мы исследовали логические возможности больших языковых моделей (LLM) и ограничения текущих оценок на GSM8K. Мы представили GSM-Symbolic - новый тест с несколькими вариантами, предназначенный для более глубокого изучения математических способностей LLM. Наше обширное исследование выявило значительную вариабельность производительности в разных вариантах решения одного и того же вопроса, что ставит под сомнение надежность текущих результатов GSM8K, основанных на одноточечных показателях точности. Мы обнаружили, что, хотя LLM демонстрируют некоторую устойчивость к изменениям имен собственных, они более чувствительны к изменениям числовых значений.
Мы также заметили, что эффективность работы LLM ухудшается по мере увеличения сложности вопросов.
Внедрение GSM-NoOp выявило критический недостаток в способности LLM. по-настоящему понимать математические концепты и извлекать необходимую информацию для решения задач.
https://arxiv.org/pdf/2410.05229
. doi: 10.48550/ARXIV.2404.14219. URL https://doi.org/10.48550/arXiv.2404.14219
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models