Комментарии

Статья норм, но как-то так написана, что трудно понять, о чем речь.

Тут смешаны две разные вещи. Reward Hacking - это термин из мира, где ИИ решает задачи с хорошо понятной целью, которую можно оценить формулой. Например, игра в шахматы. Каждая позиция имеет оценку, каждый ход меняет ее в полжительную или отрицательную сторону. Значит, после каждого хода алгоритму можно дать фитбек, а он будет на него реагировать. Может получится так, что модель будет получать хороший фитбек за какие-то неправильные действия. Например, если она найдет баг в шахматной программе, который мгновенно приводит к победе, она тут же начнет им пользоваться. Это и есть reward hacking. Это обычно означает, что способ оценки и фитбек не достаточно хороши. Подбор reward function - это самая сложная проблема в таких алгоритмах.

С LLM все сложнее, т.к. нету четкого способа оценить ответ. Reward Hacking тут заключается в другом. Модель может начать давать такие ответы, которые кажутся хорошими, но на самом деле они предвзяты или искажены. Довольно очевидный способ обнаруждения такого - мониторить "мысли". По умолчанию модели не пытаются ничего в них скрывать и выдают себя с потрохами. Но есть интересные исследования, в которым модели начинали менять свои мысли, когда узнавали, что их читают. Причем, все - это не только особенность какой-то одной компании. Никто не знает, почему и как с этим бороться. Собственно, статья о том, что мониторинг и правка "плохих" мыслей не решают проблему - модель все равно найдет способы работать не так, как задумано, на долгом отрезке времени.

1

ИИ запчасть по вин номеру подобрать не может , дать контакт логиста дешёвого с точной ценой для перевоза груза между континентами, найти нужный контакт , дать правильную бюрократическую процедуру натурализации например водительского удостоверения в новой стране экспату, отдать email рекрутера или даже правильный контакт снимающего рекрутера в большой компании

Все это ИИ, как раз, может. Нужно только дать ему инструменты поиска, и цикл, чтоб он мог в нем немного поработать перед финальным ответом. И модели для realtime разговора с вызовом инструментов в процессе уже есть. Думаю, что работам, где нужно просто разговаривать, задавать вопросы, записывать ответы и самому на что-то отвечать, осталось очень не долго.

0

Было бы интересно послушать про конкретные инструменты. С ATS системами все понятно - они были и до ИИ. С резюме тоже все понятно. А что за боты-автозаполнители? Что за ИИ ассистенты на интервью?

Не так-то просто все это настроить и эффективно использовать. Попробуйте, например, заставить ИИ зарегаться на девбай и оставить коммент. Даже OpenAI Operator за $200/месяц может надорваться. Возможно, если человек смог обойти все ваши ATS и интервью с помощью каких-то инструментов, он неплохой инженер.

И, по-моему, вы никак не ответили на вопрос в заголовке. На данном эпате рекрутер - бутылочное горлышко. Он тратит меньше минуты на просмотр резюме, он не ходит по ссылкам на гитхаб, не ищет технические публикации кандидата, не смотрит его stackoverflow профиль. Рекрутер в принципе не обращает внимение на кандидата, если тот не смог пробиться через предварительные фильтры. Возможно, ИИ-рекрутер найдет на все это время.

0

Ну, или вот вам еще пример: https://devby.io/news/v-seti-zavirusilsya-novyi-kitaiskii-ii-agent-manus-ego-nazyvaut-vtorym-deepseek

Я дал задачу найти способ зарегаться тут и оставить коммент под новосью о себе. Он создал фейковый емейл, прошел капчу, нашел тему и оставил коммент. Пользы тут, может, и не много (для меня), но по-моему, это некоторый шаг вперед по сравнению со змейкой.

0

Это я попросил его найти способ загегаться на dev.by, затем оставить тут коммент сообществу.

А вы говорите, не идеальный инструмент. Были некоторые сложности с навигацией тут - русский плохо дается. Мне пришлось подсказать, что нужно пройти в ленту и оттуда на вторую страницу - сам он не мог через поиск найти тему. Но все равно впечатляет. Емейл создал и зарегался он сам. Капчу вообще прошел играючи.

0

Мой знакомый недавно показал мне домашку, которую ему на интервью выдали. Там нужно написать несколько независимых сервисов, которые через очередь общаются, внешний кэш/бд, слой REST API, все это завернуть в контенеры, покрыть тестами и написать документацию. Довольно много работы, но работадатель ожидал, что будет использоваться ИИ. ИИ все это сделал за 20 минут, полностью автономно. На вход файл с заданием в том виде, как прислали, на выход - полностью рабочий проект. Мне только один раз пришлось вмешаться и поправить ошибку в конфиге. Стоило это около $3 за апишки. Очевидно, что работадатель не в курсе и думает, что ИИ - это чатбот, генерящий код спипеты. Смысла в его домашке больше нет.

ИИ пишет две трети моего кода на работе и дома. Не как чатбот в браузере, а как агент в собственной IDE. Мы общаемся через чат, но у него доступ ко всем файлам проекта, консоли и интернету. Он что-то планирует, что-то делает, приходит с вопросами и сам решает, когда закончил. Я настраиваю что он может делать сам, а на что должен спрашивать разрешение. Он хорошо справляется с точечными хорошо описанными задачами и тестами. Довольно часто лажает, но не так, чтобы код перестал работать. Просто делает не совсем то, что мне нужно, и я поздно это замечаю. До идеала еще далеко. Нужен некоторый опыт, чтобы научиться понимать, что стоит делегировать, что нет. Но таких вещей не было год назад.

Да-да, я знаю, что выгляжу тут каким-то продавцом бус, и рука сама тянется поставить минус. Но вы сами пишете, что лень пробовать. Я пробую за вас. И за героев этой статьи, среди которым нет ни AI/ML специалистов, ни хотя бы просто энтузиастов. Ни одного серьезного ИИ инструмента названо не было.

1

Не нужно держать крипту на биржах и обменниках. Сколько их уже разорилось, сколько было взломано. Холодный кошелек решает все эти проблемы, если пароль не терять.

0

Вайб кодинг - это такая штука. Вместо того, чтобы составлять требования и потом по шагам их выполнять, ты даешь туманную задачу ИИ ассистенту, выключаешь все проверки, разрешаешь делать, что угодно, и уходишь гулять с собакой. ИИ нужен такой, чтобы умел крутиться в цикле, писать код, запускать, проверять, опять писать и так далее, пока сам не решит, что хватит. В результате получается не то, что ты просил, но в основном что-то рабочее и интересное. Всякие маленькие игры, безумные визуализации, странные, но визуально неплохие сайты. Андрей Карпаты - популярный мужик, так что все кругом подхватили тренд и тоже вайбкодят, часто без знания в программировании. Это ок, но дальше поста на реддите эти проекты никуда не идут.

0

В местах, откуда не увольняют, другие проблемы. Субботники и партбилет могут забрать. Но хотя бы с причиной, а не вот так бездушно - за низкий выхлоп труда

-4

Ну, по сути люди просят написать для них прилагу с ИИ за Х денег. Просто идут с этим на не Upwork, а на новые площадки, который родились вместе с хайпом

0

Если бездумно копировать код со stackoverflow, тоже багов много будет. Хотя, наверное, лет 10 назад точно так же писали, что поколение потеряно - джуны все копипастят с интернета

Исследование , сравнивающее GitHub Copilot, Amazon CodeWhisperer и ChatGPT, показало, что...

Очень скупой список инструментов. Я прошел по ссылке на исследование - оно 2023 года. CodeWhisperer давно мертв. Copilot только недавно догнал конкурентов и стал полезен, в 2023 году это был просто чатбот в IDE без возможности хоть как-то взаимодействовать с проектом. С того времени появилось много нового и интересного. Не только хайп и маркетиг. Появились штуки, которые понимают структуру проекта, могут читать и редактировать файлы, работать в консоли. Ну, и в реальной жизни за любой ИИ код все еще отвечает живой программист. Именно ему дадут в тык, когда на код-ревью или в тестировании вскроются баги, технических долг и всякие там уязвимости

0

Вас там наказывают за прямые ответы? Что за компания, которая на порядки опередила и чем?

1

Почему мертворожденные и что за компания? ЕПАМ? Я слышал, у них хорошо дела идут

Не, я понимаю, что ИИ всем надоел и всех раздражает. Но вон робособаки бегают по любым поверхностям - научились с ногами управляться. Почему так трудно представить, что руки рано или поздно тоже доведут до ума?

0

Этой статье не хватает самоиронии. Историй, как нехватка опыта таки вышла боком. Что это за техлид, у которого прод не падал в самый неудобный момент или заказчик не терял миллионы из-за глупого бага. Где разборки, где бунты команды и козни вражеских менеджеров? Такие беззубые истории успеха только в Линкедин писать.

2

А то, что технически он сделан так, что на поддержку постоянно нужно пять человек, чтобы всё не развалилось, никого не волнует. Да и эти пять человек не создают «бизнес-импакт» для компании, поэтому их бонусы будут минимальными

Ну, хз хз. В бигтехе очень любят слово ownership. Оно обычно вписано в принципы компании, так что ты еще на собесе начинаешь обещать, что овнершип у тебя в крови. Если твоему сервису нужна поддержка, то ты будешь первым среди поддерживающих. И за каждый косяк менеджер будет цокать языком и спрашивать, чего это твой сервис такой нестабильный. Особенно отстойно, когда твой код работает, как и должен, - проблема где-то дальше, - но тебя все равно будут дергать по каждому вопросу. В таких компания лучше всего тем, кто умудрился сделать просто, надежно и чтобы важная проблема решалась.

Что дальше?

Продолжать в том же духе? В США будет еще х2.

0

Все это не мешало Тесле хорошо продаваться и даже потеснить Королу в США. Когда вообще качество коррелировало с популярностью? BMW что - качественная машина? А эти "ноздри" объективно прекрасны и всеми любимы? Нужно просто меньше зиг кидать и меньше странам-союзникам угрожать экономической и возможно не только войной

3

В Европе есть несколько компаний, у которые довольно неплохие ИИ. Самая известная - Mistral. Сейчас у них затишье, но год назад они тягались с OpenAI, Anthropic и Google. Недавно они выпустили новую маленькую модель - и это сейчас лучшее, что можно захостить локально на видеокарте с 16 Gb VRAM

2

А чем они нарушают GDPR или другие законы? Какие такие персональные данные они собирают? Номера кретиток и емейлы - не больше, чем любой другой сайт в интернете

-1