Статья норм, но как-то так написана, что трудно понять, о чем речь.
Тут смешаны две разные вещи. Reward Hacking - это термин из мира, где ИИ решает задачи с хорошо понятной целью, которую можно оценить формулой. Например, игра в шахматы. Каждая позиция имеет оценку, каждый ход меняет ее в полжительную или отрицательную сторону. Значит, после каждого хода алгоритму можно дать фитбек, а он будет на него реагировать. Может получится так, что модель будет получать хороший фитбек за какие-то неправильные действия. Например, если она найдет баг в шахматной программе, который мгновенно приводит к победе, она тут же начнет им пользоваться. Это и есть reward hacking. Это обычно означает, что способ оценки и фитбек не достаточно хороши. Подбор reward function - это самая сложная проблема в таких алгоритмах.
С LLM все сложнее, т.к. нету четкого способа оценить ответ. Reward Hacking тут заключается в другом. Модель может начать давать такие ответы, которые кажутся хорошими, но на самом деле они предвзяты или искажены. Довольно очевидный способ обнаруждения такого - мониторить "мысли". По умолчанию модели не пытаются ничего в них скрывать и выдают себя с потрохами. Но есть интересные исследования, в которым модели начинали менять свои мысли, когда узнавали, что их читают. Причем, все - это не только особенность какой-то одной компании. Никто не знает, почему и как с этим бороться. Собственно, статья о том, что мониторинг и правка "плохих" мыслей не решают проблему - модель все равно найдет способы работать не так, как задумано, на долгом отрезке времени.
ИИ запчасть по вин номеру подобрать не может , дать контакт логиста дешёвого с точной ценой для перевоза груза между континентами, найти нужный контакт , дать правильную бюрократическую процедуру натурализации например водительского удостоверения в новой стране экспату, отдать email рекрутера или даже правильный контакт снимающего рекрутера в большой компании
Все это ИИ, как раз, может. Нужно только дать ему инструменты поиска, и цикл, чтоб он мог в нем немного поработать перед финальным ответом. И модели для realtime разговора с вызовом инструментов в процессе уже есть. Думаю, что работам, где нужно просто разговаривать, задавать вопросы, записывать ответы и самому на что-то отвечать, осталось очень не долго.
Было бы интересно послушать про конкретные инструменты. С ATS системами все понятно - они были и до ИИ. С резюме тоже все понятно. А что за боты-автозаполнители? Что за ИИ ассистенты на интервью?
Не так-то просто все это настроить и эффективно использовать. Попробуйте, например, заставить ИИ зарегаться на девбай и оставить коммент. Даже OpenAI Operator за $200/месяц может надорваться. Возможно, если человек смог обойти все ваши ATS и интервью с помощью каких-то инструментов, он неплохой инженер.
И, по-моему, вы никак не ответили на вопрос в заголовке. На данном эпате рекрутер - бутылочное горлышко. Он тратит меньше минуты на просмотр резюме, он не ходит по ссылкам на гитхаб, не ищет технические публикации кандидата, не смотрит его stackoverflow профиль. Рекрутер в принципе не обращает внимение на кандидата, если тот не смог пробиться через предварительные фильтры. Возможно, ИИ-рекрутер найдет на все это время.
Я дал задачу найти способ зарегаться тут и оставить коммент под новосью о себе. Он создал фейковый емейл, прошел капчу, нашел тему и оставил коммент. Пользы тут, может, и не много (для меня), но по-моему, это некоторый шаг вперед по сравнению со змейкой.
Это я попросил его найти способ загегаться на dev.by, затем оставить тут коммент сообществу.
А вы говорите, не идеальный инструмент. Были некоторые сложности с навигацией тут - русский плохо дается. Мне пришлось подсказать, что нужно пройти в ленту и оттуда на вторую страницу - сам он не мог через поиск найти тему. Но все равно впечатляет. Емейл создал и зарегался он сам. Капчу вообще прошел играючи.
Мой знакомый недавно показал мне домашку, которую ему на интервью выдали. Там нужно написать несколько независимых сервисов, которые через очередь общаются, внешний кэш/бд, слой REST API, все это завернуть в контенеры, покрыть тестами и написать документацию. Довольно много работы, но работадатель ожидал, что будет использоваться ИИ. ИИ все это сделал за 20 минут, полностью автономно. На вход файл с заданием в том виде, как прислали, на выход - полностью рабочий проект. Мне только один раз пришлось вмешаться и поправить ошибку в конфиге. Стоило это около $3 за апишки. Очевидно, что работадатель не в курсе и думает, что ИИ - это чатбот, генерящий код спипеты. Смысла в его домашке больше нет.
ИИ пишет две трети моего кода на работе и дома. Не как чатбот в браузере, а как агент в собственной IDE. Мы общаемся через чат, но у него доступ ко всем файлам проекта, консоли и интернету. Он что-то планирует, что-то делает, приходит с вопросами и сам решает, когда закончил. Я настраиваю что он может делать сам, а на что должен спрашивать разрешение. Он хорошо справляется с точечными хорошо описанными задачами и тестами. Довольно часто лажает, но не так, чтобы код перестал работать. Просто делает не совсем то, что мне нужно, и я поздно это замечаю. До идеала еще далеко. Нужен некоторый опыт, чтобы научиться понимать, что стоит делегировать, что нет. Но таких вещей не было год назад.
Да-да, я знаю, что выгляжу тут каким-то продавцом бус, и рука сама тянется поставить минус. Но вы сами пишете, что лень пробовать. Я пробую за вас. И за героев этой статьи, среди которым нет ни AI/ML специалистов, ни хотя бы просто энтузиастов. Ни одного серьезного ИИ инструмента названо не было.
Не нужно держать крипту на биржах и обменниках. Сколько их уже разорилось, сколько было взломано. Холодный кошелек решает все эти проблемы, если пароль не терять.
Вайб кодинг - это такая штука. Вместо того, чтобы составлять требования и потом по шагам их выполнять, ты даешь туманную задачу ИИ ассистенту, выключаешь все проверки, разрешаешь делать, что угодно, и уходишь гулять с собакой. ИИ нужен такой, чтобы умел крутиться в цикле, писать код, запускать, проверять, опять писать и так далее, пока сам не решит, что хватит. В результате получается не то, что ты просил, но в основном что-то рабочее и интересное. Всякие маленькие игры, безумные визуализации, странные, но визуально неплохие сайты. Андрей Карпаты - популярный мужик, так что все кругом подхватили тренд и тоже вайбкодят, часто без знания в программировании. Это ок, но дальше поста на реддите эти проекты никуда не идут.
В местах, откуда не увольняют, другие проблемы. Субботники и партбилет могут забрать. Но хотя бы с причиной, а не вот так бездушно - за низкий выхлоп труда
Ну, по сути люди просят написать для них прилагу с ИИ за Х денег. Просто идут с этим на не Upwork, а на новые площадки, который родились вместе с хайпом
Если бездумно копировать код со stackoverflow, тоже багов много будет. Хотя, наверное, лет 10 назад точно так же писали, что поколение потеряно - джуны все копипастят с интернета
Исследование , сравнивающее GitHub Copilot, Amazon CodeWhisperer и ChatGPT, показало, что...
Очень скупой список инструментов. Я прошел по ссылке на исследование - оно 2023 года. CodeWhisperer давно мертв. Copilot только недавно догнал конкурентов и стал полезен, в 2023 году это был просто чатбот в IDE без возможности хоть как-то взаимодействовать с проектом. С того времени появилось много нового и интересного. Не только хайп и маркетиг. Появились штуки, которые понимают структуру проекта, могут читать и редактировать файлы, работать в консоли. Ну, и в реальной жизни за любой ИИ код все еще отвечает живой программист. Именно ему дадут в тык, когда на код-ревью или в тестировании вскроются баги, технических долг и всякие там уязвимости
Почему мертворожденные и что за компания? ЕПАМ? Я слышал, у них хорошо дела идут
Не, я понимаю, что ИИ всем надоел и всех раздражает. Но вон робособаки бегают по любым поверхностям - научились с ногами управляться. Почему так трудно представить, что руки рано или поздно тоже доведут до ума?
Этой статье не хватает самоиронии. Историй, как нехватка опыта таки вышла боком. Что это за техлид, у которого прод не падал в самый неудобный момент или заказчик не терял миллионы из-за глупого бага. Где разборки, где бунты команды и козни вражеских менеджеров? Такие беззубые истории успеха только в Линкедин писать.
А то, что технически он сделан так, что на поддержку постоянно нужно пять человек, чтобы всё не развалилось, никого не волнует. Да и эти пять человек не создают «бизнес-импакт» для компании, поэтому их бонусы будут минимальными
Ну, хз хз. В бигтехе очень любят слово ownership. Оно обычно вписано в принципы компании, так что ты еще на собесе начинаешь обещать, что овнершип у тебя в крови. Если твоему сервису нужна поддержка, то ты будешь первым среди поддерживающих. И за каждый косяк менеджер будет цокать языком и спрашивать, чего это твой сервис такой нестабильный. Особенно отстойно, когда твой код работает, как и должен, - проблема где-то дальше, - но тебя все равно будут дергать по каждому вопросу. В таких компания лучше всего тем, кто умудрился сделать просто, надежно и чтобы важная проблема решалась.
Все это не мешало Тесле хорошо продаваться и даже потеснить Королу в США. Когда вообще качество коррелировало с популярностью? BMW что - качественная машина? А эти "ноздри" объективно прекрасны и всеми любимы? Нужно просто меньше зиг кидать и меньше странам-союзникам угрожать экономической и возможно не только войной
В Европе есть несколько компаний, у которые довольно неплохие ИИ. Самая известная - Mistral. Сейчас у них затишье, но год назад они тягались с OpenAI, Anthropic и Google. Недавно они выпустили новую маленькую модель - и это сейчас лучшее, что можно захостить локально на видеокарте с 16 Gb VRAM
А чем они нарушают GDPR или другие законы? Какие такие персональные данные они собирают? Номера кретиток и емейлы - не больше, чем любой другой сайт в интернете
Комментарии
Статья норм, но как-то так написана, что трудно понять, о чем речь.
Тут смешаны две разные вещи. Reward Hacking - это термин из мира, где ИИ решает задачи с хорошо понятной целью, которую можно оценить формулой. Например, игра в шахматы. Каждая позиция имеет оценку, каждый ход меняет ее в полжительную или отрицательную сторону. Значит, после каждого хода алгоритму можно дать фитбек, а он будет на него реагировать. Может получится так, что модель будет получать хороший фитбек за какие-то неправильные действия. Например, если она найдет баг в шахматной программе, который мгновенно приводит к победе, она тут же начнет им пользоваться. Это и есть reward hacking. Это обычно означает, что способ оценки и фитбек не достаточно хороши. Подбор reward function - это самая сложная проблема в таких алгоритмах.
С LLM все сложнее, т.к. нету четкого способа оценить ответ. Reward Hacking тут заключается в другом. Модель может начать давать такие ответы, которые кажутся хорошими, но на самом деле они предвзяты или искажены. Довольно очевидный способ обнаруждения такого - мониторить "мысли". По умолчанию модели не пытаются ничего в них скрывать и выдают себя с потрохами. Но есть интересные исследования, в которым модели начинали менять свои мысли, когда узнавали, что их читают. Причем, все - это не только особенность какой-то одной компании. Никто не знает, почему и как с этим бороться. Собственно, статья о том, что мониторинг и правка "плохих" мыслей не решают проблему - модель все равно найдет способы работать не так, как задумано, на долгом отрезке времени.
Все это ИИ, как раз, может. Нужно только дать ему инструменты поиска, и цикл, чтоб он мог в нем немного поработать перед финальным ответом. И модели для realtime разговора с вызовом инструментов в процессе уже есть. Думаю, что работам, где нужно просто разговаривать, задавать вопросы, записывать ответы и самому на что-то отвечать, осталось очень не долго.
Было бы интересно послушать про конкретные инструменты. С ATS системами все понятно - они были и до ИИ. С резюме тоже все понятно. А что за боты-автозаполнители? Что за ИИ ассистенты на интервью?
Не так-то просто все это настроить и эффективно использовать. Попробуйте, например, заставить ИИ зарегаться на девбай и оставить коммент. Даже OpenAI Operator за $200/месяц может надорваться. Возможно, если человек смог обойти все ваши ATS и интервью с помощью каких-то инструментов, он неплохой инженер.
И, по-моему, вы никак не ответили на вопрос в заголовке. На данном эпате рекрутер - бутылочное горлышко. Он тратит меньше минуты на просмотр резюме, он не ходит по ссылкам на гитхаб, не ищет технические публикации кандидата, не смотрит его stackoverflow профиль. Рекрутер в принципе не обращает внимение на кандидата, если тот не смог пробиться через предварительные фильтры. Возможно, ИИ-рекрутер найдет на все это время.
И свет отключить, чтобы друг другу в мониторы не подглядывали
Ну, или вот вам еще пример: https://devby.io/news/v-seti-zavirusilsya-novyi-kitaiskii-ii-agent-manus-ego-nazyvaut-vtorym-deepseek
Я дал задачу найти способ зарегаться тут и оставить коммент под новосью о себе. Он создал фейковый емейл, прошел капчу, нашел тему и оставил коммент. Пользы тут, может, и не много (для меня), но по-моему, это некоторый шаг вперед по сравнению со змейкой.
Это я попросил его найти способ загегаться на dev.by, затем оставить тут коммент сообществу.
А вы говорите, не идеальный инструмент. Были некоторые сложности с навигацией тут - русский плохо дается. Мне пришлось подсказать, что нужно пройти в ленту и оттуда на вторую страницу - сам он не мог через поиск найти тему. Но все равно впечатляет. Емейл создал и зарегался он сам. Капчу вообще прошел играючи.
Мой знакомый недавно показал мне домашку, которую ему на интервью выдали. Там нужно написать несколько независимых сервисов, которые через очередь общаются, внешний кэш/бд, слой REST API, все это завернуть в контенеры, покрыть тестами и написать документацию. Довольно много работы, но работадатель ожидал, что будет использоваться ИИ. ИИ все это сделал за 20 минут, полностью автономно. На вход файл с заданием в том виде, как прислали, на выход - полностью рабочий проект. Мне только один раз пришлось вмешаться и поправить ошибку в конфиге. Стоило это около $3 за апишки. Очевидно, что работадатель не в курсе и думает, что ИИ - это чатбот, генерящий код спипеты. Смысла в его домашке больше нет.
ИИ пишет две трети моего кода на работе и дома. Не как чатбот в браузере, а как агент в собственной IDE. Мы общаемся через чат, но у него доступ ко всем файлам проекта, консоли и интернету. Он что-то планирует, что-то делает, приходит с вопросами и сам решает, когда закончил. Я настраиваю что он может делать сам, а на что должен спрашивать разрешение. Он хорошо справляется с точечными хорошо описанными задачами и тестами. Довольно часто лажает, но не так, чтобы код перестал работать. Просто делает не совсем то, что мне нужно, и я поздно это замечаю. До идеала еще далеко. Нужен некоторый опыт, чтобы научиться понимать, что стоит делегировать, что нет. Но таких вещей не было год назад.
Да-да, я знаю, что выгляжу тут каким-то продавцом бус, и рука сама тянется поставить минус. Но вы сами пишете, что лень пробовать. Я пробую за вас. И за героев этой статьи, среди которым нет ни AI/ML специалистов, ни хотя бы просто энтузиастов. Ни одного серьезного ИИ инструмента названо не было.
Не нужно держать крипту на биржах и обменниках. Сколько их уже разорилось, сколько было взломано. Холодный кошелек решает все эти проблемы, если пароль не терять.
Вайб кодинг - это такая штука. Вместо того, чтобы составлять требования и потом по шагам их выполнять, ты даешь туманную задачу ИИ ассистенту, выключаешь все проверки, разрешаешь делать, что угодно, и уходишь гулять с собакой. ИИ нужен такой, чтобы умел крутиться в цикле, писать код, запускать, проверять, опять писать и так далее, пока сам не решит, что хватит. В результате получается не то, что ты просил, но в основном что-то рабочее и интересное. Всякие маленькие игры, безумные визуализации, странные, но визуально неплохие сайты. Андрей Карпаты - популярный мужик, так что все кругом подхватили тренд и тоже вайбкодят, часто без знания в программировании. Это ок, но дальше поста на реддите эти проекты никуда не идут.
В местах, откуда не увольняют, другие проблемы. Субботники и партбилет могут забрать. Но хотя бы с причиной, а не вот так бездушно - за низкий выхлоп труда
Ну, по сути люди просят написать для них прилагу с ИИ за Х денег. Просто идут с этим на не Upwork, а на новые площадки, который родились вместе с хайпом
Если бездумно копировать код со stackoverflow, тоже багов много будет. Хотя, наверное, лет 10 назад точно так же писали, что поколение потеряно - джуны все копипастят с интернета
Очень скупой список инструментов. Я прошел по ссылке на исследование - оно 2023 года. CodeWhisperer давно мертв. Copilot только недавно догнал конкурентов и стал полезен, в 2023 году это был просто чатбот в IDE без возможности хоть как-то взаимодействовать с проектом. С того времени появилось много нового и интересного. Не только хайп и маркетиг. Появились штуки, которые понимают структуру проекта, могут читать и редактировать файлы, работать в консоли. Ну, и в реальной жизни за любой ИИ код все еще отвечает живой программист. Именно ему дадут в тык, когда на код-ревью или в тестировании вскроются баги, технических долг и всякие там уязвимости
Вас там наказывают за прямые ответы? Что за компания, которая на порядки опередила и чем?
Почему мертворожденные и что за компания? ЕПАМ? Я слышал, у них хорошо дела идут
Не, я понимаю, что ИИ всем надоел и всех раздражает. Но вон робособаки бегают по любым поверхностям - научились с ногами управляться. Почему так трудно представить, что руки рано или поздно тоже доведут до ума?
Этой статье не хватает самоиронии. Историй, как нехватка опыта таки вышла боком. Что это за техлид, у которого прод не падал в самый неудобный момент или заказчик не терял миллионы из-за глупого бага. Где разборки, где бунты команды и козни вражеских менеджеров? Такие беззубые истории успеха только в Линкедин писать.
Ну, хз хз. В бигтехе очень любят слово ownership. Оно обычно вписано в принципы компании, так что ты еще на собесе начинаешь обещать, что овнершип у тебя в крови. Если твоему сервису нужна поддержка, то ты будешь первым среди поддерживающих. И за каждый косяк менеджер будет цокать языком и спрашивать, чего это твой сервис такой нестабильный. Особенно отстойно, когда твой код работает, как и должен, - проблема где-то дальше, - но тебя все равно будут дергать по каждому вопросу. В таких компания лучше всего тем, кто умудрился сделать просто, надежно и чтобы важная проблема решалась.
Продолжать в том же духе? В США будет еще х2.
Все это не мешало Тесле хорошо продаваться и даже потеснить Королу в США. Когда вообще качество коррелировало с популярностью? BMW что - качественная машина? А эти "ноздри" объективно прекрасны и всеми любимы? Нужно просто меньше зиг кидать и меньше странам-союзникам угрожать экономической и возможно не только войной
В Европе есть несколько компаний, у которые довольно неплохие ИИ. Самая известная - Mistral. Сейчас у них затишье, но год назад они тягались с OpenAI, Anthropic и Google. Недавно они выпустили новую маленькую модель - и это сейчас лучшее, что можно захостить локально на видеокарте с 16 Gb VRAM
А чем они нарушают GDPR или другие законы? Какие такие персональные данные они собирают? Номера кретиток и емейлы - не больше, чем любой другой сайт в интернете
"зловеще реалистичные"