Ну, или просто дела у OpenAI в последнее время не очень. Их лучшая текстовая модель больше не лидер. Их генератор видео Sora, который полгода назад поверг всех в шок, до сих пор не вышел. При этом вышло уже несколько других похожих продуктов, которые генерят видео не хуже тех, что были на демках Sora. Похожая история с их голосовой моделью. Еще от них ушел их главный ученый. В общем, дело может быть не только в регуляторах
С техническими деталями эта история была бы куда красочнее. Что за алгоритм такой, из-за которого все поссорились? Что вы там вообще делали, каков был вклад сошедшихся в поединке мастодонтов? А так, это не про булинг, а про затянувшийся конфликт, который никто не решал. Чем выше роль, тем больше таких конфликтов. Достижения заметнее, бонусы больше, цена ошибки выше - находится много желающих забрать чужие лавры и спихнуть свои проблемы на других. И все меньше желающих помочь решить конфликт. Особенно когда лиды разных команд не могут договориться. У каждого свой прямой менеджер - нужно более высоких управленцев подключать, чтобы порешали. HR ничего не сможет сделать, если нет конкретного харасмента или расизма. В общем, самому за себя стоять нужно. Или уходить.
Ну дык нейросетки не умеют создавать новое, только создавать компиляцию из старого
Ну, это очень спорно. Вот, например, интересное ИИ "творчество" https://www.reddit.com/r/ClaudeAI/comments/1dt73n6/sonnet_35_is_getting_wild_with_these_self/ Автор попросил Claude 3.5 Sonet изобразить себя на JS/HTML/CSS. Оно умеет писать и сразу выполнять код. Клод сначала выдал простой смайлик. После многих итераций с просьбой усложнить и добавить деталей получилось вот это. Я не знаю, можно ли считать это творчеством, но и просто компиляцией это назвать трудно. Особенно учитывая, что Клод можно объяснить, что именно он пытался изобразить.
Вообще, странно ожидать новое от "weather app". Это как попросить написать сюжет хоррора про подростков в заброшенном доме, а потом удивиться, что он похож на тысячи уже существующих хорроров.
Да вы как-то переусложняете. Да, было бы хорошо держать "в уме" всю книгу, но можно попробовать обойтись только небольшим куском. Остальное сложить в векторную базу и объяснить ЭйАй, как ей пользоваться. Он будет делать описание будущей картинки по текущему куску книги и ходить за деталями в базу. Это вполне может сработать. Генерилки картинок обычно разрешают загрузить одно или несколько изображений, чтобы брать их за основу. Можно грузить прошлые картинки или заранее сгенерить, например, основных персонажей. Это даст какую-то консистентность. В общем, можно пробовать и без команды ученых.
Ну, и там уже на подходе модели, создающие видео по тексту. Мне кажется, скоро мы увидим много подобных стартапов.
Как только меня посетила идея проект и придумался концепт, я сразу же сделал рендеры девайса в 3d
А зачем девайс для чего-то, что полностью софтверное? Почему просто не сделать приложение на телефоны и планшеты?
Про генерацию картинок на лету. У меня есть приложение, которое делает что-то похожее для ресторанных меню. Сфотографировал и чатишься, можешь попросить визуализировать какие-то блюда. Результаты временами шокирующие. Иногда оно (OpenAI Vision) рисует вполне себе фотореалистичные и адекватные вещи. Иногда выдает абстракции, где пармезан парит на фоне галактик. Или доисторических людей, жарящих мамонта на вертеле. И почти никогда не может выдать нужное количество пальцев. Еще, очень трудно уговорить нейронку рисовать только блюда из меню и ничего больше. Но, возможно, если вы нанимаете компанию, специализирующуюся на генерации картинок, у них найдется что-то более надежное.
Как вы собираетесь решать проблему копирайта? Планируете договариваться с авторами книг?
Это не я ваши коменты искажаю, а модерация. Они вас выше поцензурили и теперь не понятно. Возможно, там было что-то вроде "талантливые ребята" и расизм действительно для меня норма. Кстати, какая из моих букв на это указывает? Ви значит виндетта в Индии?
Звучит интересно. Наши ML команды всегда смотрят в сторону статистики, всяких алгоритмов с векторами и скорингом. Наверное, это проще объяснять, писать, дебажить
Я смотрел разные интервью с людьми из OpenAI - там тоже мало кто верил. Была только теория, что это должно скейлиться, но результатами были удивлены все.
По поводу GPT-3 - его локально запустить сложно, но есть модели меньше, которые догнали его по производительности. Год или два назад кто-то придумал mixture of exprets. Это 8 7B моделей разной специализации и роутер, который выбирает, какие 2 модели будут отвечать. Есть французская компания Mistral - они, наверное, вторые после Meta, кто онпенсорсит большие модели. Их mixtral-8x7B модели на какое-то время наводнили Huggingface, потому что это было лучшее, что можно можно получить от опенсорса, они били Llama2 70B. Мне удавалось запустить это на игровом компе со сносной скоростью работы.
Вообще, сейчас все работают над мультимоделями, которые могут принимать данные в разных форматах (текст, картинки) и превращать их в совместимые токены, которые дальше идут в одну нейронку. То же самое с выходом. Так что термин LLM уже к ним не подходит. Вот очень крутая бумага о том, как GPT-4o превращает картинки в токены: https://www.oranlooney.com/post/gpt-cnn/ Это спекуляции и реверс инжениринг, но мне это скидывал знакомый, который работал в OpenAI. Говорил, что похоже на правду.
Ваше мнение - и не более. Хватает тут статей, которые можно читать и обсуждать. А вот "осмысленные комментарии вдумчивого читателя" смотрятся глупо на фоне привычного в комментах треша. Не только из-за ботов
Хорошая статья. Сколько времени ушло на создание теории и прототипа? От идеи до анализа в Матлабе и дальше до первой версии приложения. Какие задачи вы ставили data scientists и как проверяли их работу? Как находили кардиологов и кардиохирургов и чем мотивировали их помочь? Какой вообще стек и как хостится, если не секрет?
Вот, например: https://www.youtube.com/watch?v=l8pRSuU81PU&t=162s&ab_channel=AndrejKarpathy
Упомянутый Анной Andrej Karpathy пишет и тренирует с нуля GPT-2 модель на 120M параметров. Если дома запускать не на чем, то аренда нужного железа будет стоит $10. Там в конце ролика можно увидеть, что эта штука вполне себе работает.
Еще меня впечатляют волшебники c Huggingface, который препарируют существущие модели и делают с ними просто непотижимую магию. Например, вот эта модель https://huggingface.co/upstage/SOLAR-10.7B-Instruct-v1.0 полгода назад была довольно популярна, потому что ненадолго обошла конкурентов аналогичного размера. Она была сделана из Llama2 путем отрезания слоев спереди и сзадали, а потом дублирование того, что осталось. Я так и не смог понять, как кто-то пришел к подобной идее и почему это сработало. Но тем, кто понимает подобные вещи, не нужны суперкомьютеры - они делают эсперименты дома.
Еще на подобную тему вот это исследование от Anthropic: https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html Их научный отдел смог подробно разобрать, что происходит под капотом их средней модели размером с GPT-3.5. Но перед тем, как им дали возможность работать с этой моделью, они вывели теорию и опробовали ее на очень маленькой модели с 1 слоем. Только когда они проверили алгоритмы и доказали, что их можно скейлить на больший маштаб, им дали ресурсы пробовать дальше. Им нужно было по-новому тренировать модель, чтобы их алгоритмы работали. Выходит, что даже у самых умных в самых крутых AI компаниях проблемы с доступом к большим моделям. Наверное, эсперименты с GPT-4 - это как работа с телескопом James Webb. Стоишь полгода в очереди, чтобы за бешеные даньги получить достун на час.
Автор берет LLaMA3 и дообучает своими датасетами, ослабляющими цензуру. It took 2.5 days on 8x L40S. L40S на RunPod стоит $1.09 в час. Наверное, можно найти и дешевле. Конечно, его датасеты намного меньше 40-50Gb. Но так ли нужно столько данных? Их ведь еще готовить нужно, в инструкции превращать. Наверное, ML инженер нашел бы какой-то компромис или способ оптимизаци. На мой взгляд, для компаний это вполне поэъемные расходы, было бы желание
ML - это не только LLM. Это больше про данные и выводы по ним. Например, дали много логов и просят сделать что-то, что поможет ошибки предугадывать. А ML инженер должен придумать как это сделать, какие алгоритмы и методы применить. Может даже задачи не быть - просто данные, а что с ними сделать можно - это тоже нужно найти. У нас ML команда ломает голову над тем, как разбить сеть на сегменты и рекомендовать правила доступа на основании трафика. В самом начале даже трафик не дали в нужных количествах - только спекуляции, каким он будет. Прежде, чем что-то делать, обычно садишься и ищешь уже существующие научные работы на похожую тему. Наверняка, кто-то уже анализировал трафик. Находишь работу, где предлагается вырабатывать типовые шаблоны трафика и вешать лейблы на каждый flow. Интересно, но для кластеризации не годится. Зато можно вредителей вычислять. У нас на ресурсы в сети тэги вешаются, может быть, этим алгоритмом можно тэги рекомендовать - надо запомнить. В другой работе выводят зависмости между разными flow и ищут паттерны там. Это уже лучше, то тоже не то. В итоге пишется какой-то свой алгоритм. Часто можно отделаться простой линейной алгеброй - векторами и всякими средними значениями. Бывает, что нужно идти в дебри статистики. Тренировать LLM для этой задачи нет смысла. Вернее, смысл можно было бы поискать, но денег никто не даст
Perplexity очень плох для решений. Он все гуглит и потом собирает ответ из поисковой выдачи. Copilot меня лично давно разочаровал, но многие его любят. Сhatgpt 4o может решить какие-то medium задачи с LeetCode. Какие-то не может. Очень сильно зависит от того, как спросить. Если просто скинуть условие - шанс на успех будет довольно низким. Если сначала спросить, на какую тему задача, какие способы решения он видит, оценить каждый способ, попросить написать его по частям - результат будет лучше. Особенно, если самому тоже думать. Сhatgpt 4 немного сообразительнее 4o. Но мой номер один для коддинга - Claude 3 Opus
Вот это душниловка в комментах. Надеюсь, вы найдете способ ее побороть, а то это не дело. Сколько лет уже вас тут читаю, а никакого комьюнити так и не заметил. Собрать бы как-то людей по интересам, дать им возможность самим фильтровать комментарии в своих разделах, как-то оградить обсуждения от товарищей вроде dududu. Ну, или что-то попроще в условиях ограниченных рабочих рук, но эффективное. В Беларуси вот тоже ресурсов мало, но все по струночке ходят. Даст бог, AGI скоро подъедет, сможете нанять себе ИИ программистов и модераторов.
Веса это условная вероятность. Условие — контекст (prompt).
Вероятность чего и что значит "условная"? Если условие - это контекст, то условная веростность - это... вероятность контекста? Я не понимаю, что вы хотите сказать. Веса сами по себе не имеют ничего, связанного с вероятностями. Там перемножаются вектора и результат пропускается через функцию активации. В обратную сторону - через производную этой функции. Школьная математика - ни одной формулы из теорвера в базовой нейронке нет. Вероятности там в другом контексте находятся
Теперь вопрос, а откуда для обучения берется целевая переменная?
Я выше довольно подробно расписал
Да, и это не обучения без учителя
Это не так. Pre-training - без учителя, fine-tunning - с учителем
Что-то вы знаете, но, похоже, страх показаться дураком мешает просто взять и нормально поговорить. Местные ИИ эксперты засмеют. Поэтому у нас тут ансамбль регрессий и прочие криптические послания. Вот только почему-то у вас ИИ даже простую задачу выполнить не может, а я с его помощью проекты делаю
Комментарии
Ну, или просто дела у OpenAI в последнее время не очень. Их лучшая текстовая модель больше не лидер. Их генератор видео Sora, который полгода назад поверг всех в шок, до сих пор не вышел. При этом вышло уже несколько других похожих продуктов, которые генерят видео не хуже тех, что были на демках Sora. Похожая история с их голосовой моделью. Еще от них ушел их главный ученый. В общем, дело может быть не только в регуляторах
С техническими деталями эта история была бы куда красочнее. Что за алгоритм такой, из-за которого все поссорились? Что вы там вообще делали, каков был вклад сошедшихся в поединке мастодонтов? А так, это не про булинг, а про затянувшийся конфликт, который никто не решал. Чем выше роль, тем больше таких конфликтов. Достижения заметнее, бонусы больше, цена ошибки выше - находится много желающих забрать чужие лавры и спихнуть свои проблемы на других. И все меньше желающих помочь решить конфликт. Особенно когда лиды разных команд не могут договориться. У каждого свой прямой менеджер - нужно более высоких управленцев подключать, чтобы порешали. HR ничего не сможет сделать, если нет конкретного харасмента или расизма. В общем, самому за себя стоять нужно. Или уходить.
Просто какой-то Доктор Зло
Ну, это очень спорно. Вот, например, интересное ИИ "творчество" https://www.reddit.com/r/ClaudeAI/comments/1dt73n6/sonnet_35_is_getting_wild_with_these_self/ Автор попросил Claude 3.5 Sonet изобразить себя на JS/HTML/CSS. Оно умеет писать и сразу выполнять код. Клод сначала выдал простой смайлик. После многих итераций с просьбой усложнить и добавить деталей получилось вот это. Я не знаю, можно ли считать это творчеством, но и просто компиляцией это назвать трудно. Особенно учитывая, что Клод можно объяснить, что именно он пытался изобразить.
Вообще, странно ожидать новое от "weather app". Это как попросить написать сюжет хоррора про подростков в заброшенном доме, а потом удивиться, что он похож на тысячи уже существующих хорроров.
Да вы как-то переусложняете. Да, было бы хорошо держать "в уме" всю книгу, но можно попробовать обойтись только небольшим куском. Остальное сложить в векторную базу и объяснить ЭйАй, как ей пользоваться. Он будет делать описание будущей картинки по текущему куску книги и ходить за деталями в базу. Это вполне может сработать. Генерилки картинок обычно разрешают загрузить одно или несколько изображений, чтобы брать их за основу. Можно грузить прошлые картинки или заранее сгенерить, например, основных персонажей. Это даст какую-то консистентность. В общем, можно пробовать и без команды ученых.
Ну, и там уже на подходе модели, создающие видео по тексту. Мне кажется, скоро мы увидим много подобных стартапов.
А зачем девайс для чего-то, что полностью софтверное? Почему просто не сделать приложение на телефоны и планшеты?
Про генерацию картинок на лету. У меня есть приложение, которое делает что-то похожее для ресторанных меню. Сфотографировал и чатишься, можешь попросить визуализировать какие-то блюда. Результаты временами шокирующие. Иногда оно (OpenAI Vision) рисует вполне себе фотореалистичные и адекватные вещи. Иногда выдает абстракции, где пармезан парит на фоне галактик. Или доисторических людей, жарящих мамонта на вертеле. И почти никогда не может выдать нужное количество пальцев. Еще, очень трудно уговорить нейронку рисовать только блюда из меню и ничего больше. Но, возможно, если вы нанимаете компанию, специализирующуюся на генерации картинок, у них найдется что-то более надежное.
Как вы собираетесь решать проблему копирайта? Планируете договариваться с авторами книг?
Это не я ваши коменты искажаю, а модерация. Они вас выше поцензурили и теперь не понятно. Возможно, там было что-то вроде "талантливые ребята" и расизм действительно для меня норма. Кстати, какая из моих букв на это указывает? Ви значит виндетта в Индии?
Ну, то есть, вам насильно дали не пойми кого, но вы не на начальство за это жалуетесь, а на весь индийский род. И лидов в ЕПАМ.
У вас в тиме ровно такие индусы, каких вы наняли
Это фразы в пустоту, на которые сейчас, в 2024, некому ответить. Злорадство в тряпочку.
Звучит интересно. Наши ML команды всегда смотрят в сторону статистики, всяких алгоритмов с векторами и скорингом. Наверное, это проще объяснять, писать, дебажить
Я смотрел разные интервью с людьми из OpenAI - там тоже мало кто верил. Была только теория, что это должно скейлиться, но результатами были удивлены все.
По поводу GPT-3 - его локально запустить сложно, но есть модели меньше, которые догнали его по производительности. Год или два назад кто-то придумал mixture of exprets. Это 8 7B моделей разной специализации и роутер, который выбирает, какие 2 модели будут отвечать. Есть французская компания Mistral - они, наверное, вторые после Meta, кто онпенсорсит большие модели. Их mixtral-8x7B модели на какое-то время наводнили Huggingface, потому что это было лучшее, что можно можно получить от опенсорса, они били Llama2 70B. Мне удавалось запустить это на игровом компе со сносной скоростью работы.
Вообще, сейчас все работают над мультимоделями, которые могут принимать данные в разных форматах (текст, картинки) и превращать их в совместимые токены, которые дальше идут в одну нейронку. То же самое с выходом. Так что термин LLM уже к ним не подходит. Вот очень крутая бумага о том, как GPT-4o превращает картинки в токены: https://www.oranlooney.com/post/gpt-cnn/ Это спекуляции и реверс инжениринг, но мне это скидывал знакомый, который работал в OpenAI. Говорил, что похоже на правду.
Ваше мнение - и не более. Хватает тут статей, которые можно читать и обсуждать. А вот "осмысленные комментарии вдумчивого читателя" смотрятся глупо на фоне привычного в комментах треша. Не только из-за ботов
Хорошая статья. Сколько времени ушло на создание теории и прототипа? От идеи до анализа в Матлабе и дальше до первой версии приложения. Какие задачи вы ставили data scientists и как проверяли их работу? Как находили кардиологов и кардиохирургов и чем мотивировали их помочь? Какой вообще стек и как хостится, если не секрет?
Вот, например: https://www.youtube.com/watch?v=l8pRSuU81PU&t=162s&ab_channel=AndrejKarpathy
Упомянутый Анной Andrej Karpathy пишет и тренирует с нуля GPT-2 модель на 120M параметров. Если дома запускать не на чем, то аренда нужного железа будет стоит $10. Там в конце ролика можно увидеть, что эта штука вполне себе работает.
Еще меня впечатляют волшебники c Huggingface, который препарируют существущие модели и делают с ними просто непотижимую магию. Например, вот эта модель https://huggingface.co/upstage/SOLAR-10.7B-Instruct-v1.0 полгода назад была довольно популярна, потому что ненадолго обошла конкурентов аналогичного размера. Она была сделана из Llama2 путем отрезания слоев спереди и сзадали, а потом дублирование того, что осталось. Я так и не смог понять, как кто-то пришел к подобной идее и почему это сработало. Но тем, кто понимает подобные вещи, не нужны суперкомьютеры - они делают эсперименты дома.
Еще на подобную тему вот это исследование от Anthropic: https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html Их научный отдел смог подробно разобрать, что происходит под капотом их средней модели размером с GPT-3.5. Но перед тем, как им дали возможность работать с этой моделью, они вывели теорию и опробовали ее на очень маленькой модели с 1 слоем. Только когда они проверили алгоритмы и доказали, что их можно скейлить на больший маштаб, им дали ресурсы пробовать дальше. Им нужно было по-новому тренировать модель, чтобы их алгоритмы работали. Выходит, что даже у самых умных в самых крутых AI компаниях проблемы с доступом к большим моделям. Наверное, эсперименты с GPT-4 - это как работа с телескопом James Webb. Стоишь полгода в очереди, чтобы за бешеные даньги получить достун на час.
Вот, например, популярная на Huggingface модель Dolphin поверх LLaMA3: https://huggingface.co/cognitivecomputations/dolphin-2.9-llama3-8b
Автор берет LLaMA3 и дообучает своими датасетами, ослабляющими цензуру. It took 2.5 days on 8x L40S. L40S на RunPod стоит $1.09 в час. Наверное, можно найти и дешевле. Конечно, его датасеты намного меньше 40-50Gb. Но так ли нужно столько данных? Их ведь еще готовить нужно, в инструкции превращать. Наверное, ML инженер нашел бы какой-то компромис или способ оптимизаци. На мой взгляд, для компаний это вполне поэъемные расходы, было бы желание
ML - это не только LLM. Это больше про данные и выводы по ним. Например, дали много логов и просят сделать что-то, что поможет ошибки предугадывать. А ML инженер должен придумать как это сделать, какие алгоритмы и методы применить. Может даже задачи не быть - просто данные, а что с ними сделать можно - это тоже нужно найти. У нас ML команда ломает голову над тем, как разбить сеть на сегменты и рекомендовать правила доступа на основании трафика. В самом начале даже трафик не дали в нужных количествах - только спекуляции, каким он будет. Прежде, чем что-то делать, обычно садишься и ищешь уже существующие научные работы на похожую тему. Наверняка, кто-то уже анализировал трафик. Находишь работу, где предлагается вырабатывать типовые шаблоны трафика и вешать лейблы на каждый flow. Интересно, но для кластеризации не годится. Зато можно вредителей вычислять. У нас на ресурсы в сети тэги вешаются, может быть, этим алгоритмом можно тэги рекомендовать - надо запомнить. В другой работе выводят зависмости между разными flow и ищут паттерны там. Это уже лучше, то тоже не то. В итоге пишется какой-то свой алгоритм. Часто можно отделаться простой линейной алгеброй - векторами и всякими средними значениями. Бывает, что нужно идти в дебри статистики. Тренировать LLM для этой задачи нет смысла. Вернее, смысл можно было бы поискать, но денег никто не даст
Perplexity очень плох для решений. Он все гуглит и потом собирает ответ из поисковой выдачи. Copilot меня лично давно разочаровал, но многие его любят. Сhatgpt 4o может решить какие-то medium задачи с LeetCode. Какие-то не может. Очень сильно зависит от того, как спросить. Если просто скинуть условие - шанс на успех будет довольно низким. Если сначала спросить, на какую тему задача, какие способы решения он видит, оценить каждый способ, попросить написать его по частям - результат будет лучше. Особенно, если самому тоже думать. Сhatgpt 4 немного сообразительнее 4o. Но мой номер один для коддинга - Claude 3 Opus
Вот это душниловка в комментах. Надеюсь, вы найдете способ ее побороть, а то это не дело. Сколько лет уже вас тут читаю, а никакого комьюнити так и не заметил. Собрать бы как-то людей по интересам, дать им возможность самим фильтровать комментарии в своих разделах, как-то оградить обсуждения от товарищей вроде dududu. Ну, или что-то попроще в условиях ограниченных рабочих рук, но эффективное. В Беларуси вот тоже ресурсов мало, но все по струночке ходят. Даст бог, AGI скоро подъедет, сможете нанять себе ИИ программистов и модераторов.
Очень поэтично
Вероятность чего и что значит "условная"? Если условие - это контекст, то условная веростность - это... вероятность контекста? Я не понимаю, что вы хотите сказать. Веса сами по себе не имеют ничего, связанного с вероятностями. Там перемножаются вектора и результат пропускается через функцию активации. В обратную сторону - через производную этой функции. Школьная математика - ни одной формулы из теорвера в базовой нейронке нет. Вероятности там в другом контексте находятся
Я выше довольно подробно расписал
Это не так. Pre-training - без учителя, fine-tunning - с учителем
Что-то вы знаете, но, похоже, страх показаться дураком мешает просто взять и нормально поговорить. Местные ИИ эксперты засмеют. Поэтому у нас тут ансамбль регрессий и прочие криптические послания. Вот только почему-то у вас ИИ даже простую задачу выполнить не может, а я с его помощью проекты делаю