Спасибо. Всегда с интересом читаю, как наши коллеги и земляки устроились в других странах. Занимательно, но если говорить в общем, то сложности у всех почти одни и те же: язык, бюрократия, недвига, легализация, адаптация и создание социальных связей. Про деньги когда читаю, то понимаю, что примерно доход к расходам/налогам везде примерно одинаковый - хватает на крепкий средний (или чуть выше) уровень жизни. Страны разные, а приколы у всех примерно одинаковые :)
А вы за вот это ещё и подписку дерёте, что само по себе тот ещё беспредел
Ну, я как бы к этому проекту отношения не имею от слова совсем. А с тем, что на этой стадии подписку делать не стоит - полностью согласен. Здесь данных нужно насобирать, да побольше, а монетизацию на чём-то другом делать, например, скидки на обследования в медцентрах предлагать платных на ЭКГ и УЗИ, что-то в таком стиле.
Не как пульсометр. Если камеры сердца расширены или стенки утолщены, или нарушена сократительная активность, или если клапаны "сквозят" или наоборот стенозированы, если водители ритма сбоят (в сердце их несколько - СА-узел, АВ-узел, пучки Гисса) или появляются дополнительные очаги спонтанной активности. Всё это будет видно. Блокады с выпадением систол и прочие штуки. Но основная задача тут все же посигналить пациенту в стиле "у тебя там все не очень хорошо - сходи к врачу и сделай ЭКГ и УЗИ сердца".
@ade, для этого в проекте и участвуют дата сайнтисты: очистка шумов, автоматизированный анализ результатов и интерпретация этого всего - стандартная типовая задача. При избытке артефактов можно добавить алгоритм валидности собранных данных и если не получается очистить шумы и аномалии от мышечной активности, просить пациента переделать анализ. Единственное, что я посоветовал бы парням - это подключить научного консультанта, а лучше двух - физиолога/патофизиолога + кардиолога или врача функциональной дигностики (ЭКГ/УЗИ).
Alex V, у меня был занимательный опыт использования нейронки для компьютерного зрения под задачу навроде скоринга. Сеть новостных сайтов с платной подпиской собирала информацию о последовательности действий пользователей на сайте. И на основе этой последовательности нужно было предложить подписку с каким-то дисконтом так, чтобы точно попасть в результат: максимум прибыли для новостника, но так чтобы пользователь купил, а не отказался. Ну и для новых пользователей, принять решение, когда выводить пейволл, чтобы склонить к оплате, но не потерять. В итоге количество всяких мелких активностей, которые мониторились выросло почти до сотни + эмбэддинги контента и получался эдакий временной ряд, где токенами являются собственно действия юзера. Очень долго я мучался с понижением размерности, потом с разбалансированностью выборки, целая Санта-Барбара, а последний степ в этом стаке моделек все никак не поддавался. Ну, и я тогда решил извратиться - взял то ли ResNet, то ли какую-то модификацию (забыл уже). Уложил всю эту последовательность действий в двумерную матрицу и отмасштабировал фичи к пространству gray scale картинки. То есть история пользователя получилась эдаким черно-белым снимком, а потом на этих "снимках" затюнил классификатор ResNet. И прям сработало. Клиент был доволен, а я вытер холодный пот со лба, который выступил от ожидания лещей от руководства. Здесь же, насколько понимаю, происходит обратная трансформация - картинку превращают в последовательность токенов и скармливают генеративной текстовой модели.
Умные часы не сгенерируют ЭКГ. Для этого нужно как минимум одно отведение (рука-рука). То, что видим на картинке это проекция вектора разности потенциалов на плоскость между датчиками во времени, если совсем грубо. На сколько вращающаяся по определённой логике "стрела" определенной длинны выступает над поверхностью "воды", конец с острием над "водой" - зубцы вверх, конец с перьями - зубцы вниз. Поэтому в любом случае нужно два датчика на каждое отведение (они определяют расположение плоскости). Чем акселерометр лучше? Датчик только один и он по-умолчанию есть во всех смартфонах. В данном случае, можно это представить себе, как если бы на систему насосов с эластичными камерами положить плотный лист пластика с акселерометром на поверхности. И по изменениям направления, амплитуды и частоты оценивать правильность работы насоса, с учетом того, что мы знаем как он должен работать в норме. Безусловно, лучше бы снимать данные об электрической активности в отведениях, об объеме перекачиваемой жидкости, состоянии стенок и объемах полостей ультразвуком, о составе и реологических свойствах жидкости специальными анализаторами. Только это все дорого и требует как минимум нескольких более сложных и дорогих датчиков. А нам нужно грубо, быстро и бесплатно. Да, прогностическая ценность совсем не та, что у ЭКГ и УЗИ. Зато у всех есть и можно такое грубое тестирование проводить много раз за день.
Сердце - это мышечный орган, который работает механически и строго в определенной последовательности. Сокращение мышц имеет определённый паттерн, соответственно порождает некую апмлитуду сдвигов в трех плоскостях. Эти колебания передаются на поверхность грудной клетки. Если паттерн нарушается за счет изменений проводимости или структурных изменений (мышца стала больше, сокращается не вовремя, последовательность сокращений рассинхронизирована и т.п.), то мы увидим это на графике. В патанатомии и патофизиологии есть такой базовый принцип - единство структурных и функциональных изменений. Он подразумевает, что если что-то работает не правильно, то существует изменение структуры органа и наоборот. Мы знаем какими структурными изменениями сопровождаются нарушения (гипертрофия стенок, расширение полостей, вибрации, турбулентый и ретроградный ток крови при поражении клапанов итп). Может это и не даст нам возможности поставить диагноз, но даст пациенту тревожный сигнал, что здесь всё не очень хорошо и надо бы к врачу сходить и не затягивать это дело.
Конечно будет. Просто нужно учитывать в какой ситуации. Портативные электрокардиографы с тремя отведениями используются на скоряке. Там где нужно очень быстро посмотреть, есть ли угрожающее состояние и на него отреагировать до приезда в больницу, потому что можно не довезти. В случае с теми же аритмиями очень важно, какая именно аритмия - ибо мерцание предсердий, трепетания желудочков, и экстрасистолия из АВ-узла - это три разных подхода к первой помощи. Или просто паническая атака ("Сердце останавливается! Умираю!"). А бывает, что тебе пациент говорит, что у него под лопаткой болит, а там на ЭКГ видишь классическую "кошачью спинку" острого инфаркта миокарда. И ещё куча всяких приколов. Так что в условиях скоряка врач ЭКГ брезговать никогда не будет. А это конкретно приложение - мотивашка для тех кто чувствует, что что-то там не так, но не принял решение о походе к врачу по какой-либо причине и ему нужен "пинок" (какое-то побуждение к действию). Вот эта прилага и выступит таким стимулом. Профилактика - это всегда хорошо.
Не совсем нулевая. Определённый профилактический эффект может быть: человек не всегда чувствует что у него аритмия, особенно если это нарушения АВ-проводимости и неполные блокады ножек пучка Гисса без выпадения отдельных сокращений или экстрасистол. Ещё после перенесенных заболеваний инфекционных могут развиваться и прогрессировать пороки сердца, которые на начальных этапах человек не заметит (просто будет ощущать слабость), а потом уже кальцинаты разрушат клапан(ы) и будет горюшко, которое только операцией на сердце можно исправить. Вот для таких случаев это приложение будет полезно как быстрая и грубая профилактика. Увидел - иди к врачу обследоваться на ЭКГ и УЗИ.
Идея хорошая, но это не ЭКГ. Я по первой специальности врач-терапевт, поэтому скажу, что это приложение точно может быть полезным для диагностики некоторых аритмий и пороков сердца. Но тот же инфаркт, гипертрофию предсердий и желудочков, а так же изменения ЭОС и прочие важные сугубо электрические феномены, которые имеют конкретные последствия - будет не видно. Тем не менее, для быстрой и относительно грубой диагностики - метод просто огонь! То есть логика здесь будет сводится к тому, что если что-то вылезло - иди обследуйся. И хуже от этого не будет. Эдакий маячок, что надо бы сходить.
Только у меня возникает ощущение, что таким образом менеджмент пытается избежать сокращений на своей стороне? Ибо удалёнка показала, что айтишники - люди в целом довольно ответственные и не нуждаются в надсмотрщике с палкой, чтобы решать свои задачи. При этом люди вполне себе умеют контактировать удаленно [censored - П. 4.1.2. Пользовательского соглашения — https://devby.io/pages/polzovatelskoe-soglashenie] С другой стороны понимаю, накупили площадей и они простаивают, а хотелось бы как-то отчитаться о полезности этих трат. По личным ощущениям меня сейчас удалось бы заманить в офис при одном условии, если он будет расположен в 15 минутах пешком от дома. Да и то, мне дома сильно комфортнее - не люблю эти опен-спейсные боксы и толпу людей вокруг. Даже хороших людей.
Исследование Anthropic прямо зашло :) Это ж надо так изгалиться: продублировать слой, а между исходным и дубликатом воткнуть латентное пространство, чтобы получился автоэнкодер. А потом скармливать модели всякое неэтичное (и этичное тоже), чтобы посмотреть комбинации каких фичей оказывают наибольший эффект, чтобы потом усиливать/приглушать весовые коэффициенты комбинаций фичей, дабы ничего вредного не генерила модель.
С GPT и GPT-2 я пробовал. У меня где-то до сих пор лежит статья, где чел его пошагово поясняет в ходе написания кода. Когда его выпустили, я как раз первый раз устроился дата сайнтистом в одну минскую небольшую компанию. Но под наши задачи он не годился. Только поразвлекались с ним локально и отпустили с богом. Если честно, я тогда не верил, что из этого может что-то адекватное вырасти. Сама по себе моделька очень легкая и в принципе с ней можно развлекаться даже на обычном средненьком компе с видюхой, которая дружит с CUDA. И даже на голом проце. А вот GPT-3 и далее, там уже всё, облом. А вообще, спасибо за направление мысли, ведь действительно количество слоев и голов внимания можно уменьшить (собственно то, что скейлится). По сути, если оставить без скейлинга уникальные компоненты из одной архитектуры, а потом привнести от себя туда изменения и сравнить сначала этих мелких гоблинов друг против друга и попробовать скейлить, то с определённой степенью уверенности можно ожидать, что позитивный или негативный эффект от изменения проявится и (вероятно) кратно усилится при скейлинге.
Это я понимаю, такие задачи тоже бывают периодически. И поиск аномалий, и тэгирование, и скоринг, да много всякого рутинного. Так-то в большинстве случаев дип лернинг вообще не нужен. Классические модели вполне себе неплохо справляются. Но тут речь о том, чтобы какой-то топчик руками потрогать. И не апишку, а именно саму модель. То есть тут не вопрос "чем заняться", тут вопрос - где добыть возможности прокачаться в том, что ресурсоёмкое и поэтому не может быть изучено на собственном железе или силами малой или средней компании. Согласитесь, ведь те люди, которые работают с этими здоровенными топовыми моделями не родились со знаниями и навыками создания и тюнинга этих монстров. Где-то учились, как-то экспериментировали. И в этом собственно суть моего вопроса - где и как прокачаться?
Ну, повестку-то легко заменить и стоп-слова обходить. А вот изменить сам организационный алгоритм (продвигаем одну повестку, минусим-плюсуем не читая, тон задает старшина итп) - это гораздо сложнее. Вот там верно заметили, что когда тролль работает по накатанной, то для него это просто сродни работы саппорта. А если придётся менять алгоритмы, изгаляться с подачей повестки, регать по многу раз забаненные аккаунты, не палиться шаблонами активности и т.п. - вот от этого у ефрейторов пригорит. Ибо ферма это всегда низкоадаптивный механизм, управляемый центрально. Это ж мы пишем от себя и свободно, а там есть конкретный приказ что продвигать, где продвигать и конкретный рекомендованный механизм как именно это надо делать. Модель будет вычислять ферму быстрее, чем она будет начинать мешать жить местным. А ферме не хватит адаптивных ресурсов, чтобы создавать устойчивый и эффективный шаблон поведения каждую неделю.
Ну, будут шифровать до отправки в мессенджер. Плагинов понаписывают. Тоже мне проблема. Гибридное шифрование навроде ECC+AES на коленке можно написать.
Чот как-то Тесла и Амазона даже ниже рынка. Видимо посчитали всех вперемешку - и разработчиков, и курьеров, и работяг на складах и линиях. У яблока тоже как-то не огонь, видимо такая же ситуация: работяг на заводах посчитали вперемешку с разрабами.
И даже если взять pretrained модель и близкий к реальности датасет, скажем, на 40-50 ГБ, то файнтюнить её все равно получится очень и очень дорого. Такие развлечения себе только богатые галеры могут позволить. Видимо, надо идти учиться куда-то к производителям железа NVIDIA сейчас вроде дает возможность руками потрогать топовые модели. Но отзывов пока про их курсы не получал от знакомых. https://learn.nvidia.com/
Развивая мысль о дальнейшем развитии идеи с деревом, или в более широком смысле, графом. Уверен, что ботоферма - это всегда сущность медленная и действующая по шаблону. Соответственно, если вершинами являются аккаунты пользователей, а ребрами - взаимодействия между ними, то ферма будет действовать как сообщество внутри сообщества и из-за устоявшегося подхода у фермы будут появляться некие признаки поведения характерные. Как, впрочем, и у профессионального сообщества. Мы точно знаем как ферма себя ведёт и какие шаблоны продвигает, но сейчас делаем это интуитивно, а можно было бы поставить на поток. Скажем, раз в неделю обновлять граф, проводить его анализ и делать репорт модерам на зачистку. Технически это будет недорого: эмбеддинги от названия и тела статьи получить, эмбэддинги от комментов, направления рёбер (кто кому какое действие совершает или пишет), складываем в графовую и векторную базы, а дальше мануальная разметка, кластерный анализ и какой-нибудь классификатор (тот же градиентный бустинг вполне подойдёт) и репорт модеру на стол ежедневный о подозрительной активности. Менять шаблоны, читай переписывать методички, каждую неделю ефрейторам никаких сил не хватит, работать без методички им нельзя - как бы конфуза с начальством не вышло, а встроиться в шаблон профессионального сообщества им нельзя, потому что тогда выйдет, что они на нашу мельницу воду льют.
Да, собственно, за счёт такого рынка и кормимся. То, что можно назвать малыми (инференс на устройстве) и средними (инференс на инстансе) моделями. Плюс third-part API, которые облачные провайдеры предоставляют (там у них целые model zoo, model garden-ы): получил эмбэддинги или результаты инференса чужой модели и дальше с ними там дорабатываешь, или даже дотюнил её иногда средствами поставщика. Это востребованно и на этом вполне можно зарабатывать, но дотянуться до самого "вкусного", cutting edge SoTA, тоже бы хотелось. А то возникает ощущение застоя. Отчасти помогает улучшить ситуацию появление хороших производительных векторных баз данных и соответствующих плагинов для уже существующих, но у меня лично без доступа к топчику грусть и тоска развиваются.
Комментарии
Спасибо. Всегда с интересом читаю, как наши коллеги и земляки устроились в других странах. Занимательно, но если говорить в общем, то сложности у всех почти одни и те же: язык, бюрократия, недвига, легализация, адаптация и создание социальных связей. Про деньги когда читаю, то понимаю, что примерно доход к расходам/налогам везде примерно одинаковый - хватает на крепкий средний (или чуть выше) уровень жизни. Страны разные, а приколы у всех примерно одинаковые :)
Ну, я как бы к этому проекту отношения не имею от слова совсем. А с тем, что на этой стадии подписку делать не стоит - полностью согласен. Здесь данных нужно насобирать, да побольше, а монетизацию на чём-то другом делать, например, скидки на обследования в медцентрах предлагать платных на ЭКГ и УЗИ, что-то в таком стиле.
Не как пульсометр. Если камеры сердца расширены или стенки утолщены, или нарушена сократительная активность, или если клапаны "сквозят" или наоборот стенозированы, если водители ритма сбоят (в сердце их несколько - СА-узел, АВ-узел, пучки Гисса) или появляются дополнительные очаги спонтанной активности. Всё это будет видно. Блокады с выпадением систол и прочие штуки. Но основная задача тут все же посигналить пациенту в стиле "у тебя там все не очень хорошо - сходи к врачу и сделай ЭКГ и УЗИ сердца".
@ade, для этого в проекте и участвуют дата сайнтисты: очистка шумов, автоматизированный анализ результатов и интерпретация этого всего - стандартная типовая задача. При избытке артефактов можно добавить алгоритм валидности собранных данных и если не получается очистить шумы и аномалии от мышечной активности, просить пациента переделать анализ. Единственное, что я посоветовал бы парням - это подключить научного консультанта, а лучше двух - физиолога/патофизиолога + кардиолога или врача функциональной дигностики (ЭКГ/УЗИ).
Alex V, у меня был занимательный опыт использования нейронки для компьютерного зрения под задачу навроде скоринга. Сеть новостных сайтов с платной подпиской собирала информацию о последовательности действий пользователей на сайте. И на основе этой последовательности нужно было предложить подписку с каким-то дисконтом так, чтобы точно попасть в результат: максимум прибыли для новостника, но так чтобы пользователь купил, а не отказался. Ну и для новых пользователей, принять решение, когда выводить пейволл, чтобы склонить к оплате, но не потерять. В итоге количество всяких мелких активностей, которые мониторились выросло почти до сотни + эмбэддинги контента и получался эдакий временной ряд, где токенами являются собственно действия юзера. Очень долго я мучался с понижением размерности, потом с разбалансированностью выборки, целая Санта-Барбара, а последний степ в этом стаке моделек все никак не поддавался. Ну, и я тогда решил извратиться - взял то ли ResNet, то ли какую-то модификацию (забыл уже). Уложил всю эту последовательность действий в двумерную матрицу и отмасштабировал фичи к пространству gray scale картинки. То есть история пользователя получилась эдаким черно-белым снимком, а потом на этих "снимках" затюнил классификатор ResNet. И прям сработало. Клиент был доволен, а я вытер холодный пот со лба, который выступил от ожидания лещей от руководства. Здесь же, насколько понимаю, происходит обратная трансформация - картинку превращают в последовательность токенов и скармливают генеративной текстовой модели.
Умные часы не сгенерируют ЭКГ. Для этого нужно как минимум одно отведение (рука-рука). То, что видим на картинке это проекция вектора разности потенциалов на плоскость между датчиками во времени, если совсем грубо. На сколько вращающаяся по определённой логике "стрела" определенной длинны выступает над поверхностью "воды", конец с острием над "водой" - зубцы вверх, конец с перьями - зубцы вниз. Поэтому в любом случае нужно два датчика на каждое отведение (они определяют расположение плоскости). Чем акселерометр лучше? Датчик только один и он по-умолчанию есть во всех смартфонах. В данном случае, можно это представить себе, как если бы на систему насосов с эластичными камерами положить плотный лист пластика с акселерометром на поверхности. И по изменениям направления, амплитуды и частоты оценивать правильность работы насоса, с учетом того, что мы знаем как он должен работать в норме. Безусловно, лучше бы снимать данные об электрической активности в отведениях, об объеме перекачиваемой жидкости, состоянии стенок и объемах полостей ультразвуком, о составе и реологических свойствах жидкости специальными анализаторами. Только это все дорого и требует как минимум нескольких более сложных и дорогих датчиков. А нам нужно грубо, быстро и бесплатно. Да, прогностическая ценность совсем не та, что у ЭКГ и УЗИ. Зато у всех есть и можно такое грубое тестирование проводить много раз за день.
Сердце - это мышечный орган, который работает механически и строго в определенной последовательности. Сокращение мышц имеет определённый паттерн, соответственно порождает некую апмлитуду сдвигов в трех плоскостях. Эти колебания передаются на поверхность грудной клетки. Если паттерн нарушается за счет изменений проводимости или структурных изменений (мышца стала больше, сокращается не вовремя, последовательность сокращений рассинхронизирована и т.п.), то мы увидим это на графике. В патанатомии и патофизиологии есть такой базовый принцип - единство структурных и функциональных изменений. Он подразумевает, что если что-то работает не правильно, то существует изменение структуры органа и наоборот. Мы знаем какими структурными изменениями сопровождаются нарушения (гипертрофия стенок, расширение полостей, вибрации, турбулентый и ретроградный ток крови при поражении клапанов итп). Может это и не даст нам возможности поставить диагноз, но даст пациенту тревожный сигнал, что здесь всё не очень хорошо и надо бы к врачу сходить и не затягивать это дело.
Конечно будет. Просто нужно учитывать в какой ситуации. Портативные электрокардиографы с тремя отведениями используются на скоряке. Там где нужно очень быстро посмотреть, есть ли угрожающее состояние и на него отреагировать до приезда в больницу, потому что можно не довезти. В случае с теми же аритмиями очень важно, какая именно аритмия - ибо мерцание предсердий, трепетания желудочков, и экстрасистолия из АВ-узла - это три разных подхода к первой помощи. Или просто паническая атака ("Сердце останавливается! Умираю!"). А бывает, что тебе пациент говорит, что у него под лопаткой болит, а там на ЭКГ видишь классическую "кошачью спинку" острого инфаркта миокарда. И ещё куча всяких приколов. Так что в условиях скоряка врач ЭКГ брезговать никогда не будет. А это конкретно приложение - мотивашка для тех кто чувствует, что что-то там не так, но не принял решение о походе к врачу по какой-либо причине и ему нужен "пинок" (какое-то побуждение к действию). Вот эта прилага и выступит таким стимулом. Профилактика - это всегда хорошо.
Не совсем нулевая. Определённый профилактический эффект может быть: человек не всегда чувствует что у него аритмия, особенно если это нарушения АВ-проводимости и неполные блокады ножек пучка Гисса без выпадения отдельных сокращений или экстрасистол. Ещё после перенесенных заболеваний инфекционных могут развиваться и прогрессировать пороки сердца, которые на начальных этапах человек не заметит (просто будет ощущать слабость), а потом уже кальцинаты разрушат клапан(ы) и будет горюшко, которое только операцией на сердце можно исправить. Вот для таких случаев это приложение будет полезно как быстрая и грубая профилактика. Увидел - иди к врачу обследоваться на ЭКГ и УЗИ.
Идея хорошая, но это не ЭКГ. Я по первой специальности врач-терапевт, поэтому скажу, что это приложение точно может быть полезным для диагностики некоторых аритмий и пороков сердца. Но тот же инфаркт, гипертрофию предсердий и желудочков, а так же изменения ЭОС и прочие важные сугубо электрические феномены, которые имеют конкретные последствия - будет не видно. Тем не менее, для быстрой и относительно грубой диагностики - метод просто огонь! То есть логика здесь будет сводится к тому, что если что-то вылезло - иди обследуйся. И хуже от этого не будет. Эдакий маячок, что надо бы сходить.
Только у меня возникает ощущение, что таким образом менеджмент пытается избежать сокращений на своей стороне? Ибо удалёнка показала, что айтишники - люди в целом довольно ответственные и не нуждаются в надсмотрщике с палкой, чтобы решать свои задачи. При этом люди вполне себе умеют контактировать удаленно [censored - П. 4.1.2. Пользовательского соглашения — https://devby.io/pages/polzovatelskoe-soglashenie] С другой стороны понимаю, накупили площадей и они простаивают, а хотелось бы как-то отчитаться о полезности этих трат. По личным ощущениям меня сейчас удалось бы заманить в офис при одном условии, если он будет расположен в 15 минутах пешком от дома. Да и то, мне дома сильно комфортнее - не люблю эти опен-спейсные боксы и толпу людей вокруг. Даже хороших людей.
Исследование Anthropic прямо зашло :) Это ж надо так изгалиться: продублировать слой, а между исходным и дубликатом воткнуть латентное пространство, чтобы получился автоэнкодер. А потом скармливать модели всякое неэтичное (и этичное тоже), чтобы посмотреть комбинации каких фичей оказывают наибольший эффект, чтобы потом усиливать/приглушать весовые коэффициенты комбинаций фичей, дабы ничего вредного не генерила модель.
С GPT и GPT-2 я пробовал. У меня где-то до сих пор лежит статья, где чел его пошагово поясняет в ходе написания кода. Когда его выпустили, я как раз первый раз устроился дата сайнтистом в одну минскую небольшую компанию. Но под наши задачи он не годился. Только поразвлекались с ним локально и отпустили с богом. Если честно, я тогда не верил, что из этого может что-то адекватное вырасти. Сама по себе моделька очень легкая и в принципе с ней можно развлекаться даже на обычном средненьком компе с видюхой, которая дружит с CUDA. И даже на голом проце. А вот GPT-3 и далее, там уже всё, облом. А вообще, спасибо за направление мысли, ведь действительно количество слоев и голов внимания можно уменьшить (собственно то, что скейлится). По сути, если оставить без скейлинга уникальные компоненты из одной архитектуры, а потом привнести от себя туда изменения и сравнить сначала этих мелких гоблинов друг против друга и попробовать скейлить, то с определённой степенью уверенности можно ожидать, что позитивный или негативный эффект от изменения проявится и (вероятно) кратно усилится при скейлинге.
Это я понимаю, такие задачи тоже бывают периодически. И поиск аномалий, и тэгирование, и скоринг, да много всякого рутинного. Так-то в большинстве случаев дип лернинг вообще не нужен. Классические модели вполне себе неплохо справляются. Но тут речь о том, чтобы какой-то топчик руками потрогать. И не апишку, а именно саму модель. То есть тут не вопрос "чем заняться", тут вопрос - где добыть возможности прокачаться в том, что ресурсоёмкое и поэтому не может быть изучено на собственном железе или силами малой или средней компании. Согласитесь, ведь те люди, которые работают с этими здоровенными топовыми моделями не родились со знаниями и навыками создания и тюнинга этих монстров. Где-то учились, как-то экспериментировали. И в этом собственно суть моего вопроса - где и как прокачаться?
Ну, повестку-то легко заменить и стоп-слова обходить. А вот изменить сам организационный алгоритм (продвигаем одну повестку, минусим-плюсуем не читая, тон задает старшина итп) - это гораздо сложнее. Вот там верно заметили, что когда тролль работает по накатанной, то для него это просто сродни работы саппорта. А если придётся менять алгоритмы, изгаляться с подачей повестки, регать по многу раз забаненные аккаунты, не палиться шаблонами активности и т.п. - вот от этого у ефрейторов пригорит. Ибо ферма это всегда низкоадаптивный механизм, управляемый центрально. Это ж мы пишем от себя и свободно, а там есть конкретный приказ что продвигать, где продвигать и конкретный рекомендованный механизм как именно это надо делать. Модель будет вычислять ферму быстрее, чем она будет начинать мешать жить местным. А ферме не хватит адаптивных ресурсов, чтобы создавать устойчивый и эффективный шаблон поведения каждую неделю.
Ну, будут шифровать до отправки в мессенджер. Плагинов понаписывают. Тоже мне проблема. Гибридное шифрование навроде ECC+AES на коленке можно написать.
Чот как-то Тесла и Амазона даже ниже рынка. Видимо посчитали всех вперемешку - и разработчиков, и курьеров, и работяг на складах и линиях. У яблока тоже как-то не огонь, видимо такая же ситуация: работяг на заводах посчитали вперемешку с разрабами.
Штука в том, что обучить даже среднюю модель LLAMA3 7B - это 1.3 млн GPU часов на видеокартах H100. Это помимо остального железа. Правда, это на 15 триллионов токенов. https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md
И даже если взять pretrained модель и близкий к реальности датасет, скажем, на 40-50 ГБ, то файнтюнить её все равно получится очень и очень дорого. Такие развлечения себе только богатые галеры могут позволить. Видимо, надо идти учиться куда-то к производителям железа NVIDIA сейчас вроде дает возможность руками потрогать топовые модели. Но отзывов пока про их курсы не получал от знакомых. https://learn.nvidia.com/
Развивая мысль о дальнейшем развитии идеи с деревом, или в более широком смысле, графом. Уверен, что ботоферма - это всегда сущность медленная и действующая по шаблону. Соответственно, если вершинами являются аккаунты пользователей, а ребрами - взаимодействия между ними, то ферма будет действовать как сообщество внутри сообщества и из-за устоявшегося подхода у фермы будут появляться некие признаки поведения характерные. Как, впрочем, и у профессионального сообщества. Мы точно знаем как ферма себя ведёт и какие шаблоны продвигает, но сейчас делаем это интуитивно, а можно было бы поставить на поток. Скажем, раз в неделю обновлять граф, проводить его анализ и делать репорт модерам на зачистку. Технически это будет недорого: эмбеддинги от названия и тела статьи получить, эмбэддинги от комментов, направления рёбер (кто кому какое действие совершает или пишет), складываем в графовую и векторную базы, а дальше мануальная разметка, кластерный анализ и какой-нибудь классификатор (тот же градиентный бустинг вполне подойдёт) и репорт модеру на стол ежедневный о подозрительной активности. Менять шаблоны, читай переписывать методички, каждую неделю ефрейторам никаких сил не хватит, работать без методички им нельзя - как бы конфуза с начальством не вышло, а встроиться в шаблон профессионального сообщества им нельзя, потому что тогда выйдет, что они на нашу мельницу воду льют.
Да, собственно, за счёт такого рынка и кормимся. То, что можно назвать малыми (инференс на устройстве) и средними (инференс на инстансе) моделями. Плюс third-part API, которые облачные провайдеры предоставляют (там у них целые model zoo, model garden-ы): получил эмбэддинги или результаты инференса чужой модели и дальше с ними там дорабатываешь, или даже дотюнил её иногда средствами поставщика. Это востребованно и на этом вполне можно зарабатывать, но дотянуться до самого "вкусного", cutting edge SoTA, тоже бы хотелось. А то возникает ощущение застоя. Отчасти помогает улучшить ситуацию появление хороших производительных векторных баз данных и соответствующих плагинов для уже существующих, но у меня лично без доступа к топчику грусть и тоска развиваются.