Комментарии

Для общей тематики у нас на языковую пару (например англ-русский) идет от 10 до 70 миллионов параллельных строк.

90% данных мы взяли с https://opus.nlpl.eu/ 10% парсим с интернета

Для TM мы берем от 5 до 50 тыс параллельных строк на домен (медицина, строительство, финансы и др)

В большинстве случаев их нам дают клиенты, для которых делается модель. Иногда делают наши лингвисты (если знают этот язык) Заказываем у фрилансеров

1

Про ChatGPT:

Он не может отдавать стабильно и той же скорости по REST API например 10 миллиардов символов в день на перевод. А наш переводчик - может, на сервере 4 x RTX 5090, например.

Даже если бы ChatGPT мог переводить такие объемы, то это были бы десятки тысяч долларов. У нас такой объем будет стоить $100 (с учетом цены сервера для деплоя)

У нашего клиента Opera 400 миллионов пользователей в месяц и требование, чтобы данные не передавались на сторону. Поэтому - выбрали нас

Все данные, что вы переводите ChatGPT потенциально могут быть переданы третьим лицам или выложены в сеть по ошибке. Как например тут - https://www.cnews.ru/news/top/2025-07-31_v_internet_utekli_milliony

Для больших компаний компаний типа Rolls-Royce, им в первую очередь важна безопасность. Им надо чтобы работало офлайн, на их серверах.

Любая приличная LLM:

У нас качество перевода лучше чем у топовых open-source LLM, на тестовых датасетах из десятка тысяч строк. На маленьком объем может быть другой результат. Цена за GPU сервер, чтобы перевести тот же объем текста на приличной LLM будет в 50+ раз больше, чем с нашими моделями. К тому же есть галлюцинации. На маленьком объеме текста - можно взять opensource LLM

4

Кто-то больше, кто-то меньше в зависимости от опыта, квалификации и должности.

0