Llama
3 автора упоминают этот инструмент
Новый ультра-быстрый сервис LLM, с которым можно пообщаться тут.
15 тыс токенов в секунду - она может генерировать примерно десять next.js/react приложений в секунду.
это трехбитная квантизация ламы 3.1, поэтому каких-то супер умных вещей от нее ожидать не стоит, но модели поуменеют, а вот как использовать систему, которая пишет небольшую книгу за секунду еще предстоит осознать.
Понравился LiteLLM - LLM Ops здорового человека. TL;DR: тонкий враппер с общим поверх популярных провайдеров LLM, с кэшированием, обработкой ошибок и бюджетированием.
Вообще я не спец в LLM, но сделал сколько-то прототипов на коленке, и считаю, что правильный воркфлоу - делать proof of concept поверх самого дорогого и предсказуемого на текущий момент API (читай GPT-4), и держать в уме опцию миграции в будущем. Уже в паблике есть и жирная Falcon-180B 🐪, и крутой для своего размера Mistral 7B 🇫🇷, и разные затюненные Llama-2. Лень сетапить инференс - пожалуйста, есть Replicate или Deepinfra.com под ваш форк Лламы, и Antropic через AWS Bedrock; все они обойдутся дешевле, чем GPT.
Если совсем полетит, то на собранном датасете можно будет тюнить свою кастомную модель, если лицензия позволит 🏴☠️. Но скорее всего, YAGNI.
Я редко пишу здесь про новости, но про очередной релиз нового семейства LLM - на этот раз Claude 3 от Anthropic - напишу.
Дело даже не в том, что они утверждают, что побили GPT-4 по метрикам. Это первая модель, которая с первой попытки правильно ответила на вопрос, которым я люблю тестировать LLM-ки: "what manhattan project participant invented the dolphin kick for swimming?" 🐬. Остальные популярные модели (GPT-4, Mistral Large, Llama 2 70B...) или скатываются в галлюцинации (обычно про Фейнмана), или отвечают в духе "уважаемый, там физики работали, какое еще плавание".
Вопрос, конечно, вдохновлен этой книгой. На более нормальные промпты, которые я успел прогнать, кажется, отвечает +- на уровне GPT.
Совсем недавно казалось, что эпоха локальных вычислений окончательно ушла, уступив облакам. В начале года я достал из компьютера старые видюхи, завернул в пузырчатую пленку и за малые гроши отправил в Лодзинское воеводство. Сентиментально вспоминал, как покупал первую в 2016, чтобы осваивать deep learning, потом майнил казавшуюся важной ачивку kaggle master, а в промежутках - Ethereum. Радиатор одной из карт был надпилен: слегка не влазила в канплюктер, пришлось избавиться от нескольких мм металла. Потом карточки пару лет пылились в Минске и ждали, пока подвернется оказия их передать. Впрочем, к этому времени они уже потеряли всякую актуальность: даже в бесплатном Google Colab GPU мощнее, а на паре старых консьмерских видюх ничего обучить нельзя - так, для дебага в лучшем случае.
А потом внезапно случился ренессанс: в паблик ушли веса Llama (а дальше и Llama 2) и сотни их файнтюнов, появился llama.cpp, агрессивная квантизация до пяти бит, на реддите /r/LocalLLaMA бешеные тыщи энтузиастов жонглируют свежими релизами и обсуждают, какую железку купить для домашнего инференса очередной опенсорсной LLM и почему это Mac Studio.
Я тоже под шумок решил обновить компьютер для зимнего обогрева. Воткнул в освободившийся слот видеокарту посвежее, SSD побыстрее и новый wifi-адаптер вместо потерянного при переездах. И словно провалился в прошлое: как в давние времена нужно читать мануалы, разбираться, какие комбинации слотов предпочтительнее ("When an M.2 device in PCIe mode is installed, PCIe x16_2 slot only runs at x1 mode"), подбирать wifi драйвера для богом забытого чипа и недоумевать, почему видеокарта при нагрузке делает hard reset.
Впрочем, в GPT-guided эпоху это все оказалось куда проще. Раньше возня с драйверами могла занять все выходные, а иногда даже ни к чему не привести; сейчас в интерактивном режиме ("у меня не работает X, вот аутпут dmesg, help me diagnose it step by step") с этим может справиться любой нормис вроде меня. Слава роботам! 🤖
Уже давно пытаюсь написать пост про новые ИИшки, как они хороши и как вообще меняется рынок. Но что-то не идет. Может просто я сам так и не нашел никакого для себя применения, не вижу прорыва в каких-то сферах благодаря ИИ, кроме экономии на операционке? Не знаю и пойду подумаю, а вы мне расскажите как ИИ вам помогает. Мне вот пока только постоянно достается ловить приколы на собесах, когда кейс написан не автором :)))
Но… я уже пару дней наблюдаю как DeepSeek ставит в не очень удобное положение американский рынок просто одним фактом своего появления. Так что случилось? Дизрапт! Китайцы, оказывается, могут в ИИ, и очень не дурно, выпустив аналог ChatGPT почти во всем (модель работает с меньшим числом параметров, что не влияет, внезапно, на качество ответов, тк у них +- одинаковые результаты на тестах), но потребляет в 3 раза меньше вычислительной мощности для тех же задач, да и на создание потратили их сильно меньше, как говорят братья китайцы. Во что, кстати, я не очень верю, ну да, стартап, ну точно 😂
Добавил: я тут поконкретнее про DeepSeek-V3 нашел. Они использовали H800, урезанный для Китая экспортный вариант H100, и они сами пишут, что для полного обучения потребовалось 2.788M H800 GPU-часов, что соответствует $5.5M при цене аренды H800 в $2 за час. При это LLAMA 3.1 ну примерно за 60м$ обучалась, а OpenAI еще дороже. Короче, и правда хаялва.
Сам DeepSeek монетизируется за счет крупных компаний в Китае, которые им активно пользуются (xiaomi и ко), и вам будет стоить бесплатно. Я вот поставил на телефон и радуюсь.
Из минусов (а я попросил нейронку написать их за меня): - меньше языков (ну и ладно) - меньше творчества в ответах (за что спасибо) - высокая цензурированность ответов, тк модель училась на локальных данных, которые ей подготовили (переживем)
Так вот, представляете, как прикольно вышло: все были убеждены, что для работы хорошей языковой модели нужны заоблачные мощности, но вышла та, которая работает на тостере, и лидер, производящий железки для всего этого «прогресса» упал на 600 млрд долларов 😂 понятно, что отрастут, но как конкуренция делает свою работу, а?)
В сухом остатке… … мы имеем отличный пример запуска: - новое утп (сильно дешевле в эксплуатации и обучении) - понятный фокус (пока не умеет в картинки но запланировано на 25 год) - фокус на задачи локальных компаний (потому монетизация физиков не нужна) - планы по интеграции в WeChat и телегу (представьте аудиторию сразу?…)
Ну и фановое падение рынков :) хотя может это просто совпадение! Хотя лично я кайфую, что китайцы показали, что необходимости в толстенном железе, как минимум для большинства задач, ну… нет, и модельку можно научить по стоимоти в 10 раз ниже, чем это у конкурентов.