Whisper
3 автора упоминают этот инструмент
в общем, расскажу, зачем купил эти смарт-часы.
я давно хочу себе умное кольцо. но не то, которое хреново измеряет мой пульс и напоминает лишний раз о том, как ужасно я сплю. а такое, чтобы стало универсальным интерфейсом управления любым устройством в моей жизни.
я хочу направлять руку на телевизор, делать свайп большим пальцем по кольцу на указательном, и переключать ролик. направлять её на кондиционер, и тапом большого пальца по кольцу включать его. направлять руку на свет, свайпами снижать яркость. гуляя по улице в наушниках, с рукой в кармане, свайпами по кольцу управлять громкостью/переключать треки.
не вдаваясь в большие детали, у кольца главная проблема - очень-очень-очень маленькая батарейка, которую надо экономить изо всех сил. поэтому смарт-часы выступают хабом, который процессит всю логику (и имеет норм батарейку), а само кольцо - просто посылает сигналы на часы в моменты, когда я что-то на кольце тыкаю. в режиме "энергия кольца тратится на мгновение, когда я нажимаю на кнопку" оно может работать годами.
поэтому мне нужен low-level доступ к пинам часов - чтобы распаять туда кастомный 433MHz ресивер, и написать мини-драйвер для приема сигналов с кольца. если всё сложится удачно - попробую собрать прототип всего этого дела на новогдних праздниках 🙂
только что приехала доставка, максимальный вайб подарка от деда мороза 🎄
- diy смарт-колонка с микрофонами, динамиком, bt/wifi/rbg и аккумом - и diy смарт-часы с тем же набором + touch amoled экраном
самое главное... они полностью программируемые (esp32). то есть я буквально с нуля могу собрать их операционки. не просто писать на них приложения, а иметь низкоуровневый доступ к каждому датчику, каждому порту, программировать их поведение как хочу, припаять что хочу.
с колонкой всё очевидно - накачу туда whisper + gpt, и сделаю не-умственно-отсталую версию Алисы. а вот с часами идей масса.
что бы сделали вы?
P.S. по просьбам трудящихся, кинул ссылки в комменты
🔊 Будущее интерфейсов – за голосовым вводом
Уже неделю активно тестирую приложение ChatGPT, и оно — супер.
💼 Да, и до момента релиза приложения существовали аналоги. Николай Давыдов даже написал, что несколько из них зарабатывали миллионы долларов в месяц. Но у меня всегда были опасения насчет них, потому что неизвестно как они хранят данные. Еще один важный фактор — раньше мне казалось, что для всех моих сценариев в ChatGPT нужна структура и ввод большого количества текста.
🎤 Неожиданно вместо переноса десктопных сценариев, приложение открыло для меня новые — все это благодаря голосовому вводу. Раньше мои попытки пользоваться голосовым вводом в iOS всегда заканчивались состоянием «проще ввести руками». Но тут другое — приложение ChatGPT использует технологию Whisper, и она распознаёт мой голос с точностью 99.9%. В результате можно просто расслабиться и начать наговаривать мысли.
🚶♂️Теперь я выхожу на утреннюю прогулку, создаю новый чат и прошу просто слушать мои мысли. После прогулки возвращаюсь домой и прошу структурировать их в четкий список. Также изменился процесс написания постов — я просто последовательно выговариваю все мысли, а в конце прошу их структурировать, использую это как основу.
🔮 Со связкой разпознания речи и больших языковых моделей мы приближаемся к будущему, где мы полноценно можем управляться одним голосом. Вот тут Дима Мацкевич в посте предсказывал, что будущие поколения уже будут обходиться без клавиатур. А я несколько месяцев назад накидал эксперимент, который позволял использовать «промпты» для любого интерфейса — поставьте реакций если интересно.
😎Pro tip: Майк Ян поделился хаком, как включить озвучку ответов от ChatGPT.
@prod1337
Как я победил диктовку на Mac (и заплатил дважды 😅)
Давно хотел нормально диктовать текст. Стандартный голосовой ввод на Mac — полный треш. Он не ставит запятые, не понимает точки, и всё превращается в одно бесконечное предложение без дыхания и надежды.
Решил подключить Whisper. Скачал, установил, купил Pro-лицензию на год. Думаю — всё, сейчас буду как человек диктовать посты в Telegram. Но нет. Диктовать можно… только внутри самого Whisper, а не, например, вот так — в Телеграме.
Начал разбираться. Говорил с GPT, с Севой Устиновым — он говорит:
«Купи Pro Account». А я такой: «Так я купил! 😤»
Долго не понимал, почему у меня нет функции Dictation. Благодаря Антону Жвакину всё встало на свои места: если покупаешь Whisper в App Store — этого раздела нет. Нужно покупать на официальном сайте. Веб-версия — с Dictation, App Store — без.
Бдыщ! Ну как так вообще?
В итоге я заплатил дважды. Зато теперь всё работает, знаки препинания ставятся сами, а я кайфую и диктую этот пост голосом. Немного подправить — и идеально.
Ссылка: https://goodsnooze.gumroad.com/l/macwhisper