Я заметил, что сейчас стало практически невозможно искать картинки через поисковики. Особенно это касается старых изображений: в результатах поиска сразу появляются сгенерированные нейросетями картинки. Всё потому, что их SEO-описания составлены лучше, чем у обычных загруженных файлов
У меня есть ощущение, что в скором времени та же ситуация произойдёт и с видео
У меня есть ощущение, что в скором времени та же ситуация произойдёт и с видео
😱6 2👍1🔥1
Блогеров (те, у кого больше 10 тысяч подписчиков) обязали дать права админа от Telegram-каналов боту Роскомнадзора. При регистрации и получении маркировки «А+» требуется запускать специальный бот и добавлять его в администраторы. Его нельзя удалять из канала или лишать прав администратора — СМИ
Daniilak — Канал
Наблюдаю за голосованием в Чувашии, правила которого меняются прямо по ходу процесса С 12 по 26 сентября на сайте https://online.cap.ru проводится голосование по проектам программы инициативного бюджетирования «НИМЕ — народный бюджет». Я всегда проверяю новые…
На официальном портале online.cap.ru/initiative-projects/voting опубликованы предварительные итоги голосования по проектам программы инициативного бюджетирования «НИМЕ — народный бюджет»
В процессе изучения информации было отмечено незначительное расхождение между суммой голосов, агрегированной по отдельным проектам, и общим числом проголосовавших, указанным для города в сводной таблице.
Представленные данные являются открытой информацией, размещенной организаторами голосования, но почему нельзя сложить числа... и куда делись голоса...
В процессе изучения информации было отмечено незначительное расхождение между суммой голосов, агрегированной по отдельным проектам, и общим числом проголосовавших, указанным для города в сводной таблице.
Город Сумма На сайте Разница
Алатырь 3 373 3 370 +3
Чебоксары 24 375 24 409 -34
Новочебоксарск 8 861 8 853 +8
Шумерля 4 201 4 194 +7
Канаш 3 578 3 578 0
Представленные данные являются открытой информацией, размещенной организаторами голосования, но почему нельзя сложить числа... и куда делись голоса...
👀4 3😱1
Пока многие люди учатся делать качественные видео и находят механики, пытаются разобраться в правилах съемки, тратят денежные средства на обучение, зарплаты и оборудование, я предлагаю вариант в лоб — brainrot-контент. На тестовых аккаунтах сделанный мной brainrot-контент сходу выстреливает и набирает тысячи просмотров.
Вот небольшая инструкция:
— Генерируй как можно больше видео. Новости города Х, программирования, бизнеса, факты, мемы, гороскопы и натальные карты. Все уже расписано и ежедневно публикуется умными людьми в медиа. Какая разница, перескажет очередной факт генерация или человек?
— Публикуй как можно больше. Минимум 100 видео в сутки. Количество решает всё
— Делай как можно больше аккаунтов, 20-30 аккаунтов минимум
— Один ролик = 10 платформ
— Боты, скрипты, API - программа запросто справится с таким объемом
— Чужие видео = твои видео. Водяные знаки? Замажь. Авторское право давно сломано
— Не отвечай на комментарии. Время на ответы = время не на постинг
Так можно просто зарабатывать на публикации видео или продавать что-то в самих видео или по ссылке в описании. Превратить это в бездушный, но работающий механизм. Словно стать оператором контент-станка, который сам не потребляет то, что производит
Вот небольшая инструкция:
— Генерируй как можно больше видео. Новости города Х, программирования, бизнеса, факты, мемы, гороскопы и натальные карты. Все уже расписано и ежедневно публикуется умными людьми в медиа. Какая разница, перескажет очередной факт генерация или человек?
— Публикуй как можно больше. Минимум 100 видео в сутки. Количество решает всё
— Делай как можно больше аккаунтов, 20-30 аккаунтов минимум
— Один ролик = 10 платформ
— Боты, скрипты, API - программа запросто справится с таким объемом
— Чужие видео = твои видео. Водяные знаки? Замажь. Авторское право давно сломано
— Не отвечай на комментарии. Время на ответы = время не на постинг
Так можно просто зарабатывать на публикации видео или продавать что-то в самих видео или по ссылке в описании. Превратить это в бездушный, но работающий механизм. Словно стать оператором контент-станка, который сам не потребляет то, что производит
🤮4🥴3👍2😁2🔥1 1 1
Daniilak — Канал
МВД официально рекомендовали делать фейк-аккаунты в соцсетях — не указывать полные ФИО и дату рождения. Всё, чтобы мошенники не смогли использовать эту информацию в своих целях
Кстати, на официальных сайтах в новостях меня указывали под фейковой фамилией😄
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Sora2 доступна по API. Самый дешёвый вариант - 10 секунд за $1
Тактично напоминаю про нейросетевой мусорный контент, которого станет больше
Тактично напоминаю про нейросетевой мусорный контент, которого станет больше
👍2
Тихий кошмар разработчика: Парсинг государственных сайтов и вечная битва с обновлениями
В продолжении предыдущего поста касаемо парсинга
В эпоху цифровизации государственные данные — это новый вид нефти. Кто владеет информацией, тот владеет миром. Но добыча этой «нефти» из официальных источников превращается для разработчиков в сизифов труд, полный непредсказуемости, боли и бесконечных доработок
Представьте, что вы пытаетесь собрать сложный конструктор без инструкции. Теперь представьте, что детали в коробке постоянно меняют форму. Это и есть парсинг госсайтов. Отсутствие API — это правило, а не исключение. Вместо четких, структурированных JSON-ответов разработчикам приходится иметь дело с HTML-страницами, которые были спроектированы для людей, а не для машин. Логика отображения данных часто архаична, нелогична и разбросана по десяткам скриптов и стилей.
Ключевые сложности:
— Вы встречаете вложенные таблицы с бессмысленными классами вроде style45 или block1.
— Защита от «вредоносных ботов» часто не отличает легитимного робота, собирающего открытые данные, от злоумышленника
— Для доступа к данным часто требуется поддерживать сессию, имитировать поведение браузера и проходить многоэтапный логин с токенами, которые прячутся в скрытых полях форм
Если бы структура сайта была статичной, проблему можно было бы решить раз и навсегда. Но госсайты живут своей жизнью. Классы, идентификаторы, структура DOM-дерева - всё это меняется без предупреждения. Селектор, который идеально работал вчера, сегодня возвращает null. Появление динамических элементов через JavaScript (например, подгрузка данных через AJAX), смена механизмов пагинации, обновление фронтенд-фреймворка — всё это ломает ваши тщательно выверенные скрипты. Названия полей, форматы данных, обязательные заголовки (User-Agent, Referer) — всё это подвижно
Самое коварное в этой системе — иллюзия контроля. Вы построили мониторинг, который поймал ошибку на одном из ключевых URL. Вы исправляете селектор, деплоите фикс и вздыхаете с облегчением. Но это — лишь верхушка айсберга. Закон парсинга: если отловлена одна ошибка, вероятно, есть еще добрая сотня похожих. Скрипт может корректно обрабатывать 95% случаев, но ломаться на специфических данных (отсутствующее поле, особый формат ФИО, устаревшая запись), которые встречаются редко. Парсер может не выбросить исключение, а просто пропустить часть данных. Такие ошибки обнаруживаются только при глубоком анализе выгрузки, а не в логах
Бороться с этой стихией в лоб бесполезно. Нужна правильная архитектура, которая предполагает постоянные изменения.
1. Не полагайтесь на один селектор. Создавайте цепочки приоритетов: «если не нашел по селектору А, ищи по селектору Б, затем по В».
2. Вынесите селекторы, URL, параметры запросов в конфигурационные файлы (JSON, YAML). Это позволит вносить срочные правки без перекомпиляции и деплоя всего сервиса.
3. Используйте многоуровневый мониторинг. Отслеживание HTTP-статусов, таймаутов, исключений в коде. Полный контроль объема собранных данных. Валидация собранных данных на соответствие ожидаемым схемам, например, с помощью JSON Schema/Pydantic и т.п.
4. Не экономьте на буквах в логах. В логах должны быть не только ошибки, но и контекст: какой URL обрабатывался, какие данные были получены на каждом этапе. В каких-то случаях помогут даже скриншоты
5. Запускайте периодически глубокую проверку всех ключевых эндпоинтов, чтобы находить «тихие» ошибки
Это часть из техник — лишь попытка построить стабильный дом на зыбучих песках. Корень проблемы глубже — в самой философии разработки таких систем. Со стороны государственных структур нет понимания, что их сайты — это не только витрина для граждан, но и потенциальный источник машинно-читаемых данных. Разработчики этих порталов работают в парадигме «работает же — не трожь», где любая инициатива по стандартизации или созданию API наказывается знаменитой фразой «инициатива наказуема». Отсутствие внятной документации заменяется 150-страничным PDF, сделанным в Ворде, который устаревает раньше, чем его успевают прочитать
#парсинг@daniilak
В продолжении предыдущего поста касаемо парсинга
В эпоху цифровизации государственные данные — это новый вид нефти. Кто владеет информацией, тот владеет миром. Но добыча этой «нефти» из официальных источников превращается для разработчиков в сизифов труд, полный непредсказуемости, боли и бесконечных доработок
Представьте, что вы пытаетесь собрать сложный конструктор без инструкции. Теперь представьте, что детали в коробке постоянно меняют форму. Это и есть парсинг госсайтов. Отсутствие API — это правило, а не исключение. Вместо четких, структурированных JSON-ответов разработчикам приходится иметь дело с HTML-страницами, которые были спроектированы для людей, а не для машин. Логика отображения данных часто архаична, нелогична и разбросана по десяткам скриптов и стилей.
Ключевые сложности:
— Вы встречаете вложенные таблицы с бессмысленными классами вроде style45 или block1.
— Защита от «вредоносных ботов» часто не отличает легитимного робота, собирающего открытые данные, от злоумышленника
— Для доступа к данным часто требуется поддерживать сессию, имитировать поведение браузера и проходить многоэтапный логин с токенами, которые прячутся в скрытых полях форм
Если бы структура сайта была статичной, проблему можно было бы решить раз и навсегда. Но госсайты живут своей жизнью. Классы, идентификаторы, структура DOM-дерева - всё это меняется без предупреждения. Селектор, который идеально работал вчера, сегодня возвращает null. Появление динамических элементов через JavaScript (например, подгрузка данных через AJAX), смена механизмов пагинации, обновление фронтенд-фреймворка — всё это ломает ваши тщательно выверенные скрипты. Названия полей, форматы данных, обязательные заголовки (User-Agent, Referer) — всё это подвижно
Самое коварное в этой системе — иллюзия контроля. Вы построили мониторинг, который поймал ошибку на одном из ключевых URL. Вы исправляете селектор, деплоите фикс и вздыхаете с облегчением. Но это — лишь верхушка айсберга. Закон парсинга: если отловлена одна ошибка, вероятно, есть еще добрая сотня похожих. Скрипт может корректно обрабатывать 95% случаев, но ломаться на специфических данных (отсутствующее поле, особый формат ФИО, устаревшая запись), которые встречаются редко. Парсер может не выбросить исключение, а просто пропустить часть данных. Такие ошибки обнаруживаются только при глубоком анализе выгрузки, а не в логах
Бороться с этой стихией в лоб бесполезно. Нужна правильная архитектура, которая предполагает постоянные изменения.
1. Не полагайтесь на один селектор. Создавайте цепочки приоритетов: «если не нашел по селектору А, ищи по селектору Б, затем по В».
2. Вынесите селекторы, URL, параметры запросов в конфигурационные файлы (JSON, YAML). Это позволит вносить срочные правки без перекомпиляции и деплоя всего сервиса.
3. Используйте многоуровневый мониторинг. Отслеживание HTTP-статусов, таймаутов, исключений в коде. Полный контроль объема собранных данных. Валидация собранных данных на соответствие ожидаемым схемам, например, с помощью JSON Schema/Pydantic и т.п.
4. Не экономьте на буквах в логах. В логах должны быть не только ошибки, но и контекст: какой URL обрабатывался, какие данные были получены на каждом этапе. В каких-то случаях помогут даже скриншоты
5. Запускайте периодически глубокую проверку всех ключевых эндпоинтов, чтобы находить «тихие» ошибки
Это часть из техник — лишь попытка построить стабильный дом на зыбучих песках. Корень проблемы глубже — в самой философии разработки таких систем. Со стороны государственных структур нет понимания, что их сайты — это не только витрина для граждан, но и потенциальный источник машинно-читаемых данных. Разработчики этих порталов работают в парадигме «работает же — не трожь», где любая инициатива по стандартизации или созданию API наказывается знаменитой фразой «инициатива наказуема». Отсутствие внятной документации заменяется 150-страничным PDF, сделанным в Ворде, который устаревает раньше, чем его успевают прочитать
#парсинг@daniilak
👍6🔥3❤1
Обратил внимание, что запустили Первый в России бесплатный конкурс по визуализации данных для детей
Вместе с ребёнком Вы можете: создать рисунок, поделку или разработать цифровой артефакт
Небольшие подробности
— Для трёх возрастных групп (6-8, 9-10, 11 лет) — каждый ребёнок найдёт свой способ самовыражения
— Потрясающие призы: iPad, наборы LEGO и многие другие ценные подарки
— Бесплатные обучающие вебинары — помогут разобраться, как превращать сложные данные в понятные и красивые визуализации
— Полезные бонусы всем участникам — гайды, материалы и подарки
Успейте подать заявку до 30 октября, оно бесплатновое😎
Вместе с ребёнком Вы можете: создать рисунок, поделку или разработать цифровой артефакт
Небольшие подробности
— Для трёх возрастных групп (6-8, 9-10, 11 лет) — каждый ребёнок найдёт свой способ самовыражения
— Потрясающие призы: iPad, наборы LEGO и многие другие ценные подарки
— Бесплатные обучающие вебинары — помогут разобраться, как превращать сложные данные в понятные и красивые визуализации
— Полезные бонусы всем участникам — гайды, материалы и подарки
Успейте подать заявку до 30 октября, оно бесплатновое
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4🔥1
Не могу не отметить, что в жюри собралась вся элита дата-виза из Telegram-сообщества🐹 . Отличный пример того, как можно делать крутые проекты, которые учат и вдохновляют, а не просто раздают призы за репосты
Please open Telegram to view this post
VIEW IN TELEGRAM
ВТБ и ЦБТ представили решение для проведения оплаты по ладони — терминал с ИК-датчиком для сканирования сосудов
Кажется, это уже где-то было😄 😄 😄
Кажется, это уже где-то было
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
ГУП Московский социальный регистр ищет osint-еров
В списке стека указан Selenium... Социальный рейтинг по аккаунту в Steam и комментариям в Telegram?
В списке стека указан Selenium... Социальный рейтинг по аккаунту в Steam и комментариям в Telegram?
👍1😁1
Казахстан опубликовал проект «Цифрового кодекса» на GitHub — любой пользователь может внести свои предложения через pull request. Документ определит правила для ИИ, big data и цифровых прав человека.
https://github.com/Akylbay-Katira/digital-codex
https://github.com/Akylbay-Katira/digital-codex
Основатель журнала «Хакер» написал открытое письмо к главе Минцифры из-за запрета на данные, связанные с практикой ИБ. Ранее в Минцифры РФ предложили меры против кибермошенничества, среди которых запрет на публикацию данных о практике ИБ
Министру цифрового развития,
Шадаеву Максуту Игоревичу
Обращение
Уважаемый Максут Игоревич, цель данного обращения — предупреждение о потенциальной угрозе для информационной безопасности нашей страны.
В августе 2025 года на сайте Федерального портала проектов нормативных правовых актов появилась поправка к Федеральному закону № 149-ФЗ «Об информации, информационных технологиях и защите информации», которая на странице 17 предлагает дополнить часть 1 статьи 15.3 пунктом 9, утверждающим на законодательном уровне досудебную блокировку ресурсов, где содержится «информация, направленная на введение в заблуждение, указанная в части 61 статьи 10 настоящего Федерального закона», а также (пункт 92) «информация, предназначенная для несанкционированного уничтожения, блокирования, модификации, копирования информации и (или) программ для электронных вычислительных машин, либо позволяющая получить доступ к программам для электронных вычислительных машин, предназначенных для несанкционированного уничтожения, блокирования, модификации, копирования информации и (или) программ для электронных вычислительных машин».
Обращаем ваше внимание на огромную опасность для безопасности страны утверждения данной поправки. Против поправки проголосовали 2000 граждан России. За — всего 9 граждан.
Сотни специалистов в киберзащите и я лично направили комментарии к поправке. К сожалению, ни один комментарий не был опубликован.
Информацию, описанную в тексте поправки, публикуют: учебные заведения, обучающие компании, отделы кибербезопасности банков, компаний, специализирующиеся на кибербезопасности, пентестеры, специализированные СМИ.
Только так — делая публикации и делясь с коллегами информацией об атаках и вредоносных программах — можно сформировать защиту от внешних угроз и действий внутренних мошенников. Только так — изучая найденным коллегами способом — можно выявить и обезвредить незаконную программу.
Запрет на публикации драматически ослабит нашу национальную информационную безопасность.
Предлагаем Вам остановить процесс принятия поправки, внести нужные коррективы, избежать тотального запрета на публикации технической информации.
С уважением,
основатель журнала «Хакер»
Дмитрий Агарунов
🔥3😁3❤2 1