Этические и юридические риски текстов

Что оценивается

Этот раздел определяет, можно ли безопасно использовать текст для обучения: нет ли в нём юридических ограничений, нарушений авторских прав, этически спорных тем или персональных данных. Даже качественный и информативный текст может быть полностью исключён, если он нарушает закон или этику.

Каждый фактор оценивается по шкале от 0 до 100.

Авторитетность источника

Что это: Определяет, откуда происходит текст — насколько источник надёжен, верифицирован и ассоциируется с компетентностью или признанным уровнем качества.

80–100 Высокая оценка: источник — известный эксперт, авторитетное СМИ, научная платформа, государственный или образовательный сайт.

40–79 Средняя: блог, форум, частный ресурс, без прямых признаков дезинформации, но и без верификации.

0–39 Низкая: анонимные источники, ресурсы с фейками, дезинформацией, пропагандой или сомнительной репутацией.

Как повысить: Ссылайтесь на достоверные источники. Указывайте имя автора или организации, особенно если они известны в своей области.

Лицензия и право использования

Что это: Показывает, есть ли у текста разрешение на использование: можно ли законно включить его в набор данных для обучения.

80–100 Высокая оценка: текст находится под открытой лицензией (например, CC-BY, CC0) или написан вами с правом передачи.

40–79 Средняя: лицензия не указана, но источник допускает цитирование, или текст создавался для публичного распространения.

0–39 Низкая: текст явно защищён авторским правом, запрещён для использования, скопирован без разрешения.

Как повысить: Используйте оригинальные тексты или контент с чётко прописанной открытой лицензией. Уточняйте условия использования, если берёте материал извне.

Прозрачность лицензии

Что это: Насколько ясно и недвусмысленно указаны условия использования текста.

80–100 Высокая оценка: условия явно указаны на странице, лицензия понятна и документирована.

40–79 Средняя: упоминание лицензии есть, но без прямого текста или с ограничениями.

0–39 Низкая: лицензия отсутствует, сформулирована неясно или вызывает вопросы.

Как повысить: Добавляйте ссылку на лицензию. Убедитесь, что условия включают право на анализ, обработку и машинное обучение.

Этическая безопасность

Что это: Определяет, содержит ли текст токсичную, дискриминирующую, агрессивную, манипулятивную или опасную информацию.

80–100 Высокая оценка: текст нейтрален, уважителен, не содержит вредных утверждений.

40–79 Средняя: может содержать спорные высказывания, но без прямой враждебности.

0–39 Низкая: текст токсичный, пропагандистский, содержит агрессию или ложь.

Как повысить: Пишите с уважением, избегайте категоричности, дискриминации и эмоциональной окраски. Проверяйте факты.

Риск раскрытия персональных данных

Что это: Оценивает вероятность того, что текст содержит персональные или чувствительные данные.

80–100 Высокая: текст содержит явные персональные данные.

21–79 Средняя: есть отдельные детали, которые могут косвенно раскрывать личность.

0–20 Низкая: текст полностью обезличен.

Как улучшить:

  • Удаляйте или обобщайте любые данные, по которым можно распознать человека
  • Используйте вымышленные или типовые персонажи в примерах
  • Проверяйте тексты на «утечки» из социальных сетей

Вероятность генерации ИИ

Что это: Оценивает вероятность того, что текст был сгенерирован искусственным интеллектом.

80–100 Высокая: текст с высокой вероятностью был сгенерирован ИИ.

21–79 Средняя: текст выглядит шаблонно, возможно редактирование человеком.

0–20 Низкая: текст почти наверняка создан человеком.

Как улучшить:

  • Добавляйте личные наблюдения, эмоции, субъективную логику
  • Используйте метафоры, аналоги, юмор, нестандартные приёмы
  • Не переписывайте чужие тексты в "идеальный" стиль

Общие рекомендации

  • Не используйте тексты с сомнительным юридическим статусом. Даже качественный материал может быть непригоден, если нарушает лицензию.
  • Уважайте человека — и автора, и упомянутых лиц. Это базовый критерий этической пригодности.
  • Снижать риски — выгоднее, чем объяснять их. Даже одно упоминание ФИО без согласия может исключить текст из обучения.