Этические и юридические риски текстов
Что оценивается
Этот раздел определяет, можно ли безопасно использовать текст для обучения: нет ли в нём юридических ограничений, нарушений авторских прав, этически спорных тем или персональных данных. Даже качественный и информативный текст может быть полностью исключён, если он нарушает закон или этику.
Каждый фактор оценивается по шкале от 0 до 100.
Авторитетность источника
Что это: Определяет, откуда происходит текст — насколько источник надёжен, верифицирован и ассоциируется с компетентностью или признанным уровнем качества.
80–100 Высокая оценка: источник — известный эксперт, авторитетное СМИ, научная платформа, государственный или образовательный сайт.
40–79 Средняя: блог, форум, частный ресурс, без прямых признаков дезинформации, но и без верификации.
0–39 Низкая: анонимные источники, ресурсы с фейками, дезинформацией, пропагандой или сомнительной репутацией.
Как повысить: Ссылайтесь на достоверные источники. Указывайте имя автора или организации, особенно если они известны в своей области.
Лицензия и право использования
Что это: Показывает, есть ли у текста разрешение на использование: можно ли законно включить его в набор данных для обучения.
80–100 Высокая оценка: текст находится под открытой лицензией (например, CC-BY, CC0) или написан вами с правом передачи.
40–79 Средняя: лицензия не указана, но источник допускает цитирование, или текст создавался для публичного распространения.
0–39 Низкая: текст явно защищён авторским правом, запрещён для использования, скопирован без разрешения.
Как повысить: Используйте оригинальные тексты или контент с чётко прописанной открытой лицензией. Уточняйте условия использования, если берёте материал извне.
Прозрачность лицензии
Что это: Насколько ясно и недвусмысленно указаны условия использования текста.
80–100 Высокая оценка: условия явно указаны на странице, лицензия понятна и документирована.
40–79 Средняя: упоминание лицензии есть, но без прямого текста или с ограничениями.
0–39 Низкая: лицензия отсутствует, сформулирована неясно или вызывает вопросы.
Как повысить: Добавляйте ссылку на лицензию. Убедитесь, что условия включают право на анализ, обработку и машинное обучение.
Этическая безопасность
Что это: Определяет, содержит ли текст токсичную, дискриминирующую, агрессивную, манипулятивную или опасную информацию.
80–100 Высокая оценка: текст нейтрален, уважителен, не содержит вредных утверждений.
40–79 Средняя: может содержать спорные высказывания, но без прямой враждебности.
0–39 Низкая: текст токсичный, пропагандистский, содержит агрессию или ложь.
Как повысить: Пишите с уважением, избегайте категоричности, дискриминации и эмоциональной окраски. Проверяйте факты.
Риск раскрытия персональных данных
Что это: Оценивает вероятность того, что текст содержит персональные или чувствительные данные.
80–100 Высокая: текст содержит явные персональные данные.
21–79 Средняя: есть отдельные детали, которые могут косвенно раскрывать личность.
0–20 Низкая: текст полностью обезличен.
Как улучшить:
- Удаляйте или обобщайте любые данные, по которым можно распознать человека
- Используйте вымышленные или типовые персонажи в примерах
- Проверяйте тексты на «утечки» из социальных сетей
Вероятность генерации ИИ
Что это: Оценивает вероятность того, что текст был сгенерирован искусственным интеллектом.
80–100 Высокая: текст с высокой вероятностью был сгенерирован ИИ.
21–79 Средняя: текст выглядит шаблонно, возможно редактирование человеком.
0–20 Низкая: текст почти наверняка создан человеком.
Как улучшить:
- Добавляйте личные наблюдения, эмоции, субъективную логику
- Используйте метафоры, аналоги, юмор, нестандартные приёмы
- Не переписывайте чужие тексты в "идеальный" стиль
Общие рекомендации
- Не используйте тексты с сомнительным юридическим статусом. Даже качественный материал может быть непригоден, если нарушает лицензию.
- Уважайте человека — и автора, и упомянутых лиц. Это базовый критерий этической пригодности.
- Снижать риски — выгоднее, чем объяснять их. Даже одно упоминание ФИО без согласия может исключить текст из обучения.
