Vladimir Drach. Official Web-Site. - Личный сайт Владимира Драча

Предварительная обработка текстов для машинного обучения

Чтобы повысить результативность машинного обучения, необходимо очень тщательно подготовить исходные референсные данные. Если речь идёт о генераторах текста (и стихов в частности), надо позаботиться о тех статьях и книгах, на которых будет обучаться компьютер. В основном, в интернете рекомендуют писать сложные программы для этих целей, обычно на языке Python. Ниже собраны простые и ультра-мощные команды оболочки Linux, которые позволяют быстро (хоть и жестоко) подготовить объемные тексты.

Проверяем, всегда ли точка является символом окончания предложения? Выводим все строки. в которых после точки идёт не пробел:

cat ./text.txt |grep "\.[^ ]"

Удаляем все строки, которые содержат Chapter (для этого после каждой точки предварительно добавляем перевод строки):

sed -i.bak '/Chapter/d' ./text.txt

Удалить строки, содержащие несколько слов, например, удалить строки с ключевым словом http или www.

sed -i.bak '/http\|www/d' ./text.txt

Удаляем все предложения, короче 32 символов:

awk 'length>32' ./accel.txt > ./accel2.txt

Удаляем строки, начинающиеся с определенного символа, например, строки комментариев, начинающиеся с #:

sed -i.bak '/^#/d' ./text.txt

Удаляем весть текст в скобках (обычно это расшифровки аббревиатур). Нет, не всегда работает.

sed -n '1!H;1h;${x;s/(.*)/()/;p}'

или:

awk -v RS="" '{sub(/\(.*\)/,"()")}1'

Оцените материал

(0 голосов)

Станьте первым комментатором!

Прочитано 2983 раз

Опубликовано в: Linux

Оставить комментарий

Ваше мнение очень важно для нас! Обязательно выскажите Ваши мысли, пожелания и критику! Не стесняйтесь задавать вопросы. Скорее всего, ответ появится уже через 2-3 дня. Спасибо заранее.

Другие материалы в этой категории:

Наверх

Дискуссия

"Спасибо."

Написал Александр

Опубликовано в: Узнаём размер директории в командной строке Centos in Linux
"Помогло, спасибо, но сработает при условии что /dev/sda1 будет "последним" в списке.…"

Написал Ввёл своё Имя

Опубликовано в: Расширяем раздел ext4 на сервере с Rocky Linux in Linux
"Зато сейчас появился Centos 9 Stream"

Написал Владимир

Опубликовано в: Установка nginx c PHP-FPM под CentOS 7.0 in Linux
"Жалко, что Centos прикрыли..."

Написал Rocky 9

Опубликовано в: Установка nginx c PHP-FPM под CentOS 7.0 in Linux
"Конфигурация не рабочая, nginx не запускается"

Написал Константин

Опубликовано в: Докеризация стека LEMP под Ubuntu c помощью Compose in Linux

Vladimir Drach. Official Web-Site. - Личный сайт Владимира Драча

Предварительная обработка текстов для машинного обучения

Оставить комментарий

Другие материалы в этой категории:

Дискуссия

Облако тегов