ja_wiki コーパス作成 docker ruby2.3

#  dockerの作成

docker pull ruby:2.3
docker run -it ruby:2.3 /bin/bash

gem install parallel -v 1.19.2
gem install racc -v 1.5.2
gem install nokogiri -v 1.10.10
gem install wp2txt -v 1.0.2

#  コーパスの入手
curl https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2

bzip2 -d jawiki-latest-pages-articles.xml.bz2

# xmlをテキストに変換
wp2txt -i ./jawiki-latest-pages-articles.xml

#  テキストファイルにまとめる
cat jawiki-latest-pages.articles-* > wiki.wp2txt

# Mecabインストール

echo "deb http://archive.debian.org/debian/ stretch main contrib non-free" > /etc/apt/sources.list

echo "deb http://archive.debian.org/debian-security/ stretch/updates main contrib non-free" >> /etc/apt/sources.list

apt update
apt install mecab libmecab-dev mecab-ipadic-utf8

apt update
apt install python3 python3-pip

pip3 install --upgrade pip setuptools setuptools_scm
pip3 install mecab-python3

# 1つにまとめたテキストファイルをMecabを使い分かち書き(単語区切り)にする
mecab -b 100000 -Owakati wiki.wp2txt -o wiki_wakati.txt

# docker上のファイルをローカルにコピー
docker cp [オプション] <コンテナ名またはID>:<コンテナ内のファイルパス> <ローカルシステムのパス>
docker cp container_name:/path/in/container/file.txt /path/on/local/
タイトルとURLをコピーしました