# dockerの作成
docker pull ruby:2.3
docker run -it ruby:2.3 /bin/bash
gem install parallel -v 1.19.2
gem install racc -v 1.5.2
gem install nokogiri -v 1.10.10
gem install wp2txt -v 1.0.2
# コーパスの入手
curl https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
bzip2 -d jawiki-latest-pages-articles.xml.bz2
# xmlをテキストに変換
wp2txt -i ./jawiki-latest-pages-articles.xml
# テキストファイルにまとめる
cat jawiki-latest-pages.articles-* > wiki.wp2txt
# Mecabインストール
echo "deb http://archive.debian.org/debian/ stretch main contrib non-free" > /etc/apt/sources.list
echo "deb http://archive.debian.org/debian-security/ stretch/updates main contrib non-free" >> /etc/apt/sources.list
apt update
apt install mecab libmecab-dev mecab-ipadic-utf8
apt update
apt install python3 python3-pip
pip3 install --upgrade pip setuptools setuptools_scm
pip3 install mecab-python3
# 1つにまとめたテキストファイルをMecabを使い分かち書き(単語区切り)にする
mecab -b 100000 -Owakati wiki.wp2txt -o wiki_wakati.txt
# docker上のファイルをローカルにコピー
docker cp [オプション] <コンテナ名またはID>:<コンテナ内のファイルパス> <ローカルシステムのパス>
docker cp container_name:/path/in/container/file.txt /path/on/local/