OpenWnnの内部辞書解析

投稿者: utsubo 投稿日: 2017-11-16 in c

OpenWnnの内部辞書を解析したのでそのメモ

経緯

OpenWnnはオープンソースの日本語変換辞書でこの派生製品がそこそこ使われているようです。NicoWnnGというソースコードをダウンロードしていじりだしたのがきっかけ。

どうしても辞書に手を入れる必要があったので調べました。NicoWnnGだけで使うのであればJava側で辞書を持っても良かったのですが，速度や他への転用を考えて，内部辞書を解析することにしました。

オープンソースとは言いつつこの辞書に関しては，バイナリを１６進数配列にしたものをソースコードにベタがきしたものしか公開されておらず，このバイナリ部分を自分で作るためのソースコードは見当たりませんでした。

10年くらい前のモバイルデバイスに使われていたらしく，その時に解析された結果がいくつかあり，このサイトを参考に，ソースとにらめっこしながらようやく解析が終了しました。

使っていないであろうコードも結構見受けられたのですがなんとか。多分１００％わかっているわけではないのですが，とりあえずNicoWnnGに組み込んで動くところまでは終了しました。

仕様

ヘッダ
00000000-00000003:[NJDC]識別子
00000004-00000007:バージョン
00000008-0000000b:タイプ
0000000c-0000000f:データサイズ
00000010-00000013:extサイズ
00000014-00000017:max check用（使ってない？）
00000018-0000001b:maxlen check用（使ってない？）
0000001c-0000001f: 1c-1d:前品詞数，1e-1f:後品詞数
00000020-00000023:単語ブロックのアドレス
00000024-00000027:登録されている単語の数
00000028-0000002b:登録されている単語の数?
0000002c-0000002f:que size,データ領域の一つのブロックのバイト数
00000030-00000033:最後に編集した単語ブロックの位置, 未使用
00000034-00000037:Write Flag
00000038-0000003b:未使用
0000003C-0000003F:インデックス１のアドレス
00000040-00000043:インデックス２のアドレス

インデックス
インデックス１は読み、インデックス２は表記の昇順で、
単語ブロックの位置が2バイトずつ並んでいる
最後に2バイト00がついている

単語ブロック
00000000-00000000: 2bit fflag, 4bit mflag, 6-7bit type
00000001-00000002: 1-9bit 前品詞,10-16bit 読みバイト数
00000003-00000004: 1-9bit 後品詞,10-16bit 表記バイト数
00000005- :読み、表記が詰めて設定されている
文字コードはUNICODE

フッタ
[NJDC]識別子

変換方法

ソースコードはここに入れておきました。

writedic.cppが変換用プログラムです。
入力ファイルはタブ区切りで
よみ表記
の順に並んでいることが必要です。

一ファイルは最大65535行まで。

作成したファイルをWnnJpnDic.hのdic_07_dataなどを作成し貼り付ける。
dic_dataにもdic_07_dataを追加。プログラムから出力されるサイズをdic_sizeの該当の場所にコピー。

コンパイル

コンパイルはAndroidStudioから行う場合には文字量によるがメモリが必要なので注意。AnroidStudioのメモリ量を増やしておく必要あり

こんな感じで内部辞書を新しくすることができました。

Pythonで誕生日計算

投稿者: utsubo 投稿日: 2017-10-30 in python


def calc_age(birthdate):
    now=datetime.datetime.now()
    bdate=datetime.datetime.strptime(birthdate,"%Y-%m-%d")
    age=now.year-bdate.year
    if now.timetuple().tm_yday < bdate.timetuple().tm_yday:
        age-=1
    return age

def calc_age(birthdate):

now=datetime.datetime.now()

bdate=datetime.datetime.strptime(birthdate,"%Y-%m-%d")

age=now.year-bdate.year

if now.timetuple().tm_yday < bdate.timetuple().tm_yday:

age-=1

return age


>>> calc_age("2001-11-18")
15
>>> calc_age("2001-10-18")
16

>>> calc_age("2001-11-18")

>>> calc_age("2001-10-18")

AmazonLinux(CentOS)にMPIを入れる

投稿者: utsubo 投稿日: 2017-09-22 in AWS

yumでインストール

sudo yum install openmpi openmpi-devel
sudo yum install mpich2 mpich2-devel # これは不要かも？

1 2	sudo yum install openmpi openmpi-devel sudo yum install mpich2 mpich2-devel # これは不要かも？

パス追加

~/.bashrcに追加

export PATH=$PATH:/usr/lib64/openmpi/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/lib64/openmpi/lib
export C_INCLUDE_PATH=$C_INCLUDE_PATH:/usr/include/openmpi-x86_64
export CPLUS_INCLUDE_PATH=$C_INCLUDE_PATH

export PATH=$PATH:/usr/lib64/openmpi/bin

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/lib64/openmpi/lib

export C_INCLUDE_PATH=$C_INCLUDE_PATH:/usr/include/openmpi-x86_64

export CPLUS_INCLUDE_PATH=$C_INCLUDE_PATH

python

ライブラリを追加

sudo yum install gcc gcc-c++ make git openssl-devel bzip2-devel zlib-devel readline-devel sqlite-devel bzip2 sqlite
sudo yum -y install  zlib-devel bzip2 bzip2-devel readline-devel sqlite sqlite-devel openssl-devel

1 2	sudo yum install gcc gcc-c++ make git openssl-devel bzip2-devel zlib-devel readline-devel sqlite-devel bzip2 sqlite sudo yum -y install zlib-devel bzip2 bzip2-devel readline-devel sqlite sqlite-devel openssl-devel

pyenv

git clone https://github.com/yyuu/pyenv.git ~/.pyenv

1	git clone https://github.com/yyuu/pyenv.git ~/.pyenv

.bashrcに追加　

export PYENV_ROOT=$HOME/.pyenv
export PATH=$PYENV_ROOT/bin:$PATH
eval "$(pyenv init -)"

export PYENV_ROOT=$HOME/.pyenv

export PATH=$PYENV_ROOT/bin:$PATH

eval "$(pyenv init -)"

python install

. ~/.bashrc
pyenv install 3.6.2
pyenv global 3.6.2

. ~/.bashrc

pyenv install 3.6.2

pyenv global 3.6.2

mpi4pyを導入

pip install mpi4py

1	pip install mpi4py

chainermn

wget https://github.com/NVIDIA/nccl/archive/v1.2.3-1+cuda7.5.tar.gz
tar zxvfp v1.2.3-1+cuda7.5.tar.gz 
cd nccl-1.2.3-1-cuda7.5/
make 
sudo make install

wget https://github.com/NVIDIA/nccl/archive/v1.2.3-1+cuda7.5.tar.gz

tar zxvfp v1.2.3-1+cuda7.5.tar.gz

cd nccl-1.2.3-1-cuda7.5/

make

sudo make install

pip install chainer python chainermn

1	pip install chainer python chainermn

pythonでデバッグログ作成

投稿者: utsubo 投稿日: 2017-09-21 in python


import re
import logging
logger = logging.getLogger("logger")    #logger名loggerを取得
logger.setLevel(logging.DEBUG)  #loggerとしてはDEBUGで
logging.basicConfig(level=logging.DEBUG,
    filename=re.sub("\..*$","",__file__)+".log",
    format="%(asctime)s %(levelname)-7s %(message)s")


logging.debug("debug log")

import re

import logging

logger = logging.getLogger("logger") #logger名loggerを取得

logger.setLevel(logging.DEBUG) #loggerとしてはDEBUGで

logging.basicConfig(level=logging.DEBUG,

filename=re.sub("\..*$","",__file__)+".log",

format="%(asctime)s %(levelname)-7s %(message)s")

logging.debug("debug log")

neologdをローカルにインストール

投稿者: utsubo 投稿日: 2017-07-18 in 自然言語処理

よく忘れるのでメモ

Neologdは最新の単語が入っていてすごく便利なのですが，あまりにも変更があるので，研究に使うにはちょっと困ってしまいます。
Versionの固定されたちょっと古いものを使用します。

wget https://github.com/neologd/mecab-ipadic-neologd/archive/v0.0.5.tar.gz
tar zmvfp v0.0.5.tar.gz
cd mecab-ipadic-neologd-0.0.5

wget https://github.com/neologd/mecab-ipadic-neologd/archive/v0.0.5.tar.gz

tar zmvfp v0.0.5.tar.gz

cd mecab-ipadic-neologd-0.0.5

インストール

./bin/install-mecab-ipadic-neologd --prefix /path/to/install/dir -u

1	./bin/install-mecab-ipadic-neologd --prefix /path/to/install/dir -u

ここでuオプションをつけるとローカル領域にインストールできます。

正規表現でURLを削除

投稿者: utsubo 投稿日: 2017-07-11 in python

pythonで正規表現でURLを削除する方法のメモ

ここを参考に作成したのですが，どうもバグっているのか，Pythonと相性が悪いようなので修正した。


import re

str="。少し前ですがhttp://lite-ra.com/2014/11/post-605_2.htmlってどういうことなのでしょうか？"
ret = re.sub(r"(https?|ftp)(:\/\/[-_\.!~*\'()a-zA-Z0-9;\/?:\@&=\+\$,%#]+)", "" ,str)

print ret # 少し前ですがってどういうことなのでしょうか？

import re

str="。少し前ですがhttp://lite-ra.com/2014/11/post-605_2.htmlってどういうことなのでしょうか？"

ret = re.sub(r"(https?|ftp)(:\/\/[-_\.!~*\'()a-zA-Z0-9;\/?:\@&=\+\$,%#]+)", "" ,str)

print ret # 少し前ですがってどういうことなのでしょうか？

gcc6でRMecabのインストールはエラー

投稿者: utsubo 投稿日: 2017-06-14 in linux、R、自然言語処理

大学のサーバのGCCが6.2だったのでメモ。

RMeCabのインストール

> install.packages("RMeCab", repos = "http://rmecab.jp/R")

1	> install.packages("RMeCab", repos = "http://rmecab.jp/R")

エラーになる。

RMeCab.cpp:89:11: error: narrowing conversion of '229' from 'int' to 'char' inside { } [-Wnarrowing]
          0}; //形容詞

1 2	RMeCab.cpp:89:11: error: narrowing conversion of '229' from 'int' to 'char' inside { } [-Wnarrowing] 0}; //形容詞

GCC6だとエラーになるので、GCC5台にしないと駄目です。

因みにソースコードはinstall.packageのときにオプションを付けると消されないでローカルファイルに残ります。

> install.packages("RMeCab", repos = "http://rmecab.jp/R",keep_outputs=T)

1	> install.packages("RMeCab", repos = "http://rmecab.jp/R",keep_outputs=T)

ubuntu16.04で画面のlock解除

投稿者: utsubo 投稿日: 2017-06-14 in linux

Ubuntu16.04のGnomeデスクトップではデフォルトで画面のLockがOnになっています。
そのため、画面を操作しないとロックされてしまい、毎回パスワードを入力する必要があります。

この画面のlockをさせない方法は以下の通り

Application-SystemTools-Settingsを選択
Privacyを選択
ScreenLockを選択しAutomatic Screen LockをOff

cygwin+python+mecab+PyCharmで開発環境を作る

投稿者: utsubo 投稿日: 2017-06-11 in python、windows、自然言語処理

概要

MacからWindwosに乗り換えて一番困るのが開発環境。Pycharmを使ってのpythonの開発はMac以上に面倒です。
WindowsはWindows用のコンパイルされたpythonやmecabを使うのが一般的ですが、モジュールの追加など結構面倒なので、Cygwinを使っている人も多いと思います。
今回、Cygwin上にPythonとMecabをインストールし、それをPycharmから使う環境を作成したのでメモを残します。

環境

* windows 10
* cygwin x86_64
* pycharm 2017.1

cygwinのインストール

ここからsetup-x86_64.exeをダウンロードしインストールします。特別なことは何もしません。通常にインストールします。
余裕があればapt-cygを入れておくと便利です。

pythonのインストール

cygwin上にpythonを入れておきます。自分の場合には2.7系を入れます。

teratermのインストール

cygwinのターミナルは使いにくいのでteratermを入れておきます。teratermにはcygwin用のTerminalもついているのでそちらを起動してCygwinにログインします。

mecabのインストール

Mecabのインストールはソースコードからインストールします。Mecabのバージョンは0.996を使いますがそのままではコンパイルできないので、こちらのパッチを用いてインストールします。

$ tar zxvf mecab-0.996.tar.gz
$ patch -p1 -d ./mecab-0.996/ < ./mecab-0.996.patch
$ cd ./mecab-0.996
$ ./configure --with-charset=utf-8; make; make install

$ tar zxvf mecab-0.996.tar.gz

$ patch -p1 -d ./mecab-0.996/ < ./mecab-0.996.patch

$ cd ./mecab-0.996

$ ./configure --with-charset=utf-8; make; make install

nkfのインストール

nkfをソースからインストールします。
こちらからダウンロードしインストールします

$ ./configure
$ make
$ make install

$ ./configure

$ make

$ make install

ipadic

こちらからipadicをダウンロードします。ソースコードになります。これをコンパイルするのですがそのままだとどうも文字化けしてしまいます。ので、UTF-8に変換しておきます

$ tar zxvfp mecab-ipadic-2.7.0-20070801.tar.gz
$ cd mecab-ipadic-2.7.0-20070801
$ for f in *;do nkf --overwrite -w $f ;done
$ ./configure --with-charset=utf-8

$ tar zxvfp mecab-ipadic-2.7.0-20070801.tar.gz

$ cd mecab-ipadic-2.7.0-20070801

$ for f in *;do nkf --overwrite -w $f ;done

$ ./configure --with-charset=utf-8

環境変数

windowsの環境変数を設定します。システムの詳細設定から、システムのプロパティを開き、詳細設定タブの環境変数からpathに以下を追加しておきます。これでWindows側からもCygwinのコマンドが呼び出せます。

c:\cygwin64\bin
c:\cygwin64\usr\bin
c:\cygwin64\usr\local\bin

c:\cygwin64\bin

c:\cygwin64\usr\bin

c:\cygwin64\usr\local\bin

python-mecab

pipでインストールするとエラーになります。ソースコードからインストールします。ここからmecab-python-0.996.tar.gzをダウンロードしコンパイルします

$ tar zxvfp mecab-python-0.996.tar.gz
$ cd mecab-python-0.996
$ python setup.py build
$ python setup.py install

$ tar zxvfp mecab-python-0.996.tar.gz

$ cd mecab-python-0.996

$ python setup.py build

$ python setup.py install

pycharm

ここからダウンロードしインストールします。
インストールしたのちにfileメニューのdefault settingsからproject interpreterを選択し、c:\cygwin64\bin\python2.7.exeを設定します

これでPycharmからCygwinのPythonを利用できます。

Pythonのマルチプロセスとマルチスレッド

投稿者: utsubo 投稿日: 2017-06-06 in python

マルチスレッドとマルチプロセス

マルチスレッドとマルチプロセスは似ているようで違います。マルチプロセス間の実行中の値は、各プロセス間で別になっていますが、マルチスレッドの場合には変数を共用するのでちょっと注意が必要です。

実行環境

cray xc40
python 2.7.13

マルチプロセス

ここを参考に

03_multi.py


#!/usr/bin/env python
# -*- coding: utf-8 -*-

# http://qiita.com/yubais/items/5a9d91fe03fe715b21d0

import multiprocessing as mp
import sys

L = 40000

proc=int(sys.argv[1])

# 各プロセスが実行する計算
def subcalc(queue, p):
    subtotal = 0

    # iの範囲を設定
    ini = L * p / proc
    fin = L * (p+1) / proc

    for i in range(ini, fin):
        for j in range(L):
            subtotal += i * j
    # キューにデータを送る
    queue.put(subtotal)

# キューを作成
queue = mp.Queue()

# 8個のプロセスを用意
ps=[]
for i in range(proc):
  ps.append(mp.Process(target=subcalc, args=(queue, i)))

# すべてを開始
for p in ps:
    p.start()

# キューから結果を回収
total = 0
for i in range(proc):
    total += queue.get()   # キューに値が無い場合は、値が入るまで待機になる

print(total)

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# http://qiita.com/yubais/items/5a9d91fe03fe715b21d0

import multiprocessing as mp

import sys

L = 40000

proc=int(sys.argv[1])

# 各プロセスが実行する計算

def subcalc(queue, p):

subtotal = 0

# iの範囲を設定

ini = L * p / proc

fin = L * (p+1) / proc

for i in range(ini, fin):

for j in range(L):

subtotal += i * j

# キューにデータを送る

queue.put(subtotal)

# キューを作成

queue = mp.Queue()

# 8個のプロセスを用意

ps=[]

for i in range(proc):

ps.append(mp.Process(target=subcalc, args=(queue, i)))

# すべてを開始

for p in ps:

p.start()

# キューから結果を回収

total = 0

for i in range(proc):

total += queue.get() # キューに値が無い場合は、値が入るまで待機になる

print(total)

36プロセス

03_multi_36.sh

実行スクリプト


#!/bin/sh
#PBS -N 03_multi_36
#PBS -j oe
#PBS -l select=1:ncpus=36
#PBS -l place=scatter
#PBS -q SINGLE


if [ "${PBS_O_WORKDIR}" != "" ];then
  cd ${PBS_O_WORKDIR}
fi
export OMP_NUM_THREADS=36

. ~/.bashrc

APRUN="aprun -n 1 -d $OMP_NUM_THREADS"

date
$APRUN python 03_multi.py 36
date

#!/bin/sh

#PBS -N 03_multi_36

#PBS -j oe

#PBS -l select=1:ncpus=36

#PBS -l place=scatter

#PBS -q SINGLE

if [ "${PBS_O_WORKDIR}" != "" ];then

cd ${PBS_O_WORKDIR}

export OMP_NUM_THREADS=36

. ~/.bashrc

APRUN="aprun -n 1 -d $OMP_NUM_THREADS"

date

$APRUN python 03_multi.py 36

date

結果

2017年  6月  6日 火曜日 09:33:12 JST
639968000400000000
2017年  6月  6日 火曜日 09:33:17 JST

2017年 6月 6日火曜日 09:33:12 JST

639968000400000000

2017年 6月 6日火曜日 09:33:17 JST

１プロセス

03_multi_1.sh

#!/bin/sh
#PBS -N 03_multi_1
#PBS -j oe
#PBS -l select=1:ncpus=1
#PBS -l place=scatter
#PBS -q SINGLE


if [ "${PBS_O_WORKDIR}" != "" ];then
  cd ${PBS_O_WORKDIR}
fi
export OMP_NUM_THREADS=1

. ~/.bashrc

APRUN="aprun -n 1 -d $OMP_NUM_THREADS"

date
$APRUN python 03_multi.py 1
date

#!/bin/sh

#PBS -N 03_multi_1

#PBS -j oe

#PBS -l select=1:ncpus=1

#PBS -l place=scatter

#PBS -q SINGLE

if [ "${PBS_O_WORKDIR}" != "" ];then

cd ${PBS_O_WORKDIR}

export OMP_NUM_THREADS=1

. ~/.bashrc

APRUN="aprun -n 1 -d $OMP_NUM_THREADS"

date

$APRUN python 03_multi.py 1

date

結果

2017年  5月 31日 水曜日 10:44:19 JST
639968000400000000
2017年  5月 31日 水曜日 10:45:35 JST

2017年 5月 31日水曜日 10:44:19 JST

639968000400000000

2017年 5月 31日水曜日 10:45:35 JST

かなり速度が違います

マルチスレッド

ここを参考

03_multi.py


#!/usr/bin/env python
# -*- coding: utf-8 -*-

# http://qiita.com/yubais/items/5a9d91fe03fe715b21d0
# http://kaworu.jpn.org/python/Pythonのマルチスレッドプログラミング
import threading
import sys
#http://ja.pymotw.com/2/Queue/
import Queue
L = 40000

proc=int(sys.argv[1])

# 各プロセスが実行する計算
def subcalc(queue, p):
    subtotal = 0

    # iの範囲を設定
    ini = L * p / proc
    fin = L * (p+1) / proc

    for i in range(ini, fin):
        for j in range(L):
            subtotal += i * j
    # キューにデータを送る
    queue.put(subtotal)

# キューを作成
queue = Queue.Queue()

# 8個のプロセスを用意
ps=[]
for i in range(proc):
  ps.append(threading.Thread(target=subcalc, args=(queue, i)))

# すべてを開始
for p in ps:
    p.start()
    p.join()

# キューから結果を回収
total = 0
for i in range(proc):
    total += queue.get()   # キューに値が無い場合は、値が入るまで待機になる

print(total)

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# http://qiita.com/yubais/items/5a9d91fe03fe715b21d0

# http://kaworu.jpn.org/python/Pythonのマルチスレッドプログラミング

import threading

import sys

#http://ja.pymotw.com/2/Queue/

import Queue

L = 40000

proc=int(sys.argv[1])

# 各プロセスが実行する計算

def subcalc(queue, p):

subtotal = 0

# iの範囲を設定

ini = L * p / proc

fin = L * (p+1) / proc

for i in range(ini, fin):

for j in range(L):

subtotal += i * j

# キューにデータを送る

queue.put(subtotal)

# キューを作成

queue = Queue.Queue()

# 8個のプロセスを用意

ps=[]

for i in range(proc):

ps.append(threading.Thread(target=subcalc, args=(queue, i)))

# すべてを開始

for p in ps:

p.start()

p.join()

# キューから結果を回収

total = 0

for i in range(proc):

total += queue.get() # キューに値が無い場合は、値が入るまで待機になる

print(total)

36プロセス

04_thread_36.sh

実行スクリプト


#!/bin/sh
#PBS -N 04_thread_36
#PBS -j oe
#PBS -l select=1:ncpus=36
#PBS -l place=scatter
#PBS -q SINGLE


if [ "${PBS_O_WORKDIR}" != "" ];then
  cd ${PBS_O_WORKDIR}
fi
export OMP_NUM_THREADS=36

. ~/.bashrc

APRUN="aprun -n 1 -d $OMP_NUM_THREADS"

date
$APRUN python 04_thread.py 36
date

#!/bin/sh

#PBS -N 04_thread_36

#PBS -j oe

#PBS -l select=1:ncpus=36

#PBS -l place=scatter

#PBS -q SINGLE

if [ "${PBS_O_WORKDIR}" != "" ];then

cd ${PBS_O_WORKDIR}

export OMP_NUM_THREADS=36

. ~/.bashrc

APRUN="aprun -n 1 -d $OMP_NUM_THREADS"

date

$APRUN python 04_thread.py 36

date

結果

2017年  6月  6日 火曜日 09:39:57 JST
639968000400000000
2017年  6月  6日 火曜日 09:41:13 JST

2017年 6月 6日火曜日 09:39:57 JST

639968000400000000

2017年 6月 6日火曜日 09:41:13 JST

1プロセス

04_thread_1.sh

実行スクリプト


#!/bin/sh
#PBS -N 04_thread_1
#PBS -j oe
#PBS -l select=1:ncpus=1
#PBS -l place=scatter
#PBS -q SINGLE


if [ "${PBS_O_WORKDIR}" != "" ];then
  cd ${PBS_O_WORKDIR}
fi
export OMP_NUM_THREADS=1

. ~/.bashrc

APRUN="aprun -n 1 -d $OMP_NUM_THREADS"

date
$APRUN python 04_thread.py 1
date

#!/bin/sh

#PBS -N 04_thread_1

#PBS -j oe

#PBS -l select=1:ncpus=1

#PBS -l place=scatter

#PBS -q SINGLE

if [ "${PBS_O_WORKDIR}" != "" ];then

cd ${PBS_O_WORKDIR}

export OMP_NUM_THREADS=1

. ~/.bashrc

APRUN="aprun -n 1 -d $OMP_NUM_THREADS"

date

$APRUN python 04_thread.py 1

date

結果

017年  6月  6日 火曜日 09:39:57 JST
639968000400000000
2017年  6月  6日 火曜日 09:41:13 JST

017年 6月 6日火曜日 09:39:57 JST

639968000400000000

2017年 6月 6日火曜日 09:41:13 JST