後2日で宿舎からアパートへ引越し。
3年間宿舎に住んできたということもあり、何か寂しい感じもする。
さて、日曜日までに荷物をまとめておかないと。。。
さて,Namazuを導入したのは良いものの,いくつか気にくわない点があった.
まず,ファイル名(正確には,Namazuの検索結果のタイトル部分)が
元のファイル名のエンコーディングに依存してしまっていた.
調べてみてもあまり有用な情報は見つからず.
調べてる中で見つけたのは,タイトルの部分は,pdfinfoの結果から決定しているらしい.
しかし,pdfinfoの引数にはエンコーディングが指定できるようになっていて,
フィルターのスクリプトの中では,EUC-JPを確かに指定している.
しかし,よくよくスクリプトを読んでみると,pdfinfoのtitle要素が無かった場合は,
ファイル名を使うようにしていることがわかった.
従って,ファイル名に対してエンコードを行えば,問題なさそうである.
filterのスクリプトを以下のように変更した.
> diff -c pdf.pl~ pdf.pl
*** pdf.pl~ 2010-02-01 22:58:04.000000000 +0900
--- pdf.pl 2010-02-02 22:02:21.000000000 +0900
*** 26,31 ****
--- 26,32 ----
package pdf;
use strict;
+ use Jcode;
require 'util.pl';
require 'gfilter.pl';
*** 204,209 ****
--- 205,212 ----
gfilter::lineadjustfilter($cont);
gfilter::lineadjustfilter($weightedstr);
gfilter::whitespaceadjustfilter($cont);
+
+ $cfile = jcode($cfile)->eucjp;
$fields->{'title'} = gfilter::filenametotitle($cfile, $weightedstr)
unless $fields->{'title'};
gfilter::showfilterdebuginfo($cont, $weighted_str,
実際に動かしてみたところ,問題なく動いていることを確認した.
また,Namazuのインデックスを作成するときに,以下のようにエラーが起きることがあった.
Out of memory during "large" request for 67112960 bytes, total sbrk() is 516675584 bytes at /usr/local/lib/perl5/site_perl/5.8.9/File/MMagic.pm line 915, <GEN7> line 10.
読み込んでいるファイルが,ドキュメントスキャナで取り込んだpdfファイルということもあり,
数百ページの画像ファイルになっている場合があるため,1ファイルが相当大きくなっている場合がある.
原因としては,sbrkの制限がかかっており,limitで調べると以下のようになっていた.
cputime unlimited
filesize unlimited
datasize 524288 kbytes
stacksize 65536 kbytes
coredumpsize unlimited
memoryuse unlimited
vmemoryuse unlimited
descriptors 11095
memorylocked unlimited
maxproc 5547
sbsize unlimited
datasizeの部分が512MByteに制限されていることがわかる.
root権限でlimitをしても,ダメだと言われる.
/etc/login.confを見ても,unlimitedになっている.
いろいろと調べていると,FreeBSDのデフォルト値が512MByteらしい.
ただ,/boot/loader.confに以下のように書いておけば良いみたい.
kern.maxdsiz="2G"
確かに,修正してrebootさせると,以下のようになって反映されている,
> limit
cputime unlimited
filesize unlimited
datasize 2097152 kbytes
stacksize 65536 kbytes
coredumpsize unlimited
memoryuse unlimited
vmemoryuse unlimited
descriptors 11095
memorylocked unlimited
maxproc 5547
sbsize unlimited
これで,目下の問題は解決.後は,今後ドキュメントスキャナを使うときには,
dpiをあげることぐらいか...
300dpiだと7割から8割くらいしか自動認識してくれないなぁ...
ドキュメントスキャナを買った.
スキャンしたデータを検索する方法としてNamzuを使った全文検索で,
サーバ上に置いておいて常にどこからでも参照できるようにしたかった.
ということで,Namazuを導入.
メモ程度に要点だけ書いておく.
インストール方法は,適当なサイトを見れば大体大丈夫.
環境:FreeBSD 7.2-RELEASE-p4
○EUC-JPがない
Error: Couldn't find unicodeMap file for the 'EUC-JP' encoding
Error: Couldn't get text encoding
ports上のgraphics/xpdfが既にインストールされていたため,この問題が起きた.
graphics/xpdfを削除して,japanese/xpdfをインストールする.
○フォントがおかしい?
pdftotextを直に叩くと以下のようなエラーが出た.
Error: Couldn't find '90ms-RKSJ-H' CMap file for 'Adobe-Japan1' collection
何故か,日本語用の設定ファイル「/usr/local/share/xpdf/japanese/dot.xpdfrc」の
設定の一部が以下のようになっていた.
cMapDir Adobe-Japan1 /usr/local/share/fonts/adobe-cmaps
後ろに,/aj16/CMapをくっつける.
cMapDir Adobe-Japan1 /usr/local/share/fonts/adobe-cmaps/aj16/CMap
こんなところだったような気がする.
何だかんだで,2時間近く時間を取った気が...
あと,現状の問題.
・スキャン精度があまりよくない.
・ファイル名が日本語になってない(UTF-8なため)
そんなところ.
実は、昨日が誕生日だった。
昨日日記を書こうと思ったけど、時間がなくて、結局1日後に書くことに。。。
今は、忙しいというか、割と充実した日々を過ごしています。
大学循環バスが遅延するのはなんとかならないのかなぁ。
バスが遅れることを予期して3分遅れて行くと
すでに行っちゃってるし、
時間通りだと8分くらい待つことになるし、、、
今朝、中途半端に寝てしまったのが原因か、
今日一日で思っていた以上に疲れた。
最後に東京駅発の高速バスで席についたときに思わず、
「はぁ、疲れた。。。」とつぶやいてしまうくらいだった。
とりあえず、ゆっくりと寝ることにしよう。。。
気のせいか、宿舎のネットワークの調子が悪い。
レスポンスが極端に悪いときがあったり、たまにタイムアウトしたりする。
理由は何でだろうなぁ。。。。
レスポンスが悪いのは、2ヶ月ぐらい前から起こっていたような
気もするんだけど、理由がいまいち分からない。。。
ふと、机の上の本を手に取る。
「墜落遺体―御巣鷹山の日航機123便」だった。
そういえば、これって事故原因なんだろう、と思う。
事故調査の結果だと、それ以前の事故の修理が
不完全だったということらしい。
Googleの「他のキーワード」のところには、
「日航機墜落事故 生存者 その後」とか出ている。
よく分からないブログのページにその後が書いてあるけど、
これは本当なのだろうか?
他にも、事故に関係する新聞の切り抜きのようなものを
公開しているサイトなどがあったりした。
何だか、調べれば調べるほど、複雑な気分になってくる。
ボールペンがないな、、、とか思って、いろいろと探し回っていて、
結局、見つからなかったので、今日の朝にボールペンを買ってきた。
しかし、帰ってきてから、何気なく、キーボードをずらしてみると、
その影から、2本のボールペンが・・・。探していたボールペンが出てきた。
確かに、そこの場所はあり得るから、探したと思っていたんだけど、
思い込みで、探し忘れていたらしい。。。やってしまった。
もうちょっと探しておけば良かったが、まぁ、仕方がないか。。。
ノートパソコン用にハードディスクを購入。
HGSTの7200rpm、320GByteのものにした。
同じぐらいの値段で、500GByteのものもあったけど、別に容量はいらないので、
回転数とディスクキャッシュが高いものにした。
それにしても、TSUKUMOで買ったんだけど、店員の対応が良くなかった。
箱だけ見せられて「これであってますか?」と確認されたんだけど、
型番だけ見せられても何となくしかわからない。
ちゃんと、どこを確認したらあっているか説明をしてほしい。
しかも、レジ通すと値段が違うとくるから「本当に売る気あるのかなぁ」と
思わざるを得なかった。
仕方がないので、中身を開けて確認させてもらった。特に問題は無し。
何だかなぁ。。。いろいろと考えてしまう。
東京からつくばに帰ってくるまでの各種デッドラインをまとめてみた.
ただし,ご利用は自己責任でお願いします.
○電車
・つくばセンター発の大学循環バスに間に合うようにする場合
TX 区間快速
秋葉原 発:21:36
つくば 着:22:29
大学循環バス
つくばセンター 発:22:40
・つくば駅からは自転車で,宿舎の風呂に間に合わせたい場合
TX 区間快速
秋葉原 発:22:15
つくば 着:23:07
・純粋に終電
TX 普通
秋葉原 発:23:30
つくば 着:00:27
○バス
・大学中央からは徒歩で,宿舎の風呂に間に合わせたい場合
つくば号
東京駅八重洲口 発:21:40
筑波大学 着:22:55
# ちなみに,実はもう一本後でも時刻表の上では大丈夫だったりする.
# まぁ,高速バスなので余裕をもって計算.
・ミッドナイトつくば号ではない,通常料金で乗りたい場合
つくば号
東京駅八重洲口 発:23:00
筑波大学 着:0:15
・ミッドナイトつくば号を使う場合
ミッドナイトつくば号
東京駅八重洲口 発:0:30
筑波大学 着:1:45
# どうでもいいけど,Yahoo路線情報にミッドナイトつくば号出るんだね...
ちなみに,今回は,22時30分のTXに乗ってしまったため,
宿舎風呂には間に合いませんでした...orz
東京から10時半ごろに帰ってきて、いろいろとしていたらこの時間。
まだ明日の講義の資料を作ってないんだけど、それは明日の朝やろう。
今回の講義は、測域センサからのデータを解析して、相関係数を求めて、
ある物体が直線かどうかをチェックすることをやる。
やること自体は、かなり単純なので、すぐに終わっちゃうかもなぁ。。。
他にもやることを考えておいた方がよいかもな。
それが終わったら、事務に書類だしにいったりとか、
いい加減、振込をしないとまずかったりとか、、、
そして、夕方からは再び東京です。
忙しいけど、がんばっていこう。
徹夜で今に至るんだけど、午後から頭が全然回ってない。
さっさと寝て、明日の朝、また作業をしよう。。。
昨日の7時ごろから起きてて、徹夜です。
今はあまり眠たくないけど、午後がきついだろうなぁ。。。
今晩は、早めに寝るようにしよう。。。
Googleの検索結果で「他のキーワード」の部分に出てくる一番先頭は、なぜか、
「つくばエクスプレス 延伸」なんだ。。。
てっきり、「つくばエクスプレス 時刻表」だと思ってクリックしようとしたら、
全然違っていて「えっ!」と思った。
日記のネタがある -> 書こうかなぁ -> 他にやることあるから後にしよう -> 日記のネタが(以下省略
忙しいとはいえ、少しは日記書こう。。。1行、2行程度でも良いので。
あと、Twitterの方は、時間がないときにやるものじゃないな、ということで、
1週間近く接続していないです。
クライアントソフトもほぼ消したも同然の状態(どこにプログラムが行ったか忘れた)で、
hostsファイルを書き換えて、twitter.comはローカルホストに飛ばされます。
どちらも特に絶対に必要だということはないんだけど、何となくやってみました。
ここ数日、日記を書いていない気がする。
書くネタはあるんだけど、それを書く時間が。。。
特に何も書かないのは無駄な気もするので、明日の予定でも。
明日は、つくばチャレンジのシンポジウムがあるので、それに参加してきます。
シンポジウムの中では、ポスターセッションなどがあり、
うちのサークルのロボットについてもポスターセッションを行います。
あとは、他のチームのロボットがどんな感じになっていたのかは
非常に気になるので、そこら辺をいろいろと見てこようと思います。
<ul><li><a href="http://twitter.com/yshibata/status/7396974402" rel="external">2010年01月05日 16:45:57の発言</a> : 今日のDB2の課題のアドレスはここですよ!期限は今日の23時59分までです.
http://www.kde.cs.tsukuba.ac.jp/~kawasima/lecture/db-gairon-2/1225.html</li>
<li><a href="http://twitter.com/yshibata/status/7396368426" rel="external">2010年01月05日 16:13:04の発言</a> : 帰ってきたら,スキャナの値段が5円下がっているという不思議w</li>
<li><a href="http://twitter.com/yshibata/status/7392259001" rel="external">2010年01月05日 13:22:59の発言</a> : おし,キヤノンのDR-150を買う.ただ,時々刻々と数円単位で値段が下がっているので,ある程度見極めて買おうかな.</li>
<li><a href="http://twitter.com/yshibata/status/7392225927" rel="external">2010年01月05日 13:21:51の発言</a> : <a href="http://twitter.com/eagle_raptor/">@eagleraptor</a> ただ,スキャンしたら基本放置になる可能性が高いので,Acrobatは自分はどうでもいいです.</li>
<li><a href="http://twitter.com/yshibata/status/7392212865" rel="external">2010年01月05日 13:21:24の発言</a> : <a href="http://twitter.com/eagleraptor/">@eagleraptor</a> S1300はついてこないね.S1500はついてくる.</li>
<li><a href="http://twitter.com/yshibata/status/7392014832" rel="external">2010年01月05日 13:14:45の発言</a> : <a href="http://twitter.com/eagleraptor/">@eagleraptor</a> S1500だったはずだよ.</li>
<li><a href="http://twitter.com/yshibata/status/7391888045" rel="external">2010年01月05日 13:10:30の発言</a> : <a href="http://twitter.com/eagleraptor/">@eagleraptor</a> いや,ScanScapのS1500はさすがに高いから買わないけど,下位機種のS1300かキヤノンのDR-150を買おうか迷ってる.</li>
<li><a href="http://twitter.com/yshibata/status/7391721074" rel="external">2010年01月05日 13:05:05の発言</a> : ドキュメントスキャナーを購入しようかと30分ぐらい悩み中...</li>
<li><a href="http://twitter.com/yshibata/status/7389020786" rel="external">2010年01月05日 11:40:07の発言</a> : <a href="http://twitter.com/mbird/">@mbird</a> 郵便局の窓口から速達とか?午前と午後で配達日が一日かわってくるかも(要確認)しれないので、早めに出した方が良いですよ。 </li>
<li><a href="http://twitter.com/yshibata/status/7385531725" rel="external">2010年01月05日 09:51:09の発言</a> : おおお,UPSでサーバのシャットダウンなしにメンテナンス完了した. 当たり前だけど,新鮮な感覚...</li>
<li><a href="http://twitter.com/yshibata/status/7372338295" rel="external">2010年01月05日 01:58:02の発言</a> : <a href="http://twitter.com/ozax86/">@oza_x86</a> ですねー・・・w</li>
<li><a href="http://twitter.com/yshibata/status/7372250828" rel="external">2010年01月05日 01:54:51の発言</a> : しかし,つくば時間的には,この時間帯はまだ普通な気がする...</li>
<li><a href="http://twitter.com/yshibata/status/7372237762" rel="external">2010年01月05日 01:54:21の発言</a> : 遊びから帰ってきた.</li>
</ul>
明日の始発でつくばへ戻ります.
始発で帰れば,最短で午前9時50分頃に大学に着くことが可能.
あと,そもそも,明日の授業自体は12時15分からなので,普通に行けば余裕で間に合う.
とりあえず,明日の朝乗る新幹線がN700系のひかりなので,電源を使うことができて良い.
ノートパソコンで作業でもしながら過ごすことにしよう.
<ul><li><a href="http://twitter.com/yshibata/status/7356167409" rel="external">2010年01月04日 13:38:56の発言</a> : さて,そろそろ待ち合わせ場所に移動する.</li>
<li><a href="http://twitter.com/yshibata/status/7356146516" rel="external">2010年01月04日 13:38:10の発言</a> : <a href="http://twitter.com/oza_x86/">@oza_x86</a> すいません,もっと単純な間違えをしていました...orz 一応,それも疑ったことは疑いましたw</li>
<li><a href="http://twitter.com/yshibata/status/7356096437" rel="external">2010年01月04日 13:36:17の発言</a> : うへ,mendex入ってないじゃん.提供されたスクリプト動かしてたから気づかなかった.</li>
<li><a href="http://twitter.com/yshibata/status/7356026151" rel="external">2010年01月04日 13:33:42の発言</a> : あれー,texで索引がつかない・・・.idxファイルには書かれてるんだけど...orz</li>
<li><a href="http://twitter.com/yshibata/status/7355821489" rel="external">2010年01月04日 13:26:17の発言</a> : 時間まで,喫茶店でコーヒー飲みながら,原稿の確認.</li>
<li><a href="http://twitter.com/yshibata/status/7348089633" rel="external">2010年01月04日 09:04:19の発言</a> : まぁ,収益の増加を考えれば,それなりの人事(ネコ事?)だろうな.
たま駅長、執行役員に昇格だニャン 和歌山電鉄 - 社会
http://www.asahi.com/national/update/0103/OSK201001030039.html</li>
<li><a href="http://twitter.com/yshibata/status/7347514025" rel="external">2010年01月04日 08:44:13の発言</a> : さて,高校の頃の友人たちと遊んでくる. 帰ってくるのは明日の朝...</li>
</ul>