データ移行が一番難しい

2009.12.11 Friday 12:11
0
    お客様のシステムを入れ替えする場合に一番気にするのが『データ移行』です。
    以前にも弊社のシステムをお使いであればよいのですが、そうではない場合はかなり問題が発生します。
     
    大きくあげると
     1.文字コード、外字などの問題
     2.文字列長さの問題
     3.データ品質に問題
    の3つがあります。
     
    1つ目の文字コード、外字などの問題についてですが、Windowsの文字コードがいつの間にか変わっていたのをみなさんご存じないようであまり理解されていない方が多いようです。
    昔、MSDOSの時代は日本では SHIFT-JIS(シフトジス)というものがよくつかわれるようになりました。
    この構成は簡単で、半角1文字は1バイト、全角1文字は2バイト、外字も同じく2バイトで構成されていますが、Windows 2000頃から SHIFT-JISではなく Unicode(ユニコード)に変わっているのです。
    古いデータが SHIFT-JISの場合は基本的にはこの文字コード変換を行いながら処理する必要があります。
    通常は新しい環境で古いデータを読み込んで処理するので、Unicodeに変換するというよりも、どうやってSHIFT-JISを読み込むかという側を確認しないといけません。
     
    2つ目に文字列の長さの問題です。
    1つ目で話ましたが、Unicodeになったために、半角や全角という区切りで内部コードのバイト数が決定できなくなりました。 WindowsXP以降はWindowsではUTF-16というものが使われていて、半角でも全角でも総て2バイトで内部表現されています。
    しかし、データベースなどでは、UTF-16よりもUTF-8が使われることが多く、この場合は半角英数は1バイトなのですが、半角カナ文字や全角は1文字でも3バイトとなっています。
    つまり、データベース設計は、格納される文字の種類によって最大の値をとらないといけないのです。
    簡単にいうと、半角カナが入る可能性があればSHIFT-JISの3倍のバイト数が必要なのです。
    このことによりパフォーマンスの問題やいろいろな問題が発生しますし、自分でバイナリサーチのロジックを組んでいる人はインデックスに日本語が含まれる場合はうまく検索できなくなります。
     
    3つ目にデータ品質です。
    過去のシステムが何度かバージョンアップした場合、バージョンアップ以前のデータは最新のデータベース構造の要件を満たさない場合があります。
    そうすると、入るべき場所にデータがセットされていなかったりすることがあります。
    ないところからデータを作る必要があるので、それなりのロジックを作成したり、または別途手入力するなどの対応が必要になります。
    そのほか、バグによるデータ破損や不整合なデータも厄介です。
     
    これらを想定し、変換アプリを構築したり、手入力で補うシートを作成したりと、なかなか簡単にはいかないのです。
    しかし、ここで手を抜くと、新しいシステムで予期しないデータを処理してしまい、システムダウンの可能性も発生します。
     
    このように一部の問題を書きましたが、データ移行は弊社だけではできないので、お客様の手をたくさんかりるのも事実です。
    一番いいのは再度手入力ですが、仕方ないものもあります。
     
    今後も慎重に、かつ確実に進めていきたいと思います。

    category:サポート | by:comments(0) | -
    Comment








       

    Calender
          1
    2345678
    9101112131415
    16171819202122
    23242526272829
    3031     
    << December 2018 >>
    弥生製品
    最高に安いレンタルサーバー
    ネット注文はアマゾン
    Selected entry
    Category
    Archives
    Recommend
    Link
    Profile
    Search
    Others
    Mobile
    qrcode
    Powered
    無料ブログ作成サービス JUGEM