星期四, 1月 15, 2009

有關File I/O的兩三事(1) - 不算開始的開始

這篇是技術文,不想看的可以跳了XD 這篇是寫給初學者看的,也是我這幾天寫程式的心得,所以高手可以改錯XD。會想寫這樣子的文字是從SmallPig及cllee老師中所提及的File I/O方式,做一個論述。

大部分的書本都會提及如何在記憶體中操作程式,但是對於File I/O僅提及如何讀取,寫入,其實也相當正常,因為換作是我來寫,我也不知道要寫什麼額外的,然而在實作呢?

重要問題: 為什麼File I/O如此重要?
有趣的問題: 如何把binary tree寫入檔案,又從檔案中讀取建立binary tree呢?

先回答重要問題,回到基本計算機概論本身,常識會告訴你,記憶體中的資料只要一斷電就消失,而硬碟不會(但是硬碟容易壞XD),如果你要保留你的程式某些資訊,勢必是要寫入檔案中的,在有趣的問題中,binary tree小的話,每次重算倒也沒有什麼,但是如果是相當大量的資料呢,不寫入是不行的,而我想把有趣的問題拖到晚一點再回答。

那麼一般狀況下怎麼寫檔案?

  • 直接寫
    號稱人類最直覺的做法XD,想寫什麼就寫什麼,通常人看的懂,電腦很難看懂XD

  • binary file
    其實我也不知道怎麼稱呼XD,將C/C++中的struct直接以binary的方法寫入檔案(人看不懂,電腦很容易看懂XD),在一般狀況下稱為fixed file format,一般常見的檔案格式都是採用此方法,會有一個header在檔案的一開始,做為檔案的描述。

  • XML
    用一堆tag組成的檔案(人看的懂,電腦也看的懂,可是...XD),只要程式中具有XML parser,就可以慢慢的得到檔案想要傳遞的訊息,其實XML最常用的是在於網路中的訊息交換,在近期的檔案格式也相當常見。

先來慢慢討論第二項吧,這邊以C語言為範例(yen3 <- 不擅長C),假設今天struct如下。

typedef struct _Node{
int n;
char s;
} Node;
如果我們寫了這樣子的程式碼
    print("%d", sizeof(Node));  //output: 8
從這邊得到一個非常有趣的結果,結果是8 bytes而不是5 bytes,原因很簡單,因為要align memory,一個word是4 bytes,如果只有char時無妨,還是只有1 bytes,但是如果加入int時,那麼就要變成2個words為8 bytes,所以其實這個struct寫成
typedef struct _Node{
int n;
char s;
char unused[3];
} Node;

效果是一模一樣的。


利用這個例子,我想說明的是,如果要寫binary file,就要對每個byte斤斤計較放在檔案的那個位置,倒也不是為了節省記憶體(雖然某部分原因也是),而是為了支援File Random Access,Binary FIle的最大好處是,由於format固定,相當容易做到random access(在C中使用lseek(不過這是Unix System Call),在C++中使用std::ifstream::tellg(), std::ofstream::tellp()),只要每筆資料size固定,只要算出檔案相對的byte即可存取,相當方便。

那binary file壞處為何? 如果當初設計的File format不足以支援現有需求時,該如何因應? 有些File format會設計一些保留bytes,或者是延伸檔案格式,總而言之,如果要擴充時還蠻不方便的。


---
下回分解XD

2 則留言:

日落 Zero 提到...

之前用 UltraEditor 玩過遊戲存檔了,很累不過很好玩....

C 語言寫二進位檔好像一次都是 1 bytes,以字元方式讀寫?

yen3 提到...

可以精準到 1 byte沒有錯,不過建議以4的倍數存取,為了memory align會好很多。

雖然看起來是一個1 byte,但是硬碟的最小單位是 16 kbytes,也就是說,只要讀小於這個數字的size,一次都是讀這麼大啊XD