2011年8月30日 星期二

The difference between char* and char[]

以下面的程式片段為例:
上面程式碼編譯執行結果會印出"string", 
但若把 method(2) 那行拿掉,只留 method(1) 那行,則編譯(g++)會有警告出現,
warning:address of local variable 'str' returned

揪竟~這兩種寫法差異為何?

在這個例子中:

[1]首先就宣告變數 str 來說,
method(1) 的變數 str 是配置在 local 區的記憶體中;
method(2) 的變數 str 也是配置在 local 區的記憶體中,但其指向的地方不是,而是在 constant pool (系統中放置常數資料的地方)。

[2]再者討論 return str; 的動作差異,
method(1) 會把陣列的記憶體位置回傳,回傳一個指向 local 區的記憶體位置,這是有風險的,因為當副程式 getStr() 完成後,其中所使用的變數 str 記憶體空間會被釋放,之後利用它的運算可能會出錯,所以編譯器會以警告告知你;
method(2) 則是回傳指標值,也就是 "string" 的所在記憶體位置,而這個值是指向非 local 區,所以是安全的動作。

說明
“xxxxxx” 常數 (literal constant string) 都是放在系統的 constant pool 中,而且通常 compiler 會將 constant pool 設為 read only。
char *ptr = “xxxxxx”; 是讓 ptr 指向 constant pool 裡第一個 ‘x’ 的位置。
char str[] = “xxxxxx”; 是在 stack 中開 7 個 bytes 的空間, 並將 ‘x’ ‘x’ ‘x’ ‘x’ ‘x’ ‘x’ + ‘\0’ 七個字元從 constant pool 中複製 (load) 過來。

2011年8月23日 星期二

好文轉錄 - C語言新手十誡

作者: khoguan (Khoguan Phuann) 看板: C_and_CPP
標題: C 語言新手十誡(增修一版)
時間: Sat Sep 3 01:07:31 2005

C 語言新手十誡(The Ten Commandments for Newbie C Programmers) by Khoguan Phuann

請注意:
(1) 本篇旨在提醒新手,避免初學常犯的錯誤(其實老手也常犯:-Q)。 但不能取代完整的學習,請自己好好研讀一兩本 C 語言的好書, 並多多實作練習。
(2) 強烈建議新手先看過此文再發問,你的問題極可能此文已經提出並解答了。
(3) 以下所舉的錯誤例子如果在你的電腦上印出和正確例子相同的結果, 那只是不足為恃的一時僥倖。
(4) 不守十誡者,輕則執行結果的輸出數據錯誤,或是程式當掉,重則引爆核彈、毀滅地球。
   (如果你的 C 程式是用來控制核彈發射器的話)

一、你不可以使用尚未給予適當初值的變數。

錯誤例子
正確例子
二、你不可以存取超過陣列既定範圍的空間。

錯誤例子
正確例子
說明:宣告陣列時,所給的陣列元素個數值如果是 N, 那麼我們在後面透過 [索引值] 存取其元素時,所能使用的索引值範圍是從 0 到 N-1, 也就是 C 和 C++ 的陣列元素是從第 0 個開始算起,最後一個元素的索引值是 N-1, 不是 N。 C/C++ 為了執行效率,並不會自動檢查陣列索引值是否超過陣列邊界, 我們要自己寫程式來確保不會越界。一旦越界,將導致無法預期的後果。

三、你不可以提取(dereference)不知指向何方的指標(包含 null 指標)。

錯誤例子
正確例子
說明:指標變數必需先指向某個明確的東西(object),才能進行操作。

四、你不可以將字串常數賦值(assign)給 char* 變數,然後透過該變數改寫字串的內容(只能讀不能寫)。

錯誤例子
正確例子
說明:字串常數的內容是唯讀的。上面的錯誤例子,是將其內容所在的位址賦 值給字元指標 pc, 我們透過指標只可以去讀該字串常數的內容,而不應該做 寫入的動作。而正確例子,則是另外宣告一個獨立的字元陣列,它的大小我們未明文指定([]),編譯器會自動將其設為剛好可以容納後面的字串常數起始值的大小,包括字串後面隱含的 '\0' 字元,並將字串常數的內容複製到字元陣列中,因此可以自由的對該字元陣列的內容進行讀和寫。

錯誤例子(2)
正確例子(2)
五、你不可以對尚未分配所指空間的 char* 變數,進行(字串)陣列的相關操作。其他型別的指標亦然。

錯誤例子
正確例子(1)
正確例子(2)
注意:上例用 gets() 或 scanf() 來讀入字串,是不安全的。 因為這些函式不會幫我們檢查使用者所輸入的字串長度是否超過我們所分配的 buffer 空間, 很可能會發生 buffer overflow。比較安全的做法是用 fgets() 來取代。如:
六、你不可以在函式中回傳一個指向區域性自動變數的指標。否則,會得到垃圾值。
[感謝 gocpp 網友提供程式例子]
錯誤例子
說明:區域性自動變數,將會在離開該區域時(本例中就是從getstr函式返回時) 被消滅,因此呼叫端得到的指標所指的字串內容就失效了。
【不過,倒是可以從函式中直接傳回字串常數,賦值給呼叫端的一個 const char * 變數,它既是唯讀的(參見第四誡),同時也具有恒常的儲存期(static storage duration),其內容將一直有效。】
正確例子 [針對字串操作,C++提供了更方便安全的 string class, 能用就盡量用]

七、你不可以只做 malloc(), 而不做相應的 free(),否則會造成記憶體漏失。
但若不是用 malloc() 所得到的記憶體,則不可以 free()。已經 free()了所指記憶體的指標,在它指向另一塊有效的動態分配得來的空間之前,不可以再被 free(),也不可以提取(dereference)這個指標。
[C++] 你不可以只做 new, 而不做相應的 delete.

八、你不可以在數值運算、賦值或比較中隨意混用不同型別的數值,而不謹慎考慮數值型別轉換可能帶來的「意外驚喜」(錯愕)。必須隨時注意數值運算的結果,其範圍是否會超出變數的型別。

錯誤例子(1)
正確例子(1)
說明:在目前最普遍的32位元PC作業平台上,整數常數2000000000的型別為 signed int(簡寫為 int),相加後,其結果仍為 int, 但是 signed int 放不下 4000000000, 造成算術溢位(arithmetic overflow),很可能無法將正確的值指派給 unsigned int sum,縱使 unsigned int 放得下4000000000 的數值。注意:寫成也是不對的。
例子(2):(感謝 sekya 網友提供)
說明:在將 char 型別定義為範圍從 -128 至 +127 的系統上,int 0x80 (其值等於 +128)要轉成 char 會放不下,會產生編譯器自行定義的值。 這樣的程式就不具可移植性了。

九、你不可以在一個運算式(expression)中,對一個基本型態的變數修改其值 超過一次以上。否則,將導致未定義的行為(undefined behavior)。

錯誤例子
正確例子 你也不可以在一個運算式(expression)中,對一個基本型態的變數修改其值, 而且還在同一個式子的其他地方為了其他目的而存取該變數的值。(其他目的, 是指不是為了計算這個變數的新值的目的)。否則,將導致未定義的行為。
錯誤例子
正確例子 [C++程式]
錯誤例子
正確例子

十、你不可以在macro的定義中,不為它的參數個別加上括號。

錯誤例子
正確例子
說明:如果是用 C++, 請多多利用 inline function 來取代上述的 macro, 以免除 macro 定義的種種危險性。如: macro 定義出的「偽函式」至少缺乏下列數項函式本有的能力: (1) 無法進行參數型別的檢查。 (2) 無法遞迴呼叫。 (3) 無法用 & 加在 macro name 之前,取得函式位址。 (4) 呼叫時往往不能使用具有 side effect 的引數。例如:
錯誤例子:(感謝 yaca 網友提供)
MACRO(++x) 展開來後變成 (((++x) * (++x)) - ((++x) * (++x))) 違反了第九誡。在 gcc 4.3.3 下的結果是 -24, 在 vc++ 下是 0.

後記:從「古時候」流傳下來一篇文章
"The Ten Commandments for C Programmers" (Annotated Edition) by Henry Spence
http://www.lysator.liu.se/c/ten-commandments.html
一方面它不是針對 C 的初學者,一方面它特意模仿中古英文聖經的用語,寫得文謅謅。所以我現在另外寫了這篇,希望能涵蓋最重要的觀念以及初學甚至老手最易犯的錯誤。

原作者:潘科元(Khoguan Phuann) (c)2005. 感謝 ptt.cc BBS 的 C_and_CPP 看板眾多網友提供寶貴意見及程式實例。

2011年8月16日 星期二

常用 C Library 列表

常用的 C Library functions


  • <iostream.h>
  • 標準輸入/輸出函數
    • cin  - console in  讀取鍵盤輸入資料
    • cout - console out 螢幕輸出
    • endl - 輸出時跳行

  • <string.h>
  • 字串函數
    • strlen - string lenght  字串長度
    • strcpy - string copy    複製字串
    • strcmp - string compare 比較字串
    • strcat - string catenation 串接字串
    • strstr - string search (string) 傳回次字串在主字串首次出現位置指標
    • strchr - string search (char)   傳回字元在主字串首次出現位置指標

  • <stdlib.h>
  • 轉換數值函數
    • atof - 轉換為浮點數值
    • atoi - 轉換為整數值
    • atol - 轉換為長整數值

  • <ctype.h>
  • 字元測試與轉換函數
    • isprint  - 是否為可列印字元(ASCII碼 32~126)
    • isgraph  - 是否為可顯示字元(ASCII碼 33~126)
    • isalnum  - 是否為英文字母或數字字元(A~Z, a~z, 0~9)
    • isalpha  - 是否為英文字母(A~Z, a~z)
    • isdigit  - 是否為數字字元(0~9)
    • isxdigit - 是否為16進位數字字元(0~9, A~F)
    • islower  - 是否為小寫英文字母(a~z)
    • isupper  - 是否為大寫英文字母(A~Z)
    • isspace  - 是否為空白字元(ASCII碼 32)
    • ispunct  - 是否為標點符號字元
    • iscntrl  - 是否為控制字元
    • tolower  - 轉成小寫英文字母
    • toupper  - 轉成大寫英文字母

  • <math.h>
  • 數學函數
    • rand  - 亂數函數(0 ~ RAND_MAX)
    • srand - 指定亂數函數種子數
    • time  - 自午夜算起的秒數
    • sin   - 正弦函數(徑度)
    • cos   - 餘弦函數(徑度)
    • tan   - 正切函數(徑度)
    • exp   - 指數函數
    • log   - 對數 loge函數
    • log10 - 對數 log10函數
    • pow   - 冪次方
    • sqrt  - 平方根
    • ceil  - 小數進位
    • floor - 切除小數
    • fabs  - 絕對值