『壹』 iconv 是不是linux標准庫
linux是操作系統,不存在標准庫概念。
如果說linux所使用的C語言,它的標准庫是啥?是glibc。
iconv是 glibc 中的內容。
關於 glibc
The GNU C Library is used as the C library in the GNU systems and most systems with the Linux kernel.
參考資料:
http://en.wikipedia.org/wiki/Iconv
All recent Linux distributions contain a free implementation of iconv() as part of the GNU C Library which is the C library for current Linux systems. To use it, the GNU glibc locales need to be installed, which are provided as a separate package (usually named glibc-locale) normally installed by default.
『貳』 Linux C用iconv編碼轉換問題 ,我現在需要將big5和utf8轉換為gbk。由於是截取url上的關鍵字
%A1%D7%AA
這類亂七八糟的編碼是rfc標准,iconv是不可能認識的,必須先將rfc編碼做個轉換。
如"%AA"這三個字元對應的實際字元是"0xaa",對應字元是一個,不要想成四個啦。
『叄』 用linux c語言編寫 為一個文件裡面的內容的每一行添加一個指定的字元
1、基本思路:從第一個文本文件中用
fgets()
函數讀出一行數據,對讀出的每一行數據進行判斷,如果需要在它的適當位置插入一行,把相應的新內容、以及該行的內容寫到第二個文本文件中。如果不需要在該位置插入一行,那就直接將該行數據用
fprintf()
函數寫入第二個文本文件中。
2、偽代碼:
1.打開要修改的文件A,
2.創建一個臨時文件B,
3.
while(沒到達文件A末尾)
從A中讀取一行,寫到B中,然後寫入要追加的內容,寫入換行符
4.關閉文件A,關閉文件B,
5.刪除文件A(用remove函數),重命名B為A(用rename函數)
『肆』 linux下編碼轉換問題,C語言實現,使用iconv函數族
我覺得這是文件編碼的問題,就是說linux下的文件編碼一般情況下是utf-8的,所以就出現這個問題了。
『伍』 linux下編碼轉換問題,C語言實現,使用iconv函數族
1、iconv的含義是將一個抽象的符號的編碼進行轉換。
但是如果一個符號比如「個」,可能在BIG5的編碼中不存在(繁體字中不同)
GBK包含的是簡體字,BIG5包含的是繁體字,Unicode包含全部,
所以
GBK->Unicode,Big5-Unicode (總是OK)
Unicode->GBK (當裡面僅包含英文及簡體時OK)
Unicode->BIG5 (當裡面僅包含英文及繁體時OK)
GBK->Big5 (基本上不行,除非某些字沒有特別的簡體字)
GBK->Big5是漢字的簡繁轉換,不是編碼轉換,簡體字轉繁體字還有一個問題,一個簡體字可能是對應多個繁體字,這種很難轉換正確。繁體字轉換成簡體字相對難度低。
2、#include <iconv.h>
size_t iconv(iconv_t cd,
char **inbuf, size_t *inbytesleft,
char **outbuf, size_t *outbytesleft);
函數原型, outbuf是一個 char **類型
在函數手冊中:
The iconv() function converts one multibyte character at a time, and for each character conversion it increments *inbuf and decrements
*inbytesleft by the number of converted input bytes, it increments *outbuf and decrements *outbytesleft by the number of converted
output bytes
『陸』 Linux下常用文本處理命令
Linux下常用文本處理命令大全
Linux下面有很多經典的非常有用的命令,其中處理文本的命令就有很多。下面就讓我們一起看看這些經典的Linux文本處理命令有哪些吧。
一. sort
文件排序, 通常用在管道中當過濾器來使用. 這個命令可以依據指定的關鍵字或指定的字元位置, 對文件行進行排序. 使用-m選項, 它將會合並預排序的輸入文件. 想了解這個命令的全部參數請參考這個命令的info頁.
二. tsort
拓撲排序, 讀取以空格分隔的有序對, 並且依靠輸入模式進行排序.
三. uniq
這個過濾器將會刪除一個已排序文件中的重復行. 這個命令經常出現在sort命令的管道後邊.
四. expand, unexpand
expand命令將會把每個tab轉化為一個空格. 這個命令經常用在管道中.
unexpand命令將會把每個空格轉化為一個tab. 效果與expand命令相反.
五. cut
一個從文件中提取特定域的工具. 這個命令與awk中使用的print $N命令很相似, 但是更受限. 在腳本中使用cut命令會比使用awk命令來得容易一些. 最重要的選項就是-d(欄位定界符)和-f(域分隔符)選項.
六. paste
將多個文件, 以每個文件一列的形式合並到一個文件中, 合並後文件中的每一列就是原來的一個文件. 與cut結合使用, 經常用於創建系統log文件.
七. join
這個命令與paste命令屬於同類命令. 但是它能夠完成某些特殊的目地. 這個強力工具能夠以一種特殊的形式來合並兩個文件, 這種特殊的形式本質上就是一個關聯資料庫的簡單版本.
join命令只能夠操作兩個文件. 它可以將那些具有特定標記域(通常是一個數字標簽)的行合並起來, 並且將結果輸出到stdout. 被加入的文件應該事先根據標記域進行排序以便於能夠正確的匹配.
八. head
把文件的頭部內容列印到stdout上(默認為10行, 可以自己修改). 這個命令有一些比較有趣的選項.
九. tail
將一個文件結尾部分的內容輸出到stdout中(默認為10行). 通常用來跟蹤一個系統logfile的.修改情況, 如果使用-f選項的話, 這個命令將會繼續顯示添加到文件中的行.
十. wc
wc可以統計文件或I/O流中的”單詞數量”:
十一. fold
將輸入按照指定寬度進行折行. 這里有一個非常有用的選項-s, 這個選項可以使用空格進行斷行(譯者: 事實上只有外文才需要使用空格斷行, 中文是不需要的)(請參考例子 12-23和例子 A-1).
十二. fmt
一個簡單的文件格式器, 通常用在管道中, 將一個比較長的文本行輸出進行”折行”.
十三. col
這個命令用來濾除標准輸入的反向換行符號. 這個工具還可以將空白用等價的tab來替換. col工具最主要的應用還是從特定的文本處理工具中過濾輸出, 比如groff和tbl. (譯者: 主要用來將man頁轉化為文本.)
十四. column
列格式化工具. 通過在合適的位置插入tab, 這個過濾工具會將列類型的文本轉化為”易於列印”的表格式進行輸出.
十五. colrm
列刪除過濾器. 這個工具將會從文件中刪除指定的列(列中的字元串)並且寫到文件中, 如果指定的列不存在, 那麼就回到stdout. colrm 2 4 <filename將會刪除filename文件中每行的第2到第4列之間的所有字元. p=""> </filename將會刪除filename文件中每行的第2到第4列之間的所有字元.>
Caution: 如果這個文件包含tab和不可列印字元, 那將會引起不可預期的行為. 在這種情況下, 應該通過管道的手段使用expand和unexpand來預處理colrm.
十六. nl
計算行號過濾器. nl filename將會把filename文件的所有內容都輸出到stdout上, 但是會在每個非空行的前面加上連續的行號. 如果沒有filename參數, 那麼就操作stdin.
nl命令的輸出與cat -n非常相似, 然而, 默認情況下nl不會列出空行.
十七. pr
格式化列印過濾器. 這個命令會將文件(或stdout)分頁, 將它們分成合適的小塊以便於硬拷貝列印或者在屏幕上瀏覽. 使用這個命令的不同的參數可以完成好多任務, 比如對行和列的操作, 加入行, 設置頁邊, 計算行號, 添加頁眉, 合並文件等等. pr命令集合了許多命令的功能, 比如nl, paste, fold, column, 和expand.
pr -o 5 –width=65 fileZZZ | more 這個命令對fileZZZ進行了比較好的分頁, 並且列印到屏幕上. 文件的縮進被設置為5, 總寬度設置為65.
一個非常有用的選項-d, 強制隔行列印(與sed -G效果相同).
十八. gettext
GNU gettext包是專門用來將程序的輸出翻譯或者本地化為不同國家語言的工具集. 在最開始的時候僅僅支持C語言, 現在已經支持了相當數量的其它程序語言和腳本語言.
想要查看gettext程序如何在shell腳本中使用. 請參考info頁.
十九. msgfmt
一個產生二進制消息目錄的程序. 這個命令主要用來本地化.
二十. iconv
一個可以將文件轉化為不同編碼格式(字元集)的工具. 這個命令主要用來本地化.
二十一. recode
可以認為這個命令是上邊iconv命令的專業版本. 這個非常靈活的並可以把整個文件都轉換為不同編碼格式的工具並不是Linux標准安裝的一部分.
二十二. TeX, gs
TeX和Postscript都是文本標記語言, 用來對列印和格式化的視頻顯示進行預拷貝.
TeX是Donald Knuth精心製作的排版系統. 通常情況下, 通過編寫腳本的手段來把所有的選項和參數封裝起來一起傳到標記語言中是一件很方便的事情.
『柒』 linux下C語言iconv字元轉換問題
#include <iconv.h>
size_t iconv(iconv_t cd,
char **inbuf, size_t *inbytesleft,
char **outbuf, size_t *outbytesleft);
你看函數原型, outbuf是一個 char **類型
在函數手冊中:
The iconv() function converts one multibyte character at a time, and for each character conversion it increments *inbuf and decrements
*inbytesleft by the number of converted input bytes, it increments *outbuf and decrements *outbytesleft by the number of converted
output bytes
也就是說,當你執行過iconv以後,*outbuf所指向的內存空間位置已經被改掉了, 所以你任何時候去讀*outbuf, 都是讀不到任何iconv後的數據的(都在*outbuf這個指針前面放著呢)。
所以你應該 預先備份outbuf的數據,
比如 char k[1000]; char *outb = k; 執行完iconv(t,&inb,&inl,&outb,&outl)以後,你去讀k數組就可以了。
『捌』 linux下用iconv函數進行格式的轉換,運行時在iconv函數上總是退出程序,出錯,求解
檢查一下第四個參數。
size_t iconv (iconv_t cd,
const char* * inbuf, size_t * inbytesleft,
char* * outbuf, size_t * outbytesleft);
你是如何定義的,又是如何調用的?
參考的定義方法及調用方法:
char output[BUFSIZ], *outp = output;
iconv(cd, inbuf, &insize, &outp, &outsize);
『玖』 在Linux如何讓更改文件的字元編碼
1.在Vim中直接進行轉換文件編碼,比如將一個文件轉換成utf-8格式
:set
fileencoding=utf-8
2.
enconv
轉換文件編碼,比如要將一個GBK編碼的文件轉換成UTF-8編碼,操作如下
enconv
-L
zh_CN
-x
UTF-8
filename
3.
iconv
轉換,iconv的命令格式如下:
iconv
-f
encoding
-t
encoding
inputfile
比如將一個UTF-8
編碼的文件轉換成GBK編碼
iconv
-f
GBK
-t
UTF-8
file1
-o
file2
查看文件編碼file命令
file
ip.txt
ip.txt:
UTF-8
Unicode
text,
with
escape
sequences
一、利用iconv命令進行編碼轉換文件內容編碼轉換
iconv命令用於轉換指定文件的編碼,默認輸出到標准輸出設備,亦可指定輸出文件。
用法:
iconv
[選項...]
[文件...]
有如下選項可用:
輸入/輸出格式規范:
-f,
--from-code=名稱
原始文本編碼
-t,
--to-code=名稱
輸出編碼
信息:
-l,
--list
列舉所有已知的字元集
輸出控制:
-c
從輸出中忽略無效的字元
-o,
--output=FILE
輸出文件
-s,
--silent
關閉警告
--verbose
列印進度信息
-?,
--help
給出該系統求助列表
--usage
給出簡要的用法信息
-V,
--version
列印程序版本號
例子:
iconv
-f
utf-8
-t
gb2312
aaa.txt
>bbb.txt
這個命令讀取aaa.txt文件,從utf-8編碼轉換為gb2312編碼,其輸出定向到bbb.txt文件。