查看文件编码
在Linux中查看文件编码可以通过以下几种方式:
1.在Vim中可以直接查看文件编码
:set fileencoding
即可显示文件编码格式。
如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题,那么你可以在
~/.vimrc 文件中添加以下内容:
set encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936
这样,就可以让vim自动识别文件编码(可以自动识别UTF-8或者GBK编码的文件),其实就是依照fileencodings提供的编码列表尝试,如果没有找到合适的编码,就用latin-1(ASCII)编码打开。
文件编码转换
1.在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式
:set fileencoding=utf-8
2. iconv 转换,iconv的命令格式如下:
iconv -f encoding -t encoding inputfile
比如将一个UTF-8 编码的文件转换成GBK编码
iconv -f GBK -t UTF-8 file1 -o file2
iconv -f gbk -t utf8 linux常用命令.txt > linux常用命令.txt.utf8
文件名编码转换:
从Linux 往 windows拷贝文件或者从windows往Linux拷贝文件,有时会出现中文文件名乱码的情况,出现这种问题的原因是因为,windows的文件名 中文编码默认为GBK,而Linux中默认文件名编码为UTF8,由于编码不一致,所以导致了文件名乱码的问题,解决这个问题需要对文件名进行转码。
在Linux中专门提供了一种工具convmv进行文件名编码的转换,可以将文件名从GBK转换成UTF-8编码,或者从UTF-8转换到GBK。
首先看一下你的系统上是否安装了convmv,如果没安装的话用:
yum -y install convmv
安装。
下面看一下convmv的具体用法:
convmv -f 源编码 -t 新编码 [选项] 文件名
常用参数:
-r 递归处理子文件夹
--notest 真正进行操作,请注意在默认情况下是不对文件进行真实操作的,而只是试验。
--list 显示所有支持的编码
--unescap 可以做一下转义,比如把%20变成空格
比如我们有一个utf8编码的文件名,转换成GBK编码,命令如下:
convmv -f UTF-8 -t GBK --notest utf8编码的文件名
这样转换以后"utf8编码的文件名"会被转换成GBK编码(只是文件名编码的转换,文件内容不会发生变化)
② 关于Linux下的文本文件格式转换问题。
这个获取第4列:
awk '{print $4}' a.txt
这个输出:第1列[ ]第4列[ ]第5列 - (中间是tab相隔)
awk '{printf("%s\t%s\t%s\n", $1, $4, $5)}' a.txt
cut 默认以tab键为字段分隔版符,从man page中的这句话权可以看出:
-d, --delimiter=DELIM
use DELIM instead of TAB for field delimiter
awk 则不区分tab还是空格,其 man page中有如下描述:
Fields ...... In the special case that FS is a single space, fields are separated by runs of spaces and/or tabs and/or newlines. ......
FS The input field separator, a space by default. See Fields, above.
③ 在LINUX下如何修改文件类型
d
目录文件。
l
符号链接(指向另一个文件,类似于瘟下的快捷方式)。
s
套接字文件。
b
块设备文件,二进制文件。
c
字符设备文件。
p
命名管道文件。
-
普通文件,或更准确地说,不属于以上几种类型的文件。
重点注意的是普通文件,在查看文件类型的时候使用file命令和ll命令结合来查看文件的类型
设备文件分为block
device
driver和character
device
drive两类。character
device
drive又被称为字符设备或裸设备raw
devices;
block
device
driver通常成为块设备。而block
device
driver是以固定大小长度来传送转移资料
;character
device
driver是以不定长度的字元传送资料
。且所连接的devices也有所不同,block
device大致是可以随机存取(random
access)资料的设备,如硬碟机或光碟机;而character
device刚好相反,依循先後顺序存取资料的设备,如印表机
、终端机等皆是。
1.字符设备只能以字节为最小单位访问,而块设备以块为单位访问,例如512字节,1024字节等
2.块设备可以随机访问,但是字符设备不可以
3.字符和块没有访问量大小的限制,块也可以以字节为单位来访问
the
type
printed
will
usually
contain
one
of
the
words
text
(the
file
contains
only
printing
characters
and
a
few
common
control
characters
and
is
probably
safe
to
read
on
an
ascii
terminal),
executable
(the
file
contains
the
result
of
compiling
a
program
in
a
form
understandable
to
some
unix
kernel
or
another),
data
meaning
anything
else
(data
is
usually
`binary'
or
non-printable).
any
file
that
cannot
be
identified
as
having
been
written
in
any
of
the
character
sets
listed
above
is
simply
said
to
be
``data''.