shell文件编码_怎样在Shell中把utf8编码转成中文显示

❶ linux Shell 脚本编程最佳实践

IT路边社

前言

与其它的编码规范一样，这里所讨论的不仅仅是编码格式美不美观的问题，同时也讨论一些约定及编码标准。这份文档主要侧重于我们所普遍遵循的规则，对于那些不是明确强制要求的，我们尽量避免提供意见。

编码规范对于程序员而言尤为重要，有以下几个原因：

本文档中的准则致力于最大限度达到以下原则：

尽管本文档涵盖了许多基础知识，但应注意的是，没有编码规范可以为我们回答所有问题，开发人员始终需要再编写完代码后，对上述原则做出正确的判断。

注：未明确指明的则默认为必须（Mandatory）

主要参考如下文档:

仅建议Shell用作相对简单的实用工具或者包装脚本。因此单个shell脚本内容不宜太过复杂。

在选择何时使用shell脚本时时应遵循以下原则：

可执行文件不建议有扩展名，库文件必须使用 .sh 作为扩展名，且应是不可执行的。

执行一个程序时，无需知道其编写语言，且shell脚本并不要求具有扩展名，所以更倾向可执行文件没有扩展名。

而库文件知道其编写语言十分重要，使用 .sh 作为特定语言后缀的扩展名，可以和其他语言编写的库文件加以区分。

文件名要求全部小写, 可以包含下划线 _ 或连字符 - , 建议可执行文件使用连字符，库文件使用下划线。

正例:

反例：

源文件编码格式为UTF-8。避免不同操作系统对文件换行处理的方式不同，一律使用 LF 。

每行最多不超过120个字符。每行代码最大长度限制的根本原因是过长的行会导致阅读障碍，使得缩进失效。

除了以下两种情况例外：

如出现长度必须超过120个字符的字符串，应尽量使用here document或者嵌入的换行符等合适的方法使其变短。

示例：

除了在行结束使用换行符，空格是源文件中唯一允许出现的空白字符。

对从来没有用到的或者被注释的方法、变量等要坚决从代码中清理出去，避免过多垃圾造成干扰。

Bash 是唯一被允许使用的可执行脚本shell。

可执行文件必须以 #!/bin/bash 开始。请使用 set 来设置shell的选项，使得用 bash echo "Process $: Done making $$$."
# 示例7：命令参数及路径不需要引号 grep -li Hugo /dev/ "$1"
# 示例8：常规变量用双引号，ccs可能为空的特殊情况可不用引号 git send-email --to "${reviewers}" ${ccs:+"--cc" "${ccs}"}
# 示例9：正则用单引号，$1可能为空的特殊情况可不用引号 grep -cP '([Ss]pecial||?characters*) ${1:+"$1"}
# 示例10：位置参数传递推荐带引号的"$@"，所有参数作为单字符串传递用带引号的"$*" # content of t.sh func_t { echo num: $# echo args: 1:$1 2:$2 3:$3 }
func_t "$@" func_t "$*" # 当执行 ./t.sh a b c 时输出如下： num: 3 args: 1:a 2:b 3:c num: 1 args: 1:a b c 2: 3:

使用 $(command) 而不是反引号。

因反引号如果要嵌套则要求用反斜杠转义内部的反引号。而 $(command) 形式的嵌套无需转义，且可读性更高。

正例：

反例：

条件测试

使用 [[ ... ]] ，而不是 [ , test , 和 /usr/bin/[ 。

因为在 [[ 和 ]] 之间不会出现路径扩展或单词切分，所以使用 [[ ... ]] 能够减少犯错。且 [[ ... ]] 支持正则表达式匹配，而 [ ... ] 不支持。参考以下示例：

尽可能使用变量引用，而非字符串过滤。

Bash可以很好的处理空字符串测试，请使用空/非空字符串测试方法，而不是过滤字符，让代码具有更高的可读性。正例：

反例：

正例：

反例：

正例：

反例：

文件名扩展

当进行文件名的通配符扩展时，请指定明确的路径。

当目录中有特殊文件名如以 - 开头的文件时，使用带路径的扩展通配符 ./* 比不带路径的 * 要安全很多。

应该避免使用eval。

Eval在用于分配变量时会修改输入内容，但设置变量的同时并不能检查这些变量是什么。反例：

请使用进程替换或者for循环，而不是通过管道连接while循环。

这是因为在管道之后的while循环中，命令是在一个子shell中运行的，因此对变量的修改是不能传递给父shell的。

这种管道连接while循环中的隐式子shell使得bug定位非常困难。反例：

如果你确定输入中不包含空格或者其他特殊符号（通常不是来自用户输入），则可以用for循环代替。例如：

使用进程替换可实现重定向输出，但是请将命令放入显式子 shell，而非 while 循环创建的隐式子 shell。例如：

总是检查返回值，且提供有用的返回值。

对于非管道命令，使用 $? 或直接通过 if 语句来检查以保持其简洁。

例如：

当内建命令可以完成相同的任务时，在shell内建命令和调用外部命令之间，应尽量选择内建命令。

因内建命令相比外部命令而言会产生更少的依赖，且多数情况调用内建命令比调用外部命令可以获得更好的性能（通常外部命令会产生额外的进程开销）。

正例：

反例：

加载外部库文件不建议用使用.，建议使用source，已提升可阅读性。正例：

反例：

除非必要情况，尽量使用单个命令及其参数组合来完成一项任务，而非多个命令加上管道的不必要组合。常见的不建议的用法例如：cat和grep连用过滤字符串; cat和wc连用统计行数; grep和wc连用统计行数等。

正例：

除特殊情况外，几乎所有函数都不应该使用exit直接退出脚本，而应该使用return进行返回，以便后续逻辑中可以对错误进行处理。正例：

反例：

推荐以下工具帮助我们进行代码的规范：

原文链接：http://itxx00.github.io/blog/2020/01/03/shell-standards/

获取更多的面试题、脚本等运维资料点击: 运维知识社区获取

脚本之---短信轰炸机

脚本之---QQ微信轰炸机

ansible---一键搭建redis5.0.5集群

elk7.9真集群docker部署文档

全球最全loki部署及配置文档

最强安全加固脚本2.0

一键设置iptbales脚本

❷ linux下文件编码格式转换方法（gb18030/utf-8）

linux下文件编码格式转换方法（gb18030/utf-8）

在 Linux 做开发或者系统管理遇到乱码是经常的事情，主要windows下中文的默认编码是bg2312，而 linux下是utf-8。很多时候涉及到和windows平台系统的通信免不了编码的转化，可能大部分人都用iconv库函数（包含在glib中）和iconv命令来执行编码转换，即：

iconv -f gb18030 -t utf-8 file1.txt -o file2.txt

说实话这个命令不好使，一方面容易重复转换，另一方面不支持通配符，无法成批转换，文件少了还好说，要是一大堆文件岂不是要累死？

今天我要推荐的是另一个 Shell 下编码转换工具enca。用它不仅可以转换编码，还可以查看文件的原始编码，而且还支持成批转换。使用上也比iconv方便一些。安装enca很简单，一般用源安装就行了，enca用法如下：

enca -L 当前语言文件名

enca -L zh_CN file ／／检查文件的编码

enca -L 当前语言 -x 目标编码文件名

enca -L zh_CN -x UTF-8 file ／／将文件编码转换为”UTF-8″编码

enca -L zh_CN -x UTF-8 < file1 > file2 ／／如果不想覆盖原文件可以这样

除了有检查文件编码的功能以外，”enca”还有一个好处就是如果文件本来就是你要转换的那种编码，它不会报错，还是会print出结果来，而”iconv”则会报错。这对于脚本编写是比较方便的事情。

❸ 怎样在Shell中把utf8编码转成中文显示

String str = new String("暗示大家".getBytes(),"UTF-8");重新用utf-8编码
或者用URLDecoder.decode("xxxxxx", "UTF-8");重新用utf-8解码
UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言。
【编码方式讲解】
（1）ANSI编码
不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。当然对于ANSI编码而言，0x00~0x7F之间的字符，依旧是1个字节代表1个字符。这一点是ASNI编码与Unicode编码之间最大也最明显的区别。例如上面演示的文件中英文字母和数字并没有出现乱码的情况。
（2）Unicode编码
Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布。随着计算机工作能力的增强，Unicode也在面世以来的十多年里得到普及。
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符，最多可以容纳1114112个字符，或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。
（3）UTF-8编码
UTF-8是UNICODE的一种变长字符编码又称万国码，由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如日文，韩文)。

❹ 如何更改xshell编码

基本上Xshell使用Windows系统的用户默认语言。也可按照远程主机的编码选择使用与Windows系统不同的各种编码。

如何更改会话编码:

1、从以下方法中选择其一:

点击标准按钮的[编码]后选择拟要使用的编码。

打开会话属性对话框选择[类别]的[终端]后在[编码]目录中选择适用的编码。

2、输出UTF-8 编码:

远程计算机支持Unicode(UTF-8)且设为使用UTF-8时编码应使用‘Unicode(UTF-8)’。UTF-8 编码可同时输出多个语言的字符集。如出现乱码可以参考：Xftp中UTF文件名出现乱码怎么办

* 注释

为准确显示选定的编码，应安装该Windows系统选定编码的语言包。

编码选项不会改变键盘输入值，必要时应安装Windows提供的IME (Input Method Editor)。

❺ shell脚本怎么修改编码

首先，我得知道这个文件具体采用的是什么样的编码，如果是ISO-8859我将会把它转成UTF-8，其他的ASCII这些都先不做处理，这里可以使用file filename或者是enca iconv

enca需要获取下:sudo apt-get install enca

iconv的一般用法是:（可以man iconv）

-f from code 源文件编码

-t to code 目标文件编码

-o output file 保存为文件

例子：

iconv -f GB2312 -t UTF-8 -o google.txt google.txt

将google.txt的编码由GB2312更新为UTF-8

enca也同上用法，一般在脚本中对于未曾提供的语言，enca不会报错，这样可以保证脚本顺利执行

enca -L zh_CN file 检查文件编码

enca -L zh_CN -x UTF-8 file 将文件编码修改为UTF-8并覆盖文件

具体的用法都可以去查看man手册或者google之

好了，不多说，查看脚本吧！

#!/bin/bash -x

#由于之前使用windows系统来存放过一些文本文件，利用dropbox同步过来的时候，文件发生乱码，故写脚本来批量处理

#这里是对所有的需求文件进行处理，后续可根据修改目录进行处理

SUBFIX="txt html htm conf"

#cd /home/gavin/tmp

if [ -z $1 ];then
cd $PWD
else
if [ -d $1 ];then
cd $1
else
echo " $1 is not exist;"
exit 1
fi
fi

for i in $SUBFIX;
do
files=`find . -name "*.$i"`
for f in $files;
do
type=`file $f|awk -F':' '{print $2}' |awk '{print $1}'` #获取文件类型
if [ $type = "ISO-8859" ];then
#iconv -f GB2312 -t UTF-8 -o $f $f
enca -L zh_cn -x UTF-8 $f
else
echo "$f encoding is :$type"
fi

done
done

导航:首页 > 文件教程 > shell文件编码

shell文件编码

与shell文件编码相关的资料

友情链接