1. 浅析二进制文件与普通文件的区别
近日,在写一个遍历查找目录文件内容功能时,在使用时功能很正常,确发现了些异常。读取文件时会将一些二进制文件读取出来,搜索目标字符串。本文将详细解析如何正确使用程序区分两种文件(基于c).
文中所指的二进制文件是指可执行文件,或者图片等非文本类型文件,即Binary文件。
首先,为了文件的简单,我们手工生成两个文件,一个普通文件,一个二进制可执行文件
生成普通文件
生成可执行文件a.out
使用grep 查找hello时,两个文件输出为
grep是碰到可执行文件时会输出Binary file
文本文件是一种计算机文件,它是一种典型的顺序文件,其埋禅文件的逻辑结构又属于流式文件。(来源网络)
本文定义为:文本文件是一种顺序存储了unicode编码,或者其他编码字符的文件。因为不仅可以存英文还可以存放一些表情及换行等其他字符。
将依次遍历文档,然后与所有的可能的编码中的字符进行查找比较,如果所有字符都符合在这些编码字符列表中,则当前文档即为一个文本文档。
不过这种方法的效率堪忧,有没有一种更简单的方法呢。当然有!
当我们使用十六进制的方式打开两个文件,就会发现不同了。同时对比了一张图片的十六进制
图片
在文本文件的十六进制备液虚编码同时将 unicode符号也在文本中展示出来了。也可以从文本文件的定义可以得出,非ascii不能作为检测二进制的方法。
但是通过对比三个文件的十六进制编码会发仿燃现,可执行文件与图片中包含 了很多00,即空字符,而文本文件中是不存在的。
所以初步结论是不含有空字符的文件即为二进制文件.
但是我们总不能从文件头到尾去判断吧,所以我们查看grep与diff源码会发现一段宏
所以我们取一段数据长度判断,如果是包含了空字符就是非文本类型文件,比如取1024个字节。因为二进制文件一般会有一个文件头,而文件头的数据长度大约128个字节。取1024字节是尽可能的避免头中数据写满。
当然以上方法只针对于utf-8, asccii ,如果是utf-16或者 utf-32 在数据中也同样会产生空字符
使用grep中同样会将其识别为binary file 所以不向下做研究了。
2. 什么是二进制文件
楼上们这么回答,谁能懂啊?
二进制文件往往区别于“文本文件”“文档文件”。
我们通常把程序、视频、图片等不能直接阅读的文件理解为二进制文件。
因为有的文件内的内容可以是ASCII码的,这种文件我们往往直接可以阅读,叫文本文件。
有的文件(如程序、视频、图片、或一些电子书等等),计算机是直接用二进制的0和1记录的,我们无法直接阅读。甚至根本无法读。这种文件叫二进制文件。
3. 二进制文件与文本文件的区别
在定义和存取方式上二进制文件与文本文件存在区别。
1、定义上的区别
文本文件:文本文件是一种计算机文件,它是一种典型的顺序文件,其文件的逻辑结构又属于流式文件。简单的说,文本文件是基于字符编码的文件,常见的编码有ASCII编码,UNICODE编码等等。
二进制文件:是基于值编码的文件,你可以根据具体应用,指定某个值是什么意思(这样一个过程,可以看作是自定义编码)。用户一般不能直接读懂它们,只有通过相应的软件才能将其显示出来。二进制文件一般是可执行程序、图形、图像、声音等等。
从上面可以看出文本文件与二进制文件的区别并不是物理上的,而是逻辑上的。这两者只是在编码层次上有差异,文本文件基本上是定长编码的(也有非定长的编码如UTF-8)。而二进制文件则可看成是变长编码,因为是值编码,多少个比特代表一个值,完全由你决定。
2、存储方式上的区别
文本工具打开一个文件,首先读取文件物理上所对应的二进制比特流,然后按照所选择的解码方式来解释这个流,然后将解释结果显示出来。
一般来说,你选取的解码方式会是ASCII码形式(ASCII码的一个字符是8个比特),接下来,它8个比特8个比特地来解释这个文件流。
记事本无论打开什么文件都按既定的字符编码工作(如ASCII码),所以当他打开二进制文件时,出现乱码也是很必然的一件事情了,解码和译码不对应。
文本文件的存储与其读取基本上是个逆过程。而二进制文件的存取与文本文件的存取差不多,只是编/解码方式不同而已。
二进制文件就是把内存中的数据按其在内存中存储的形式原样输出到磁盘中存放,即存放的是数据的原形式。文本文件是把数据的终端形式的二进制数据输出到磁盘上存放,即存放的是数据的终端形式
(3)文件分为二进制文件扩展阅读
文本文件和二进制文件的优缺点:
一般认为,文本文件编码基于字符定长,译码容易些;二进制文件编码是变长的,所以它灵活,存储利用率要高些,译码难一些(不同的二进制文件格式,有不同的译码方式)。
关于空间利用率,想想看,二进制文件甚至可以用一个比特来代表一个意思(位操作),而文本文件任何一个意思至少是一个字符.
在windows下,文本文件不一定是以ASCII来存贮的,因为ASCII码只能表示128的标识,你打开一个txt文档,然后另存为,有个选项是编码,可以选择存贮格式,一般来说UTF-8编码格式兼容性要好一些.而二进制用的计算机原始语言,不存在兼容性。
存储方式的区别:
如果存储的是字符数据,无论采用文本文件还是二进制文件都是没有任何区别的。
如果存储的是非字符数据,又要看我们使用的情况来决定:
1、如果是需要频繁的保存和访问数据,那么应该采取二进制文件进行存放,这样可以节省存储空间和转换时间。
2、如果需要频繁的向终端显示数据或从终端读入数据,那么应该采用文本文件进行存放,这样可以节省转换时间。
4. 谁能举例告诉我什么是二进制文件比如doc、ppt、txt、exe、rmb,它们都是什么文件
定义
包含在 ASCII及扩展 ASCII字符中编写的数据或程序指令的文件。计算机文件基本上分为二种:二进制文件和 ASCII(也称纯文本)文件,图形文件及文字处理程序等计算机程序都属于二进制文件。这些文件含有特殊的格式及计算机代码。ASCII 则是可以用任何文字处理程序阅读的简单文本文件。
广义的二进制文件即指文件,由文件在外部设备的存放形式为二进制而得名。狭义的二进制文件即除文本文件以外的文件。
几种后缀名都是二进制文件。一般二进制文件用记事本打开是乱码,除了txt文本文件属于比较特殊的二进制文件外,其它的需要专门的软件用对应的解码格式才能正常打开阅读
doc Word 文档,属于二进制文件。
docx 改进的Word文档,可以用WinRAR打开
ppt 演示文稿
txt 文本文档
exe 应用程序,属于计算机可执行文件
rmvb 视频文件