目标文件就是源代码经过编译后的,链接之前的文件,经过链接就变成了可执行文件,它也是一种二进制文件。
目标文件的格式其实与最终的可执行文件的格式是一致的,只是没有经过符号的链接过程。
在Windows环境下,可执行文件的格式是PE(Portable Executable),在Linux环境下,可执行文件的格式叫ELF(Executable Linkable Format),这两种格式差别不大,都是源自于COFF(Common File Format)格式的。
ELF文件
下面主要介绍一下ELF文件格式。
ELF文件下又可以分为4种类型:
- 可重定位文件(Relocatable File),包含代码和数据,一般是指静态链接库文件。
- 可执行文件(Executable File)
- 共享目标文件(Shared Object File),也是一种可重定位文件,但是它可以被用于动态链接。
- 核心转储文件(Core Dump File),进程意外终止的时候,系统把进程地址空间的内容和一些其他信息存放到核心转储文件中,可以用于排除BUG。
一个目标文件/可执行文件的基本组成部分都是段(Segment/Section),段就是把一个程序的不同部分分类存放,形成不同的段,一个目标文件最基本的段包括:
- 代码段(程序段)
.text
,代码段就是存放程序的逻辑代码部分。 - 数据段
.data
,用于存放变量数据,但是这里存放的是已初始化的全局/静态变量。 - BSS(Block Started by Symbol)
.bss
,BSS段则是为未初始化的全局变量和局部的静态变量,为他们预留位置,BSS段的起源是一个历史原因,同时也可以节省目标文件占用的空间。
那么有人会问,那局部变量存放在哪呢?局部变量是存放在进程地址空间中的栈里,因为局部变量的生命周期是临时的一个函数调用期,而全局变量/静态变量的生命周期是整个程序运行期间,所以我们将全局/静态变量放在进程中单独的一个段里。
PS:段名都是以小数点.
开头的。
同时,目标文件的最开始包含一个ELF文件头(ELF Header),它用来说明整个ELF文件各种信息,包括:是否可执行,是静态链接还是动态链接,入口地址(如果是可执行文件),目标硬件,以及段表(Section Header Table)的位置(文件位置偏移)等。这里的段表是一个重要的部分,它本质是一个数组,用来描述ELF文件中各个段的信息(名字、偏移and其他信息)。
目标文件中除了有各种“段”,还有各种“表”,上面说的段表就是一个,除此之外还有重定位表(Relocation Table)、字符串表(String Table)、符号表(Symbol Table)等等。每一个表也是通过段的形式存储在目标文件中的。
每一个需要重定位的段(例如代码段、数据段),都会有一个对应的重定位表,用来描述该段中需要重定位的引用的信息。
字符串表是将程序中所用到的变量名、段名等字符串集中起来放在一个段里,通过偏移量来表示字符串的。
符号表就是用来存放代码中用到的各种符号(函数名或变量名)的信息。符号一般分为全局符号、局部符号、段名、行号等。这里的全局符号(全局变量、非static函数)不仅包括定义在本文件中的全局符号,也包括引用其他文件中定义的全局符号,局部符号则是仅本文件内部可见的符号(主要是局部变量,还有static的变量和函数)。链接过程处理的就是全局符号。
符号
符号修饰问题
一个讲的比较好的blog:https://www.cnblogs.com/wfwenchao/articles/4140388.html
在“远古时代”,编译后目标文件中的符号名与源代码中的符号名是一致的,随着软件工程的发展,就出现了一个问题:一个软件可能由多个人共同开发完成,如果他们没有对各自负责的模块中的变量、函数命名进行沟通及规范的话,很可能会造成符号重复的问题,即,不同模块中不同功能的函数名(或全局变量名)可能是一样的,或者是开发者写的函数名与所用到的库中的某一个函数撞名了,那么链接器在符号决议过程中就会冲突报错。
为了解决这个问题,现在的编译器一般会把源代码中的符号,经过一种修饰的规则修饰之后放入目标文件中,称为符号修饰(Name Decoration)或符号改编(Name Mangling),不同的C++编译器对符号的修饰规则是不一样的(例如GNU的g++和微软的Visual C++编译器)。
有了符号修饰这个机制,就能很好地实现函数重载这类机制了,因为修饰机制一般会区分开同名函数的不同参数列表。同时,命名空间也是为了解决符号冲突而引入的一种机制。
一个函数对应一个唯一的函数签名(Function Signature),函数签名包括了确定一个函数需要的所有信息,例如:函数名、参数列表、命名空间等。一个函数签名对应一个修饰后的符号名称(Decorated Name)。
由于C和C++的修饰规则并不一样,所以为了在C++程序中使用C的修饰规则,我们可以使用extern "C"
这个关键字来声明符号,例如:extern "C" double a;
,那么编译器就会对变量a使用C语言的修饰规则。
强符号or弱符号、强引用or弱引用
一个讲的比较好的blog:https://www.cnblogs.com/downey-blog/p/10470674.html
强符号和弱符号
强符号和弱符号是针对定义来说的,在C/C++语言中,已初始化的全局变量是一种强符号,未初始化的则是弱符号。在符号决议的过程中如果发现了多个同名的强符号定义,那么就会报错;如果有一个强符号定义以及一些弱符号定义,则不会报错,且强符号定义会覆盖弱符号定义;如果没有强符号定义,只有弱符号定义,那么会选择占用空间最大的那个(例如double类型比int型占用的字节大)。
我们也可以手动定义一个初始化的强符号,只需使用__attribute__((weak))
关键字,例如:__attribute__((weak)) int weak2 = 2;
,不过这样手动定义的弱符号不能和强符号共存。
弱符号的一个用处是:在库中的定义是弱符号,用户可以重新定义一个自己使用的同名强符号,使得其覆盖库中版本,使用用户自定义版本的库函数的作用。
强引用和弱引用
一般没有特殊声明的引用都是强引用,如果一个强引用在链接的符号决议过程中没有找到定义,链接器会报符号未定义的错误。而弱引用在没有找到定义时则不会报错,链接器会用0或者一个特殊的值代替。
将一个符号的引用声明为弱引用需要用到__attribute__((weakref))
这个关键字,例如:__attribute__((weakref)) foo()
,就是声明了一个名为foo的弱引用函数。当然,为了避免弱引用没有定义就使用,在使用前最好用if判断一下foo是否是0。
弱引用一个重要的作用就是,使得程序的不同功能模块更容易地裁剪和组合。