转自:[https://www.jianshu.com/p/cd8c5b988e52](https://www.jianshu.com/p/cd8c5b988e52) # 根目录介绍 ``` data ├── base # use to store database file(SELECT oid, datname FROM pg_database;) ├── global # under global, all the filenode is hard-code(select oid,relname,relfilenode from pg_class where relfilenode=0 order by oid;) ├── pg_clog # dir of transaction commit log │ └── 0000 ├── pg_commit_ts ├── pg_dynshmem ├── pg_hba.conf # client authentication config file ├── pg_ident.conf # user ident map file ├── pg_logical │ ├── mappings │ └── snapshots ├── pg_multixact │ ├── members │ │ └── 0000 │ └── offsets │ └── 0000 ├── pg_notify │ └── 0000 ├── pg_replslot ├── pg_serial ├── pg_snapshots # dir of snapshot file ├── pg_stat ├── pg_stat_tmp # dir of tmp stat file │ ├── db_0.stat │ ├── db_12407.stat │ ├── db_16384.stat │ └── global.stat ├── pg_subtrans │ └── 0000 ├── pg_tblspc ├── pg_twophase ├── PG_VERSION # version file ├── pg_xlog # dir of xlog file │ ├── 000000010000000000000001 │ └── archive_status # status info of xlog archive ├── postgresql.auto.conf ├── postgresql.conf # config file of postmaster progress ├── postmaster.opts └── postmaster.pid # pid file of postmaster progress ``` # global目录介绍 global名如其意,存放的文件用于存储全局的系统表信息和全局控制信息。 global下有四种文件: 1. pg\_control:用于存储全局控制信息 2. pg\_filenode.map:用于将当前目录下系统表的OID与具体文件名进行硬编码映射(每个用户创建的数据库目录下也有同名文件)。 3. pg\_internal.init:用于缓存系统表,加快系统表读取速度(每个用户创建的数据库目录下也有同名文件)。 4. 全局系统表文件:数字命名的文件,用于存储系统表的内容。它们在pg_class里的relfilenode都为0,是靠pg\_filenode.map将OID与文件硬编码映射。(注:不是所有的系统表的relfilenode都为0) ``` data ├── global # under global, all the filenode is hard-code(select oid,relname,relfilenode from pg_class where relfilenode=0 order by oid;) │ ├── 1136 # pg_pltemplate │ ├── 1137 # pg_pltemplate_name_index │ ├── 1213 # pg_tablespace │ ├── 1214 # pg_shdepend │ ├── 1232 # pg_shdepend_depender_index │ ├── 1233 # pg_shdepend_reference_index │ ├── 1260 # pg_authid │ ├── 1261 # pg_auth_members │ ├── 1262 # pg_database │ ├── 2396 # pg_shdescription │ ├── 2397 # pg_shdescription_o_c_index │ ├── 2671 # pg_database_datname_index │ ├── 2672 # pg_database_oid_index │ ├── 2676 # pg_authid_rolname_index │ ├── 2677 # pg_authid_oid_index │ ├── 2694 # pg_auth_members_role_member_index │ ├── 2695 # pg_auth_members_member_role_index │ ├── 2697 # pg_tablespace_oid_index │ ├── 2698 # pg_tablespace_spcname_index │ ├── 2846 # pg_toast_2396 │ ├── 2847 # pg_toast_2396_index │ ├── 2964 # pg_db_role_setting │ ├── 2965 # pg_db_role_setting_databaseid_rol_index │ ├── 2966 # pg_toast_2964 │ ├── 2967 # pg_toast_2964_index │ ├── 3592 # pg_shseclabel │ ├── 3593 # pg_shseclabel_object_index │ ├── 4060 # pg_toast_3592x │ ├── 4061 # pg_toast_3592_index │ ├── 6000 # pg_replication_origin │ ├── 6001 # pg_replication_origin_roiident_index │ ├── 6002 # pg_replication_origin_roname_index │ ├── pg_control # global control file, use pgcheck -pc to see it. │ ├── pg_filenode.map # system table (oid -> filenode) mapping file, use pgcheck -pm to see it. │ └── pg_internal.init # system table cache file, use pgcheck -pr to see it. ``` # base目录介绍 base目录用于存放数据库的所有实体文件。例如,我们创建的第一个库testdb的OID为16384,那么在data/base下就会产生一个名为16384的目录,用于存储testdb的数据文件。 ``` testdb=# select oid,datname from pg_database; oid | datname -------+----------- 12407 | postgres 16384 | testdb 1 | template1 12406 | template0 (4 rows) ``` base目录结构 ``` data ├── base # use to store database file(SELECT oid, datname FROM pg_database;) │ ├── 1 # template database │ ├── 12406 # template0 database │ ├── 12407 # postgres database │ └── 16384 # testdb, first user database │ │ ├── 3600 │ │ ├── 3600_fsm │ │ ├── 3600_vm │ │ ├── 16385 │ │ ├── pg_filenode.map │ │ ├── pg_internal.init │ │ └── PG_VERSION ``` 1. pg\_filenode.map 是pg_class里relfilenode为0的系统表,OID与文件的硬编码映射。 2. pg\_internal.init 是系统表的cache文件,用于加快读取。默认不存在,查询系统表后自动产生。 3. PG\_VERSION 是当前数据库数据格式对应的版本号 4. 其它文件是需要到pg\_class里根据OID查到对应的relfilenode来与文件名匹配的。例如:tab1的relfilenode是16385,那么16385这个文件就是tab1的数据文件 ``` testdb=# select oid,relfilenode,relname from pg_class where relname='tab1'; oid | relfilenode | relname -------+-------------+--------- 16385 | 16385 | tab1 (1 row) ``` 1. 空闲空间映射表 名字以\_fsm结尾的文件是数据文件对应的FSM(free space map)文件,用map方式来标识哪些block是空闲的。用一个Byte而不是bit来标识一个block。对于一个有N个字节的block,它在_fsm文件中第blknum个字节中记录的值是(31+N)/32。通过这种方式标识一个block空闲字节数。FSM中不是简单的数组,而是一个三层的树形结构。FSM文件是在需要用到它时才自动产生的。 2. 可见性映射表文件 名字以\_vm结尾的文件是数据文件对应的VM(visibility map)。PostgreSQL中在做多版本并发控制时是通过在元组头上标识“已无效”来实现删除或更新的,最后通过VACUUM功能来清理无效数据回收空闲空间。在做VACUUM时就使用VM开快速查找包含无效元组的block。VM仅是个简单的bitmap,一个bit对应一个block。 **注:**系统表分为全局系统表和库级系统表。 全局系统表位于global下,例如:pg_database,pg_tablespace,pg_auth_members这种存储系统级对象的表。 库级系统表位于数据库目录下,例如:pg_type,pg_proc,pg_attribute这种存储库级对象的表。 值得注意的是pg_class位于库级目录的里,但也包含全局系统表信息,因此研发或运维人员在改动全局系统表信息时需要注意。 # 表空间目录介绍 ``` testdb=# select oid,* from pg_tablespace; oid | spcname | spcowner | spcacl | spcoptions -------+------------+----------+--------+------------ 1663 | pg_default | 10 | | 1664 | pg_global | 10 | | 49162 | dbspace | 10 | | (3 rows) ``` 每一个Oid都在data/pg\_tblspc下对应一个名为Oid的软链接文件,指向真正的space目录。 ``` tree ../data/pg_tblspc/ ../data/pg_tblspc/ └── 49162 -> /home/postgres/postgresql-9.6.6/postgres/data/dbspace ``` 在space目录是如何组织的呢? ``` testdb=# create table tab3(a int) tablespace dbspace; CREATE TABLE testdb=# select oid,relname,relfilenode from pg_class where relname='tab3'; oid | relname | relfilenode -------+---------+------------- 57351 | tab3 | 57351 (1 row) tree ../data/pg_tblspc/49162 ../data/pg_tblspc/49162 └── PG_9.6_201608131 └── 16384 └── 57351 ```