又是一篇好文,
dolphin_ygj的作品
AWR介绍与SYSAUX空间关系
2007-11-05 14:56
0、问题起源:正式库中sysaux表空间膨胀1).正式库中sysaux情况介绍:正式库中的sysaux表空间初始设置为800m,上个月占用率达到97%,警告日志中出现SYSAUX表空间不足的信息。将其扩充到1300m。前几天又出现sysaux表空间不足的信息,使用率达到93%,警告日志中出现SYSAUX表空间不足的信息。该表空间又被扩充100m,达到1400m。目前使用率是90%,剩余空间约120m。2).表空间膨胀原因通过查询表dba_segments,可看到该表空间中占用空间最多的表为:wrh$_active_session_history(约380m)及该表索引(约65m)。共计约450m。SELECT OWNER, SEGMENT_NAME, SEGMENT_TYPE, BYTES / 1024 / 1024FROM DBA_SEGMENTSWHERE TABLESPACE_NAME = 'SYSAUX';查询表wrh$_active_session_history中的数据,约1680,000条记录。select count(*) from wrh$_active_session_history;将该表中的数据按照event_id分组,查询产生数据量最多的事件的event_id和event_name。可见主要事件为cursor: pin S wait on X(约1670,000条)SELECT A.EVENT_ID, B.NAME, COUNT(*)FROM WRH$_ACTIVE_SESSION_HISTORY A, V$EVENT_NAME BWHERE A.EVENT_ID = B.EVENT_IDGROUP BY A.EVENT_ID, B.NAME;由此,基本找到了sysaux表空间膨胀的原因:数据库中产生大量的“cursor: pin S wait on X”事件。3).如何解决“cursor: pin S wait on X”事件用google搜索一下,目前还没发现解决办法。有的帖子说这是oracle这个版本的bug(http://www.itpub.net/720856.html)。但是wrh$_active_session_history表中的数据可以减小。它的产生是由于开启了awr(auto workload repository)。定期从活动的session中产生快照,并保存在磁盘上(表wrh$_active_session_history),有一定的保留期。默认情况下,oracle每个1小时产生一次快照,并将其保留7天。查询表dba_hist_wr_control可以看到:SQL> select * from dba_hist_wr_control;DBID SNAP_INTERVAL RETENTION TOPNSQL---- ------------- ----------- ----------1148 +00000 00:1 +00007 00:0 DEFAULT那么,就可以通过四种途径解决:(1)关闭快照(影响:不会产生性能分析数据)(2)减小产生快照的频率(影响:产生粗糙的性能分析数据)(3)减小快照在磁盘中的保留期限(影响:只能保存短期的性能分析数据)。(4)同时使用方法2和方法3(影响:同方法2和方法3)。4).参考资料oracle 10g 新特性中文笔记(第五章):http://mugen.itpub.net/post/76/21994oracle10g AWR[zt] http://xsb.itpub.net/post/419/30873310gR2的wrh$_分区表快速膨胀怎么办?http://xzh2000.itpub.net/post/96/210366一、WHY——为什么会出现ASH和AWR?1. 10g之前用户的连接将产生会话,当前会话记录保存在v$session中;处于等待状态的会话会被复制一份放在v$session_wait中。当该连接断开后,其原来的连接信息在v$session和v$session_wait中就会被删除。这是10g之前的状况。2. v$session_wait_history与ASH若是一个普通的会话(我是指没有大量地耗费资源),则对于性能调整来说无足轻重。但若该会话在活动时大量占用了资源(比如:CPU,内存,I/O等),该会话信息的丢失,将无法评测当时的系统瓶颈究竟是什么。令DBA高兴的是,oracle10g中保留下了v$session_wait中的这些信息。在10g中新出现了一个视图:v$session_wait_history。这个视图保存了每个活动session在v$session_wait中最近10次的等待事件。但这对于一段时期内的数据库性能状况的监测是远远不够的,为了解决这个问题,在10g中还新添加了一个视图:v$active_session_history。这就是ASH(active session history)。典型的情况下,为了诊断当前数据库的状态,需要最近的五到十分钟的详细信息。然而,由于记录session的活动信息是很费时间和空间的,ASH采用的策略是:保存处于等待状态的活动session的信息,每秒从v$session_wait中采样一次,并将采样信息保存在内存中。3. AWR注意,ASH的采样数据是保存在内存中。而分配给ASH的内存空间是有限的,当所分配空间占满后,旧的记录就会被覆盖掉;而且数据库重启后,所有的这些ASH信息都会消失。这样,对于长期检测oracle的性能是不可能的。在Oracle10g中,提供了永久保留ASH信息的方法,这就是AWR(auto workload repository)。由于全部保存ASH中的信息是非常耗费时间和空间的,AWR采用的策略是:每小时对v$active_session_history进行采样一次,并将信息保存到磁盘中,并且保留7天,7天后旧的记录才会被覆盖。这些采样信息被保存在视图wrh$_active_session_history中。而这个采样频率(1小时)和保留时间(7天)是可以根据实际情况进行调整的,这就给DBA们提供了更加有效的系统监测工具。AWR永久地保存系统的性能诊断信息,由SYS用户拥有。一段时间后,你可能想清除掉这些信息;有时候为了性能诊断,你可能需要自己定义采样频率来获取系统快照信息。Oracle 10g在包dbms_workload_repository中提供了很多过程,通过这些过程,你可以管理快照并设定基线(baselines)。4. 小结这样,我们就知道了ASH和AWR产生的原因和功能。ASH保存了系统最新的处于等待的会话记录,可以用来诊断数据库的当前状态;而AWR中的信息最长可能有1小时的延迟,所以其采样信息并不能用于诊断数据库的当前状态,但可以用来作为一段时期内数据库性能调整的参考。对于这些视图间的继承关系,eygle给出了一个关系图:图1 各个视图的层次其中视图dba_hist_active_sess_history是wrh$_active_session_history和其他几个视图的联合展现,通常通过这个视图进行历史数据的访问。二、WHAT——什么是AWR?现在我们稍微详细地了解一下刚才所说内容。1. ash占用的内存大小ASH的采集信息保存在内存中,在旧的信息被采样到AWR中后,可被新采集的信息覆盖,重启oracle后该信息被清除。分配给ASH的内存大小可以查询到:SQL> select pool, name, bytes/1024/1024 From v$sgastat where name like '%ASH %';POOL NAME BYTES/1024/1024------------- ------------- ---------------shared pool ASH buffers 22. AWR更正为了便于描述和理解,在第一部分中,我们说AWR就是保存ASH中的信息。其实,AWR记录的信息不仅是ASH,还可以收集到数据库运行的各方面统计信息和等待信息,用以诊断分析。AWR的采样方式是,以固定的时间间隔为其所有重要的统计信息和负载信息执行一次采样,并将采样信息保存在AWR中。可以这样说:ASH中的信息被保存到了AWR中的视图wrh$_active_session_history中。ASH是AWR的真子集。3. mmon进程与mmnl进程快照由一个称为 MMON 的新的后台进程(及其从进程)以及MMNL后台进程自动地每隔固定时间采样一次。我们先来看一下10g的概念指南中对这两个新增加的后台进程的介绍:* MMON进程负责执行多种和管理相关(manageability-related)的后台任务,例如: * 当某个测量值(metrics)超过了预设的限定值(threshold value)后提交警告 * 创建新的 MMON 隶属进程(MMON slave process)来进行快照(snapshot) * 捕获最近修改过的 SQL 对象的统计信息* MMNL进程负责执行轻量级的且频率较高的和可管理性相关的后台任务,例如捕获会话历史信息,测量值计算等。AWR的采样工作由MMON进程每个1小时执行一次,ASH信息同样会被采样写出到AWR负载库中。虽然ASH buffer被设计为保留1小时的信息,但很多时候这个内存是不够的,当ASH buffer写满后,另外一个后台进程MMNL将会主动将ASH信息写出。4. SYSAUX表空间这些采样数据都存储在SYSAUX表空间中,并且以WRM$_* 和 WRH$_*的格式命名。前一种类型存储元数据信息(如检查的数据库和采集的快照),后一种类型保存实际采集的统计数据。SQL> select table_name from dba_tables where table_name like 'WRM$%';TABLE_NAME-----------------------WRM$_WR_CONTROLWRM$_SNAP_ERRORWRM$_SNAPSHOTWRM$_DATABASE_INSTANCEWRM$_BASELINE当SYSAUX表空间满后,AWR将自动覆盖掉旧的信息,并在警告日志中记录一条相关信息:ORA-1688: unable to extend table SYS.WRH$_ACTIVE_SESSION_HISTORY partition WRH$_ACTIVE_3533490838_1522 by 128 in tablespace SYSAUX5. 采样频率和保留时间可以通过查询视图dba_hist_wr_control或(wrm$_wr_control)来查询AWR的采样频率和保留时间。默认为每1小时采样一次,采样信息保留时间为7天。SQL> select * from dba_hist_wr_control;DBID SNAP_INTERVAL RETENTION TOPNSQL---- ------------- ----------- ----------1148 +00000 00:1 +00007 00:0 DEFAULTSQL> select DBID, SNAP_INTERVAL, SNAPINT_NUM, RETENTION from wrm$_wr_control; DBID SNAP_INTERVAL SNAPINT_NUM RETENTION---------- ------------------ ----------- --------------------1160732652 +00000 01:00:00.0 3600 +00007 00:00:00.06. 采样数据量由于数据量巨大,把所有ASH数据写到磁盘上是不可接受的。一般是在写到磁盘的时候过滤这个数据,写出的数据占采样数据的10%,写出时通过direct-path insert完成,尽量减少日志生成,从而最小化数据库性能的影响。7. 初始化参数statistics_levelAWR的行为受到参数STATISTICS_LEVEL的影响。这个参数有三个值:* BASIC:awr统计的计算和衍生值关闭.只收集少量的数据库统计信息.* TYPICAL:默认值.只有部分的统计收集.他们代表需要的典型监控oracle数据库的行为.* ALL : 所有可能的统计都被捕捉. 并且有操作系统的一些信息.这个级别的捕捉应该在很少的情况下,比如你要更多的sql诊断信息的时候才使用.三、HOW——如何使用AWR?AWR由ORACLE自动产生,但是也可以通过DBMS_WORKLOAD_REPOSITORY包来手工创建、删除和修改。可以使用desc命令查看该包中的过程。下面只介绍几个常用的:1. 手工创建一个快照SQL> select count(*) from wrh$_active_session_history;COUNT(*)----------317SQL> begin2 dbms_workload_repository.create_snapshot();3 end;4 /PL/SQL 过程已成功完成。SQL> select count(*) from wrh$_active_session_history;COUNT(*)---------- 3202. 手工删除指定范围的快照SQL> select * from wrh$_active_session_history where snap_id = 96; SNAP_ID DBID INSTANCE_NUMBER SAMPLE_ID SAMPLE_TIME---------- ---------- --------------- ---------- ---------------------------- 96 1160732652 1 236930 06-10月-07 11.26.04.562 上午 96 1160732652 1 236930 06-10月-07 11.26.04.562 上午 96 1160732652 1 236930 06-10月-07 11.26.04.562 上午SQL> begin2 dbms_workload_repository.drop_snapshot_range(low_snap_id => 96, high_snap_id => 96, dbid => 1160732652);3 end;4 /PL/SQL 过程已成功完成。SQL> select * from wrh$_active_session_history where snap_id = 96;未选定行3. 修改采集时间和统计信息保留时间PROCEDURE MODIFY_SNAPSHOT_SETTINGS参数名称 类型 输入/输出默认值?------------------------------ ----------------------- ------ --------RETENTION NUMBER IN DEFAULTINTERVAL NUMBER IN DEFAULTTOPNSQL NUMBER IN DEFAULTDBID NUMBER IN DEFAULT通过修改retention参数可以修改awr信息的保留期限。默认的是七天,最小的值是一天。如果把retention设置为零,自动清除就关闭了.如果awr发现sysaux空间不够,它通过删除那些最老部分的快照来重新使用这些空间.同时,也会给dba发一条警告,告诉sysaux空间不够了(在警告日志中).通过修改interval参数可以修改awr信息的采样频率。最小的值是10分钟,默认的是60分钟.典型的值是10,20,30,60,120等等。把interval设为0则关闭自动捕捉快照.如将收集间隔时间改为30 分钟一次。并且保留5天时间(注:单位都是为分钟):SQL> select *from dba_hist_wr_control; DBID SNAP_INTERVAL RETENTION TOPNSQL---------- ------------------ -------------------------- -----------1160732652 +00000 01:00:00.0 +00007 00:00:00.0 DEFAULTSQL> exec dbms_workload_repository.modify_snapshot_settings(interval=>30, retention=>5*24*60);PL/SQL 过程已成功完成。SQL> SELECT *from dba_hist_wr_control; DBID SNAP_INTERVAL RETENTION TOPNSQL---------- ------------------- ------------------------- -----------1160732652 +00000 00:30:00.0 +00005 00:00:00.0 DEFAULTSQL>4. 设置基线基线(baseline)是一种机制,这样你可以在重要时间的快照信息集做标记。一个基线定义在一对快照之间,快照通过他们的快照序列号识别.每个基线有且只有一对快照。一次典型的性能调整实践从采集量度的基准线集合、作出改动、然后采集另一个基准线集合开始。可以比较这两个集合来检查所作的改动的效果。在 AWR 中,对现有的已采集的快照可以执行相同类型的比较。假定一个名称为 apply_interest 的高度资源密集的进程在下午 1:00 到 3:00 之间运行,对应快照 ID 95 到 98。我们可以为这些快照定义一个名称为 apply_interest_1 的基准线:SQL> select *From dba_hist_baseline;未选定行SQL> select * from wrm$_baseline;未选定行SQL> exec dbms_workload_repository.create_baseline(95, 98, 'apply_interest_1');PL/SQL 过程已成功完成。这一操作将快照从 95 到 98 编号,作为上面指定的基准线的一部分。查看现有的基准线:SQL> select *from dba_hist_baseline; DBID BASELINE_ID BASELINE_NAME START_SNAP_ID START_SNAP_TIME END_SNAP_ID END_SNAP_TIME---------- ----------- ------------------------- ------------- ------------------------------------- ----------- ------------1160732652 1 apply_interest_1 95 06-10月-07 11.00.05.375 上午 98 06-10月-07 01.44.58.062 下午SQL> select *from wrm$_baseline; DBID BASELINE_ID BASELINE_NAME START_SNAP_ID END_SNAP_ID---------- ----------- ---------------------------- ------------- -----------1160732652 1 apply_interest_1 95 98SQL>在一些调整步骤之后,我们可以创建另一个基准线 — 假设名称为 apply_interest_2,然后只为那些与这两条基准线相关的快照比较量度。SQL> exec dbms_workload_repository.create_baseline(92, 94, 'apply_interest_2');PL/SQL 过程已成功完成。像这样把快照分隔在仅仅几个集合中有助于研究调整对于性能量度的影响。您可以在分析之后使用 drop_baseline() 来删除基准线;快照将保留(也可级联删除)。此外,当清除例程开始删除旧的快照时,与基准线相关的快照不会被清除,从而允许进行进一步的分析。5. 删除基线如果要删除一个基准线:SQL> exec dbms_workload_repository.drop_baseline(baseline_name=>'apply_interest_1', cascade=>false);PL/SQL 过程已成功完成。SQL> select *from wrh$_active_session_history where snap_id in (95,96,97,98); SNAP_ID DBID INSTANCE_NUMBER SAMPLE_ID SAMPLE_TIME---------- ---------- --------------- ---------- ------------------------------- 95 1160732652 1 235360 06-10月-07 10.56.29.872 上午 95 1160732652 1 235230 06-10月-07 10.54.19.857 上午 95 1160732652 1 233130 06-10月-07 10.19.19.478 上午 95 1160732652 1 232830 06-10月-07 10.14.18.859 上午 95 1160732652 1 232250 06-10月-07 10.04.38.481 上午 97 1160732652 1 238600 06-10月-07 12.33.08.420 下午 97 1160732652 1 238600 06-10月-07 12.33.08.420 下午 97 1160732652 1 238600 06-10月-07 12.33.08.420 下午 97 1160732652 1 238600 06-10月-07 12.33.08.420 下午 97 1160732652 1 238600 06-10月-07 12.33.08.420 下午 97 1160732652 1 238600 06-10月-07 12.33.08.420 下午 SNAP_ID DBID INSTANCE_NUMBER SAMPLE_ID SAMPLE_TIME---------- ---------- --------------- ---------- ------------------------------- 97 1160732652 1 238420 06-10月-07 11.50.55.686 上午 97 1160732652 1 238230 06-10月-07 11.47.45.687 上午 98 1160732652 1 239140 06-10月-07 01.42.00.976 下午 98 1160732652 1 239140 06-10月-07 01.42.00.976 下午 98 1160732652 1 239140 06-10月-07 01.42.00.976 下午 98 1160732652 1 239140 06-10月-07 01.42.00.976 下午 98 1160732652 1 239140 06-10月-07 01.42.00.976 下午 98 1160732652 1 239130 06-10月-07 01.27.04.161 下午 98 1160732652 1 239130 06-10月-07 01.27.04.161 下午 98 1160732652 1 239130 06-10月-07 01.27.04.161 下午已选择21行。SQL> exec dbms_workload_repository.drop_baseline(baseline_name=>'apply_interest_2', cascade=>true);PL/SQL 过程已成功完成。SQL> select *from wrh$_active_session_history where snap_id in (92,93,94);未选定行SQL>6. 生成报表awr有个报表生成机制,可以对存储在workload资料库的统计产生汇总报表。这个分析对一段时间的统计做的。这个报表生成机制很像statspack。可以使用脚本awrrpt.sql或awrrpti.sql来查看AWR报告(非常类似statspack中的spreport.sql),这两个脚本都在目录$ORACLE_HOME/rdbms/admin中。Awrrpt.sql脚本可以显示指定快照id范围的诊断信息,报告可以保存为文本文件或HTML文件;awrrpti.sql脚本与awrrpt.sql类似,唯一的不同就是在awrrpti.sql脚本中,你可以指定数据库ID和实例ID(作为参数)。报告包括如下诊断信息:[1] Report summary[1] Wait events statistics[1] SQL statistics[1] Instance activity statistics[1] I/O statistics[1] Buffer pool statistics[1] Advisory statistics[1] Wait statistics[1] Undo statistics[1] Latch statisticsSegment statistics[1] Dictionary cache statistics[1] Library cache statistics[1] SGA statistics[1] Resource limit statistics[1] init.ora parameters通过运行$ORACLE_HOME/rdbms/admin目录中的awrrpt.sql脚本,AWR的功能可以立即通过它从采集的统计数据和量度中生成的报表得到最好的说明。这个脚本显示所有的现有AWR快照并请求两个特定的快照作为时间间隔边界。它产生两种类型的输出:文本格式(类似于Statspack报表的文本格式但来自于AWR信息库)和默认的HTML格式(拥有到部分和子部分的所有超链接),从而提供了非常用户友好的报表。运行这个脚本必须要select any dictionary权限.这个脚本提示你输入选项如怎么和在哪里生成这个报表:*首先,你需要指明你要生成html还是text格式的*要选择快照的天数:输入天数,和你最近的快照,可选的,你可以使用dba_hist_snapshot表来看你要用哪个snap_id.*开始snap_id和终止snap_id,这个快照对定义你的报表产生的时间间隔.*文件名称,报告写的用户指定的文件.现在运行该脚本以查看报表,从而对AWR的报表功能有一个直观的了解。SQL> @D:\oracle\product\10.2.0\db_1\RDBMS\ADMIN\awrrpt.sqlCurrent Instance~~~~~~~~~~~~~~~~ DB Id DB Name Inst Num Instance----------- ------------ -------- ------------1160732652 ORCL 1 orclSpecify the Report Type~~~~~~~~~~~~~~~~~~~~~~~Would you like an HTML report, or a plain text report?Enter 'html' for an HTML report, or 'text' for plain textDefaults to 'html'输入 report_type 的值:Type Specified: htmlInstances in this Workload Repository schema~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ DB Id Inst Num DB Name Instance Host------------ -------- ------------ ------------ ------------* 1160732652 1 ORCL orcl YUECHAOTIANUsing 1160732652 for database IdUsing 1 for instance numberSpecify the number of days of snapshots to choose from~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Entering the number of days (n) will result in the most recent(n) days of snapshots being listed. Pressing <return> withoutspecifying a number lists all completed snapshots.输入 num_days 的值: 4Listing the last 4 days of Completed Snapshots SnapInstance DB Name Snap Id Snap Started Level------------ ------------ --------- ------------------ -----orcl ORCL 81 04 10月 2007 07:24 1 83 05 10月 2007 13:34 1 84 05 10月 2007 16:19 1 85 05 10月 2007 17:00 1 86 05 10月 2007 18:00 1 87 05 10月 2007 19:10 1 88 05 10月 2007 20:00 1 89 05 10月 2007 21:00 1 90 05 10月 2007 22:00 1 91 05 10月 2007 23:00 1 95 06 10月 2007 11:00 1 97 06 10月 2007 13:27 1 98 06 10月 2007 13:44 1 99 06 10月 2007 14:00 1 100 06 10月 2007 14:30 1 101 06 10月 2007 15:00 1 102 06 10月 2007 15:30 1Specify the Begin and End Snapshot Ids~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~输入 begin_snap 的值: 100Begin Snapshot Id specified: 100输入 end_snap 的值: 102End Snapshot Id specified: 102Specify the Report Name~~~~~~~~~~~~~~~~~~~~~~~The default report file name is awrrpt_1_100_102.html. To use this name,press <return> to continue, otherwise enter an alternative.输入 report_name 的值:Using the report name awrrpt_1_100_102.html<HTML><HEAD><TITLE>AWR Report</TITLE>……(省略结果)End of Report</BODY></HTML>Report written to awrrpt_1_100_102.htmlSQL>将产生的HTML脚本粘贴出来,用IE打开看看:一个指定时间段的完整的数据库性能报告就展现在我们面前了。下面是部分截图:图2 AWR报告截图7. statspack和awr在过去,你可以手工的使用statspack来获得历史数据.你也可以继续在oracle10g中使用statspack,但是如果你要使用workload资料库,那你需要更改你的应用程序代码。statspack用户应该转到10g的workload 资料库。这里不支持数据从statspack移植到workload资料库.同样,也没有视图来模拟statspack.在rac环境,每个快照包含集群的所有的节点.每个节点的快照数据有相同的snap_id,但靠实例id来区分。一般地,rac中的快照是在同一时间捕捉的。你也可以使用db control来进行手工的快照。手工的快照支持系统产生的自动快照。手工的快照可以自定义在你要捕捉的系统行为的两个时间点跟自动的不一致的时候,从而拥有更大的灵活性。 |