top

常见问题

信息来源: 暂无 发布日期: 2014-10-13 浏览次数:

常见问题

如您有任何上机方面的问题,请联系:
邱仕坦  高性能计算应用负责

电话:0591-22866177-338

Email:stqiu@fzu.edu.cn

常见上机问题:(上机过程中遇到的大多数问题可以在此找到解答)

1、 申请上机、开设账号需要什么?
填写(试用)上机申请表、用户保密协议书、上机承诺书三份表格,负责人签字并加盖单位公章,邮寄至相关领域的项目经理,进行上机试用,项目评估,最终开设正式账号。

2、 如何联系到相关领域项目经理?
用户可从中心网站-----用户服务----服务团队页面了解负责各领域的项目经理联系信息。或将您的要求发送email给webmaster,由其联系相关领域人员与您联系。

3、 机器是24小时不停运转的吗?万一停电,已运行的程序怎么办?
为确保机器可以24小时正常稳定安全高效运行,SSC制定了两个措施:
(1)一整套周密详细的维护计划。计划每年3-4次停机维护。主机停机维护信息会通过SSC网站和用户邮件提前通知,以便用户做好准备。
(2)针对停电这种特例情况。主机采用双路供电,一个出现问题后,另一个会自动切换。在两路供电均无法工作的情况下,会启动UPS系统供电,但是UPS的支撑时间很短,此阶段只为SSC紧急关机做准备。因此,建议用户对所运行的程序和重要数据定期或专门备份,以免丢失。

4、 作业运行的时间有没有限制?
SSC对运行的程序没有时间限制。

5、 单作业使用的CPU数有没有限制?
作业使用的CPU数目前有三个限制:
(1)最大可用CPU数。账号申请开设时有最大可用CPU数的设定,此数值即为单作业可使用的CPU数目的最大值,或所有作业总共使用CPU总数。此限定可在账号开设后根据不同需求申请调整。
(2)队列最大可用CPU数。目前划分有多个业务队列,如fourcpus、sjobs、mainframe、grid、和一些工程计算软件队列,各队列拥有的节点数(CPU数)、调度策略、用户使用权限均有差异。目前最大的队列为fourcpus队列,拥有369个节点,1476个CPU。此值为曙光4000A目前单作业可使用最大CPU数。
(3)、工程软件队列license限制。由于不同软件具有不同的license权限,因此所有使用此软件的作业使用CPU总数不能超过相应软件的license个数。

6、 提交的作业个数有没有限制?
SSC对正常提交的作业没有个数限制,但是,如果所有作业要求的CPU总数累计超过账号最大可用的CPU数,超过部分的作业不会运行。但若发现并查明用户恶意大量提交作业,并造成危害,SSC会对其采取措施。

7、 可否远程登录,上传下载数据?
SSC主机资源支持远程登录,上传下载信息数据,及其他上机操作。但为保障用户信息安全,设定了两个限制:
(1)远程使用时间,即可以登录主机的时间段,时间段之外无法取得连接。
(2)用户IP地址限定。用户账号登录主机限定在特定的几个IP地址,除此之外,用户使用其他IP地址无法登录。

8、 如何使用telnet远程登录?
登录上机操作可通过很多方法实现。
(1)Windows系统下,“开始”,点击“运行”, 在出现的对话框内输入telnet tdawning.ssn.net.cn点击确定。或在“运行”对话框中输入cmd回车。在Windows命令行提示符中使用telnet tdawning.ssn.net.cn命令登录。在得到欢迎信息后,依次输入用户名和密码。第一次需输入用户名和防火墙密码,通过防火墙验证后,需输入用户名和账号密码;
(2)使用telnet工具。以putty为例,连接图示请参阅《曙光4000A使用指南》。telnet工具使用方法请参见各工具自身使用说明。
(3)Linux系统下,同样可以使用系统命令行、自带telnet工具、及第三方工具登录主机。

9、 如何使用ftp远程登录曙光?
远程使用ftp登录主机的方法与telnet类似,但略有不同。大致有如下几种:
(1)Windows系统,“运行”对话框内输入ftp fdawning.ssn.net.cn确定。
(2)ftp工具软件,特别推荐使用支持断点续传功能的ftp工具。如LeapFTP、FlashFXP、UltraFXP等。使用参考图示见《曙光4000A使用指南》。各工具使用方法请参见各自使用说明。
(3)Linux系统下,同样可以使用系统命令行、自带ftp工具、及第三方工具登录主机。ftp与telnet不用之处在于连接上主机出现信息后,只需输入用户名和账号密码,而无需使用防火墙密码。

10、 远程登录主机是否有IP限制?
为了保护用户账号及数据安全,尽可能降低危险,远程登录主机,需使用账号已登记过的IP地址。使用未登记过的IP地址登录主机会出现deny的提示。如确定IP地址已登记,可咨询项目经理。
另外,用户可以同时使用几个登录窗口,当打开第二个时,只会要求输入用户名和账号密码,而无需再次登录防火墙。
另外,SSC目前已推出VPN和令牌动态密码两种更安全的方式。相关咨询请联系项目经理。

11、 用户密码如何修改?
为用户信息安全考虑,建议用户将初始密码更改,并定期更换主机登录密码。目前有两种方法:
(1) 通过web方式。(2) 远程telnet登录主机后,使用yppasswd命令,根据提示进行修改。
SSC建议用户采用web方式修改用户密码,因为使用yppasswd命令修改密码后,有可能会出现某些节点用户密码不匹配的问题。

12、 程序编译要注意哪些问题?
首先,分配了三个编译节点,分别是anode002,cnode002,dnode100。编译节点上有gnu,pgi编译器,mpi库,acml,以及其他各类库函数。程序编译前,用户需通过rlogin或rsh命令登录到编译节点,然后进行编译调试。
其次,用户账号默认的编译环境在账号根目录下的.bashrc文件中指定。用户可查看并进行修改,并配置自己需要的编译环境。
如您在编译过程中遇到困难,建议您向相应项目负责寻求技术支持。
特别提醒,禁止在编译节点上直接执行程序。发现此类情况会对账号进行处罚,并保留追究相关责任的权利。

13、如何提交作业?
曙光机的作业提交需通过LSF作业管理系统。
(1)编写作业提交脚本,指定队列,CPU数,用户程序执行命令等相关信息。
(2)通过bsub命令提交作业脚本,由系统分配资源运行用户作业。
作业提交具体信息请参阅《曙光4000A使用指南》,LSF的使用说明可参考LSF软件的使用说明。
注意:作业提交必须经过LSF系统,禁止在登录节点或其他任何节点上直接运行程序,如发现并查明属实,会根据情况对账号进行暂停使用、长期封存、注销账号的处罚,并保留追求相关责任的权利。

14、 fourcpus队列有何特别之处?
fourcpus队列是曙光4000A的主要业务队列,此队列共有369个节点,1476个CPU。与其他队列,如sjobs,mainframe,及工程计算各队列,不同之处有两点:
(1)在fourcpus队列中,作业占用资源是以节点为单位,即每个节点的4个CPU由一个作业独占。目的在于可实现用户程序独享节点内的8G共享内存,减小延迟,确保用户程序运行效率更高。
(2)fourcpus队列的调度策略是严格按照排队顺序先进先出,即按提交时间依此等待所需资源,在未满足作业要求CPU数之前,系统会将资源保留,直至足够作业运行。因此,可保障大作业可尽快获得资源实现运行。

15、 已提交的作业状态为何显示“PEND”?
作业提交后,可通过bjobs命令查询账号本身提交作业的情况。PEND意为已提交系统运行的作业正在等待资源,尚未进行运算。原因有如下几类:
(1)已提交作业使用的CPU总数超过了申请使用的最大CPU数。此情况下,超过最大CPU数的作业将被PEND,等待账号中其他作业完成以使作业需要的CPU总数小于等于最大CPU数;
(2)申请使用运行程序的队列资源负荷超过队列最大提供CPU数,没有足够的CPU供新作业使用,在其他作业运行结束后会根据队列策略对该队列所有PEND作业进行统一调度。(3)用户在作业脚本中指定NP_PER_NODE=n(n=1,2,3,4)。这种情况下,虽然账号作业CPU的总数未超过最大可用数,队列也有满足作业需要的资源,但没有足够多符合指定要求的节点,作业同样会被PEND。因此建议:如果作业对单节点占用CPU数没有特殊要求,可在作业提交脚本中删除NP_PERNODE=n行。这样,只要不是(1)、(2)两个原因,作业可很快运行。此情况不适合队列fourcpus,因为该队列只能提交满足NP_PER_NODE=4的作业。
(4)用户在作业脚本中指定使用节点的名称。由于用户指定节点,导致LSF在有空闲节点时也无法运行该作业。通过这种方法提交作业的成功概率也很小,因为用户指定的这些节点只要有一个被使用,该作业就始终处于PEND状态。因此,建议不要使用指定节点的作业提交方式。
以上任何一种原因均会导致提交的作业处于PEND状态。

16、 远程telnet、ftp连接不通或不畅是什么原因?
用户可以采取以下办法简单测试,定位瓶颈:
(1)Windows系统,开始->运行,输入“command”出现命令行提示符窗口,使用命令ping IP地址或主机名,判断网络响应时间以及本机是否与目标主机联通。然后使用tracert ip地址或主机名,查看本机与目标主机间详细的传输路径信息。
(2)Unix/Linux系统,在命令行直接使用ping和traceroute IP地址或主机名,查看本机与目标主机间网络连接状态。
由于中心和用户均通过相同或不同的ISP接入公网,当中传输路径非常复杂,因此任何一个环节都可能造成连接不通或不畅。可联系项目经理协助,由其协同专业技术人员分析解决。

17、 远程telnet登录自动中断如何解决?
使用telnet远程登录,经常会遇到如果不操作一段时间,就会自动中断的情形。出现这种情形,一般是telnet服务器端的设置或者用户网络出口的设置导致。
(1)Windows系统下,可以修改telnet工具的链接设置。以putty为例,选中Connection设置中的"Seconds between keepalives" 选项,并设置成非零值。
(2)Linux系统下,可编写一个expect脚本实现自动登录并防止自动中断。
假定脚本名为mytelnet,脚本内容如下:
#!/usr/bin/expect
#Comment: ---SSC TW
if { $argc < 1 } {
puts stderr "Error !!! \nUsage: mytelnet nodename .... "
exit
}

log_user 0
set node [lindex $argv 0]
set pass "your_password"

spawn /usr/bin/rlogin $node
expect "Passw"
send "$pass\r"
interact {
timeout 5 { send "" }
}

将mytelnet变为可执行权限,然后,可以执行mytelnet tdawning.ssc.net.cn之类的命令登录主机。
其中set pass "your_password" 中的your_password用帐号密码代替
timeout 5 { send "" }表示每隔5秒发送一个空字符

18、 作业运行完毕或者中断,系统输出或出错信息文件在哪?
LSF会对已运行的作业根据其jobid产生一系列相关文件。作业运行完毕或中断,则会在作业提交时bsub命令执行的目录下生成名为output.jobid的文件。其中包含作业的标准输出和出错信息。若用户自己无法判断出错原因,请联系项目经理获得技术支持。您需要注意的是保留相关文件及各种信息,以便对问题进行分析。

19、 GM port是什么?
GM是Myrinet的一个低端通讯层,port即进程通过GM直接与Myrinet网卡进行通信的通道。一个进程需占用一个port,因此port数限制了同时使用Myrinet网卡的进程数。因此,如果GM port被占或堵住,进程将无法执行。详细信息参见http://www.myri.com/cgi-bin/fom?_highlightWords=gm%20port&file=104

20、 几种出错信息的含义,如何处理?
若出错信息中包含:
(1)Error:Unable to open a GM port!
(2)FETAL ERROR 18 on MPI node 62(ganode110):MPI node 58((null))is unreachable via Myrinet:check the host,cables or mapping
Small/Ctrl message completion error!
上述信息属于与myrinet网络相关的系统出错信息。在使用Myrinet的很多机群系统中都会碰到此类问题。如果您在使用中遇到,请保留output.jobid文件,并及时联系项目经理,我们会尽快解决。

21、 使用ftp传输时需要注意哪些事项?
ftp是实现用户与主机数据交换及传输的重要工具,因此SSC有如下几点建议:
(1)建议用户使用支持断点续传功能的ftp工具。
(2)注意传输文件格式。使用ftp工具可选择“自动选择”选项。使用命令行ftp命令则需注意使用bin或asc进行格式切换。
(3)建议用户在进行数据或文件传输前,先将数据或文件打包压缩。此方法可极大降低下载时间。例,假设下载的目录或文件名为myfile,可使用命令tar –zcvf myfile.tar.gz myfile进行打包压缩。

22、 如何使用shell直接运行程序?
mainframe、sjobs业务等队列不支持shell提交作业,所有作业通过lsf作业管理系统按策略调度。用户如果有特殊需要要求使用shell提交作业,请申请debug队列的使用权限。但需注意debug只有很少的节点,只够进行程序调试和试运算。

23、 如何查看用户最大使用CPU数,及已提交作业申请的CPU总数?
用户可在登录主机后使用busers命令查看关于账号的信息。其中MAX即为用户最大使用CPU数,NJOBS为已提交作业申请的CPU总数。若NJOBS大于MAX值,则超过的作业会处于PEND状态。详见问题已提交的作业状态显示“PEND”的原因
其他如PEND,RUN,SSUSP分别表示有多少申请的CPU处于等待,运行,和被抢占的状态。RSV即为LSF调度系统为您保留的资源数,此项值只有提交fourcpus队列的作业才会出现。

24、 作业状态为何由“RUN”变为“SSUSP” ?
用户作业状态显示SSUSP表示作业运行被暂时中断,但不一定能恢复运行。原因可通过命令bjobs –l jobid查看。
常见原因:作业使用的CPU资源被高优先级用户的作业抢占。鉴于商业软件的成本较高,系统对商业软件用户设定了较高的优先级,在LSF作业调度系统统一调度下,这类用户的作业在限定的队列中有一定优先权。商业软件一般在特定节点有license权限,这些节点在空闲时允许一般用户使用,但当有商业软件用户需求时即被抢占使用。目前SSUSP的情况只会在mainframe队列的作业中发生。
用户作业状态查看可参阅问题查看用户最大使用CPU数,及已提交作业申请的CPU总数

25、 主机上是否可以编译提交OpenMP程序?
首先,主机配置的PGI编译器支持OpenMP,无论C/C++还是Fortran,均需通过-mp选项提供对OpenMP语句的支持。
其次,由于OpenMP作业提交比较特殊,用户自行提交可能会导致程序效率差、节点故障等原因,因此用户可联系项目经理协助解决。

26、 如何申请使用IPv6?
IPv6现已开通使用。具体申请使用请联系项目负责。

27、 为何无法登录主机?
可能原因如下:
(1)网络故障。测试网络是否连通。可参阅问题远程telnet、ftp连接不通或不畅;
(2)IP地址未登记,不在开放权限范围内;
(3)主机服务器故障。此种情况,请联系项目经理

28、 登录主机后,用户账号下操作响应较慢或无响应是什么造成的?
可能的原因如下:
(1) 外部网络速度慢导致操作响应慢
(2) 账号所在存储节点访问量较大。由于每个存储节点上都有多个用户账号存在,因此如果位于该存储节点的用户自身或其他用户正在执行IO操作频繁的程序,或大量下载数据导致磁盘读写频繁,则会导致该存储节点的用户操作响应慢
(3) 操作命令本身需要一定时间执行完毕。如du、more、cat较大文件等

29、 ftp下载速度慢的原因是什么?
目前发现可能导致ftp下载速度慢的原因有两个:
(1) 用户账号所在存储节点访问量大,受限于存储磁盘IO的瓶颈,导致速度较慢。具体表现同“用户账号操作响应慢”
(2) 外部网络速度慢导致。SSC与用户通过相同或不同ISP(如教育网、科技网、电信、网通等)接入公网,其中数据传输路径非常复杂,因此任何一个路由都可能导致速度变慢,尤其是不同ISP之间。
用户遇此问题,可向项目经理反应,由其协同专业技术人员分析提供解决方案。

30、 编译程序时,发现曙光系统相应的编译器版本较低,无法满足程序要求,怎么办?
主机作为拥有上百用户同时使用的业务机器,需要保证机器的稳定性、可用性、延续性。因此要满足对大多数用户的可用性。目前可采取的处理方法:
(1)SSC对编译器及其他环境的设置和更新有计划和周期,在此之前无法满足个别用户的特殊要求;
(2)用户在其账号中自行安装配置所需的编译器和其他环境。遇此情况,请联系项目经理获得技术支持。

31、 如何参加用户培训,获得培训资料?
SSC开始用户培训服务。采取定期和不定期的方式,对用户开设各类培训课程。

 

foot