EarlyDataStudy/scripts/runregparse.py

#!/usr/bin/env python

# LM: version date: 01/02/2010 --> fixed dataset search and added json output file (optional)
# LM: updated 03/04/2010 --> adapted to new runreg api (and dcs status info)

# include XML-RPC client library
# RR API uses XML-RPC webservices interface for data access
import xmlrpclib,sys,ConfigParser,os,string,commands,time,re
# for json support
try: # FUTURE: Python 2.6, prior to 2.6 requires simplejson
    import json
except:
    try:
        import simplejson as json
    except:
        print "Please set a crab environment in order to get the proper JSON lib"
        sys.exit(1)

global QF_Req,ls_temp_data,QF_ALL_SYS,EXCEPTION,EXRUN
EXCEPTION=False
EXRUN=-1

def invert_intervals(intervals,min_val=1,max_val=9999):
    # first order and merge in case 
    if not intervals:
        return []
    intervals=merge_intervals(intervals)
    intervals = sorted(intervals, key = lambda x: x[0])
    result = []
    if min_val==-1:
        # defin min and max
        (a,b)=intervals[0]
        min_val=a
    if max_val==-1:
        (a,b)=intervals[len(intervals)-1]
        max_val=b

    curr_min=min_val
    for (x,y) in intervals:
        if x>curr_min:
            result.append((curr_min,x-1))
        curr_min=y+1
    if curr_min<max_val:
        result.append((curr_min,max_val))

#    print min_val,max_val
    return result

def merge_intervals(intervals):
    if not intervals:
        return []
    intervals = sorted(intervals, key = lambda x: x[0])
    result = []
    (a, b) = intervals[0]
    for (x, y) in intervals[1:]:
        if x <= b:
            b = max(b, y)
        else:
            result.append((a, b))
            (a, b) = (x, y)
    result.append((a, b))
    return result

def remove_html_tags(data):
    p = re.compile(r'<.*?>')
    newdata=p.sub('', data)
    newdata=newdata.replace("&nbsp;","")
    return newdata

def remove_extra_spaces(data):
    result= re.sub(r'\s', '', data)
    return result

def searchrun(runno):
    global QF_Req,ls_temp_data,QF_ALL_SYS,EXCEPTION,EXRUN
    intervallist=[]
    selectls=""

    for line in ls_temp_data.split("\n"):
        if runno in line:
#            print line
            try:
                if "%%%BAD LS INFO BEGIN%%%" in line:
                    selectls=line.split("%%%BAD LS INFO BEGIN%%%")[1]
                    selectls=selectls.split("%%%BAD LS INFO END%%%")[0]
                    selectls=remove_html_tags(selectls)
                    selectls=remove_extra_spaces(selectls)
                    # print selectls
                    for tag in QF_ALL_SYS:
                        selectls=selectls.replace(tag+":","\n"+tag+":")
                    # print selectls
                    
                    for line in selectls.split("\n"):
                        try:
                            tag=line.split(":")[0]
                            intervals=line.split(":")[1]
                        except:
                            continue
                        if tag in QF_Req.keys():
                            if QF_Req[tag]=="GOOD":
                                for interval in intervals.split(","):
                                    if "ALL" in interval:
                                        lmin=1
                                        lmax=9999
                                    else:
                                        strmin=interval.split('-')[0]
                                        strmax=interval.split('-')[1]
                                        lmin=int(strmin)
                                        if "END" in strmax: 
                                            lmax=9999
                                        else:
                                            lmax=int(strmax)
                                    intervallist.append((lmin,lmax))
            except:
                EXCEPTION=True
                EXRUN=int(runno)
    intervallist=merge_intervals(intervallist)
    # print runno, intervallist
    return intervallist


#main starts here#

QF_Req={}
GOODRUN={}
compactList = {} 

QF_ALL_SYS=["Hcal","Track","Strip","Egam","Es","Dt","Csc","Pix","Muon","Rpc","Castor","Jmet","Ecal","L1t","Hlt","NONE"]
QF_ALL_STAT=["GOOD","BAD","EXCL","NONE"]
DCS_ALL=['Bpix','Fpix','Tibtid','TecM','TecP','Tob','Ebminus','Ebplus','EeMinus','EePlus','EsMinus','EsPlus','HbheA','HbheB','HbheC','H0','Hf','Dtminus','Dtplus','Dt0','CscMinus','CscPlus','Rpc','Castor',"NONE"]

# reading config file
CONFIGFILE='runreg.cfg'
CONFIG = ConfigParser.ConfigParser()
print 'Reading configuration file from ',CONFIGFILE
CONFIG.read(CONFIGFILE)

DATASET=CONFIG.get('Common','Dataset')
GROUP=CONFIG.get('Common','Group')
ADDRESS=CONFIG.get('Common','RunReg')
RUNMIN=CONFIG.get('Common','Runmin')
RUNMAX=CONFIG.get('Common','Runmax')
QFLAGS=CONFIG.get('Common','QFLAGS')
LSPARSE=CONFIG.get('Common','LSCOMMENT')
DCSSTAT=CONFIG.get('Common','DCS')
DCSLIST=string.split(DCSSTAT,',')

LSCOMMENT=True
if "TRUE" in LSPARSE.upper() or "1" in LSPARSE.upper() or "YES" in LSPARSE.upper():
    LSCOMMENT=True
elif "FALSE" in LSPARSE.upper() or "0" in LSPARSE.upper() or "NO" in LSPARSE.upper():
    LSCOMMENT=False
else:
    print "Error in parsing LSCOMMENT cfg parameter: LSPARSE"
    sys.exit(1)

QFlist=string.split(QFLAGS,',')
for QF in QFlist:
    syst=string.split(QF,":")[0]
    value=string.split(QF,":")[1]
    if syst not in QF_ALL_SYS or value not in QF_ALL_STAT:
        print "QFLAG not valid:",syst,value 
        sys.exit(1)
    QF_Req[syst]=value

for dcs in DCSLIST:
    if dcs not in DCS_ALL:
        print "DCS not valid:",dcs
        sys.exit(1)


CFGLIST=CONFIG.items('Common')
JSONFILE=CONFIG.get('Common','JSONFILE')

# report the request

print "You asked for the runreg info in the run range:"+RUNMIN+"-"+RUNMAX
print "for dataset: "+DATASET
print "with the following quality flags:"
for SS in QF_Req.keys():
    print SS, QF_Req[SS]
print "and with the following DCS status:"
for dcs in DCSLIST:
    print dcs
print "Manual bad LS in comment column:",LSCOMMENT
#sys.exit(1)
 
# get handler to RR XML-RPC server
FULLADDRESS=ADDRESS+"/xmlrpc"
print "RunRegistry from: ",FULLADDRESS
server = xmlrpclib.ServerProxy(FULLADDRESS)

# build up selection in RUN table
sel_runtable="{groupName} ='"+GROUP+"' and {runNumber} >= "+RUNMIN+" and {runNumber} <= "+RUNMAX+" and {datasetName} LIKE '"+DATASET+"'"

# the lumisection selection is on the Express dataset:
sel_dstable="{groupName} ='"+GROUP+"' and {runNumber} >= "+RUNMIN+" and {runNumber} <= "+RUNMAX+" and {datasetName} LIKE '%Express%'"

for key in QF_Req.keys():
    if key != "NONE" and QF_Req[key]!="NONE":
        sel_runtable+=" and {cmp"+key+"} = '"+QF_Req[key]+"'"
        sel_dstable+=" and {cmp"+key+"} = '"+QF_Req[key]+"'"
#print sel_runtable

# build up selection in RUNLUMISECTION table
sel_dcstable="{groupName} ='"+GROUP+"' and {runNumber} >= "+RUNMIN+" and {runNumber} <= "+RUNMAX
for dcs in DCSLIST:
    if dcs !="NONE":
        sel_dcstable+=" and {parDcs"+dcs+"} = 1"
# = 'True'"
# print sel_dcstable

Tries=0
print " " 
while Tries<10:
    try:
        print "Accessing run registry...."
        dcs_data = server.DataExporter.export('RUNLUMISECTION', 'GLOBAL', 'json', sel_dcstable)
        run_data = server.DataExporter.export('RUN', 'GLOBAL', 'csv_runs', sel_runtable)
        ls_temp_data = server.DataExporter.export('RUN', 'GLOBAL', 'csv_datasets', sel_dstable)
        break
    except:
        print "Something wrong in accessing runregistry, retrying in 3s...."
        Tries=Tries+1
        time.sleep(3)
if Tries==10:
    print "Run registry unaccessible.....exiting now"
    sys.exit(1)
    
#print dcs_data
#print run_data
#print ls_temp_data
# find LS info in comment


LISTOFRUN=[]
for line in run_data.split("\n"):
    run=line.split(',')[0]
    if run.isdigit():
        LISTOFRUN.append(run)


selected_dcs={}
jsonlist=json.loads(dcs_data)


for element in jsonlist:
    if element in LISTOFRUN:
# first search manual ls certification
        if LSCOMMENT:
            # using LS intervals in comment
            manualbad_int=searchrun(element)
        # make a badlumi list
            dcsbad_int=invert_intervals(jsonlist[element])
            combined=[]
            for interval in  manualbad_int:
                combined.append(interval)
            for interval in  dcsbad_int:
                combined.append(interval)
            combined=merge_intervals(combined)
            combined=invert_intervals(combined)
            selected_dcs[element]=combined
        else:
            # using only DCS info
            selected_dcs[element]=jsonlist[element]
        # combined include bith manual LS and DCS LS

#JSONOUT=json.dumps(selected_dcs)
# WARNING: Don't use selected_dcs before dumping into file, it gets screwed up (don't know why!!)
if JSONFILE != "NONE":
    lumiSummary = open(JSONFILE, 'w')
    json.dump(selected_dcs, lumiSummary)
    lumiSummary.close() 
    print " "
    print "-------------------------------------------"
    print "Json file: ",JSONFILE," written."


# buildup cms snippet
selectlumi="process.source.lumisToProcess = cms.untracked.VLuminosityBlockRange(\n"
ranges = []
runs_to_print = selected_dcs.keys()
runs_to_print.sort()
for run in runs_to_print:
   blocks = selected_dcs[run]
   blocks.sort()
   prevblock = [-2,-2]
   for lsrange in blocks:
       if lsrange[0] == prevblock[1]+1:
           print "Run: ",run,"- This lumi starts at ", lsrange[0], " previous ended at ", prevblock[1]+1, " so I should merge"
           prevblock[1] = lsrange[1]
           ranges[-1] = "\t'%s:%d-%s:%d',\n" % (run, prevblock[0],
run, prevblock[1])
       else:
           ranges.append("\t'%s:%d-%s:%d',\n" % (run, lsrange[0],
run, lsrange[1]))
           prevblock = lsrange
selectlumi += "".join(ranges)
selectlumi += ")"


print "-------------------------------------------"
print " "
print "CFG snippet to select:"
print selectlumi

if EXCEPTION:
    print "WARNING: Something wrong in manual lumisection selection tag for run: "+str(EXRUN)
Revision:	1.1
Committed:	Thu May 6 15:14:20 2010 UTC (14 years, 11 months ago) by mangano
Content type:	text/x-python
Branch:	MAIN
CVS Tags:	V00-02-00, V00-01-03, V00-01-02, V00-01-01, V00-01-00, V00-00-01, V00-00-00, HEAD
Log Message:	first commit
#	User	Rev	Content
1	mangano	1.1	#!/usr/bin/env python
2
3			# LM: version date: 01/02/2010 --> fixed dataset search and added json output file (optional)
4			# LM: updated 03/04/2010 --> adapted to new runreg api (and dcs status info)
5
6			# include XML-RPC client library
7			# RR API uses XML-RPC webservices interface for data access
8			import xmlrpclib,sys,ConfigParser,os,string,commands,time,re
9			# for json support
10			try: # FUTURE: Python 2.6, prior to 2.6 requires simplejson
11			import json
12			except:
13			try:
14			import simplejson as json
15			except:
16			print "Please set a crab environment in order to get the proper JSON lib"
17			sys.exit(1)
18
19			global QF_Req,ls_temp_data,QF_ALL_SYS,EXCEPTION,EXRUN
20			EXCEPTION=False
21			EXRUN=-1
22
23			def invert_intervals(intervals,min_val=1,max_val=9999):
24			# first order and merge in case
25			if not intervals:
26			return []
27			intervals=merge_intervals(intervals)
28			intervals = sorted(intervals, key = lambda x: x[0])
29			result = []
30			if min_val==-1:
31			# defin min and max
32			(a,b)=intervals[0]
33			min_val=a
34			if max_val==-1:
35			(a,b)=intervals[len(intervals)-1]
36			max_val=b
37
38			curr_min=min_val
39			for (x,y) in intervals:
40			if x>curr_min:
41			result.append((curr_min,x-1))
42			curr_min=y+1
43			if curr_min<max_val:
44			result.append((curr_min,max_val))
45
46			# print min_val,max_val
47			return result
48
49			def merge_intervals(intervals):
50			if not intervals:
51			return []
52			intervals = sorted(intervals, key = lambda x: x[0])
53			result = []
54			(a, b) = intervals[0]
55			for (x, y) in intervals[1:]:
56			if x <= b:
57			b = max(b, y)
58			else:
59			result.append((a, b))
60			(a, b) = (x, y)
61			result.append((a, b))
62			return result
63
64			def remove_html_tags(data):
65			p = re.compile(r'<.*?>')
66			newdata=p.sub('', data)
67			newdata=newdata.replace(" ","")
68			return newdata
69
70			def remove_extra_spaces(data):
71			result= re.sub(r'\s', '', data)
72			return result
73
74			def searchrun(runno):
75			global QF_Req,ls_temp_data,QF_ALL_SYS,EXCEPTION,EXRUN
76			intervallist=[]
77			selectls=""
78
79			for line in ls_temp_data.split("\n"):
80			if runno in line:
81			# print line
82			try:
83			if "%%%BAD LS INFO BEGIN%%%" in line:
84			selectls=line.split("%%%BAD LS INFO BEGIN%%%")[1]
85			selectls=selectls.split("%%%BAD LS INFO END%%%")[0]
86			selectls=remove_html_tags(selectls)
87			selectls=remove_extra_spaces(selectls)
88			# print selectls
89			for tag in QF_ALL_SYS:
90			selectls=selectls.replace(tag+":","\n"+tag+":")
91			# print selectls
92
93			for line in selectls.split("\n"):
94			try:
95			tag=line.split(":")[0]
96			intervals=line.split(":")[1]
97			except:
98			continue
99			if tag in QF_Req.keys():
100			if QF_Req[tag]=="GOOD":
101			for interval in intervals.split(","):
102			if "ALL" in interval:
103			lmin=1
104			lmax=9999
105			else:
106			strmin=interval.split('-')[0]
107			strmax=interval.split('-')[1]
108			lmin=int(strmin)
109			if "END" in strmax:
110			lmax=9999
111			else:
112			lmax=int(strmax)
113			intervallist.append((lmin,lmax))
114			except:
115			EXCEPTION=True
116			EXRUN=int(runno)
117			intervallist=merge_intervals(intervallist)
118			# print runno, intervallist
119			return intervallist
120
121
122
123			#main starts here#
124
125			QF_Req={}
126			GOODRUN={}
127			compactList = {}
128
129			QF_ALL_SYS=["Hcal","Track","Strip","Egam","Es","Dt","Csc","Pix","Muon","Rpc","Castor","Jmet","Ecal","L1t","Hlt","NONE"]
130			QF_ALL_STAT=["GOOD","BAD","EXCL","NONE"]
131			DCS_ALL=['Bpix','Fpix','Tibtid','TecM','TecP','Tob','Ebminus','Ebplus','EeMinus','EePlus','EsMinus','EsPlus','HbheA','HbheB','HbheC','H0','Hf','Dtminus','Dtplus','Dt0','CscMinus','CscPlus','Rpc','Castor',"NONE"]
132
133			# reading config file
134			CONFIGFILE='runreg.cfg'
135			CONFIG = ConfigParser.ConfigParser()
136			print 'Reading configuration file from ',CONFIGFILE
137			CONFIG.read(CONFIGFILE)
138
139			DATASET=CONFIG.get('Common','Dataset')
140			GROUP=CONFIG.get('Common','Group')
141			ADDRESS=CONFIG.get('Common','RunReg')
142			RUNMIN=CONFIG.get('Common','Runmin')
143			RUNMAX=CONFIG.get('Common','Runmax')
144			QFLAGS=CONFIG.get('Common','QFLAGS')
145			LSPARSE=CONFIG.get('Common','LSCOMMENT')
146			DCSSTAT=CONFIG.get('Common','DCS')
147			DCSLIST=string.split(DCSSTAT,',')
148
149			LSCOMMENT=True
150			if "TRUE" in LSPARSE.upper() or "1" in LSPARSE.upper() or "YES" in LSPARSE.upper():
151			LSCOMMENT=True
152			elif "FALSE" in LSPARSE.upper() or "0" in LSPARSE.upper() or "NO" in LSPARSE.upper():
153			LSCOMMENT=False
154			else:
155			print "Error in parsing LSCOMMENT cfg parameter: LSPARSE"
156			sys.exit(1)
157
158			QFlist=string.split(QFLAGS,',')
159			for QF in QFlist:
160			syst=string.split(QF,":")[0]
161			value=string.split(QF,":")[1]
162			if syst not in QF_ALL_SYS or value not in QF_ALL_STAT:
163			print "QFLAG not valid:",syst,value
164			sys.exit(1)
165			QF_Req[syst]=value
166
167			for dcs in DCSLIST:
168			if dcs not in DCS_ALL:
169			print "DCS not valid:",dcs
170			sys.exit(1)
171
172
173			CFGLIST=CONFIG.items('Common')
174			JSONFILE=CONFIG.get('Common','JSONFILE')
175
176			# report the request
177
178			print "You asked for the runreg info in the run range:"+RUNMIN+"-"+RUNMAX
179			print "for dataset: "+DATASET
180			print "with the following quality flags:"
181			for SS in QF_Req.keys():
182			print SS, QF_Req[SS]
183			print "and with the following DCS status:"
184			for dcs in DCSLIST:
185			print dcs
186			print "Manual bad LS in comment column:",LSCOMMENT
187			#sys.exit(1)
188
189			# get handler to RR XML-RPC server
190			FULLADDRESS=ADDRESS+"/xmlrpc"
191			print "RunRegistry from: ",FULLADDRESS
192			server = xmlrpclib.ServerProxy(FULLADDRESS)
193
194			# build up selection in RUN table
195			sel_runtable="{groupName} ='"+GROUP+"' and {runNumber} >= "+RUNMIN+" and {runNumber} <= "+RUNMAX+" and {datasetName} LIKE '"+DATASET+"'"
196
197			# the lumisection selection is on the Express dataset:
198			sel_dstable="{groupName} ='"+GROUP+"' and {runNumber} >= "+RUNMIN+" and {runNumber} <= "+RUNMAX+" and {datasetName} LIKE '%Express%'"
199
200			for key in QF_Req.keys():
201			if key != "NONE" and QF_Req[key]!="NONE":
202			sel_runtable+=" and {cmp"+key+"} = '"+QF_Req[key]+"'"
203			sel_dstable+=" and {cmp"+key+"} = '"+QF_Req[key]+"'"
204			#print sel_runtable
205
206			# build up selection in RUNLUMISECTION table
207			sel_dcstable="{groupName} ='"+GROUP+"' and {runNumber} >= "+RUNMIN+" and {runNumber} <= "+RUNMAX
208			for dcs in DCSLIST:
209			if dcs !="NONE":
210			sel_dcstable+=" and {parDcs"+dcs+"} = 1"
211			# = 'True'"
212			# print sel_dcstable
213
214			Tries=0
215			print " "
216			while Tries<10:
217			try:
218			print "Accessing run registry...."
219			dcs_data = server.DataExporter.export('RUNLUMISECTION', 'GLOBAL', 'json', sel_dcstable)
220			run_data = server.DataExporter.export('RUN', 'GLOBAL', 'csv_runs', sel_runtable)
221			ls_temp_data = server.DataExporter.export('RUN', 'GLOBAL', 'csv_datasets', sel_dstable)
222			break
223			except:
224			print "Something wrong in accessing runregistry, retrying in 3s...."
225			Tries=Tries+1
226			time.sleep(3)
227			if Tries==10:
228			print "Run registry unaccessible.....exiting now"
229			sys.exit(1)
230
231			#print dcs_data
232			#print run_data
233			#print ls_temp_data
234			# find LS info in comment
235
236
237
238			LISTOFRUN=[]
239			for line in run_data.split("\n"):
240			run=line.split(',')[0]
241			if run.isdigit():
242			LISTOFRUN.append(run)
243
244
245			selected_dcs={}
246			jsonlist=json.loads(dcs_data)
247
248
249			for element in jsonlist:
250			if element in LISTOFRUN:
251			# first search manual ls certification
252			if LSCOMMENT:
253			# using LS intervals in comment
254			manualbad_int=searchrun(element)
255			# make a badlumi list
256			dcsbad_int=invert_intervals(jsonlist[element])
257			combined=[]
258			for interval in manualbad_int:
259			combined.append(interval)
260			for interval in dcsbad_int:
261			combined.append(interval)
262			combined=merge_intervals(combined)
263			combined=invert_intervals(combined)
264			selected_dcs[element]=combined
265			else:
266			# using only DCS info
267			selected_dcs[element]=jsonlist[element]
268			# combined include bith manual LS and DCS LS
269
270			#JSONOUT=json.dumps(selected_dcs)
271			# WARNING: Don't use selected_dcs before dumping into file, it gets screwed up (don't know why!!)
272			if JSONFILE != "NONE":
273			lumiSummary = open(JSONFILE, 'w')
274			json.dump(selected_dcs, lumiSummary)
275			lumiSummary.close()
276			print " "
277			print "-------------------------------------------"
278			print "Json file: ",JSONFILE," written."
279
280
281			# buildup cms snippet
282			selectlumi="process.source.lumisToProcess = cms.untracked.VLuminosityBlockRange(\n"
283			ranges = []
284			runs_to_print = selected_dcs.keys()
285			runs_to_print.sort()
286			for run in runs_to_print:
287			blocks = selected_dcs[run]
288			blocks.sort()
289			prevblock = [-2,-2]
290			for lsrange in blocks:
291			if lsrange[0] == prevblock[1]+1:
292			print "Run: ",run,"- This lumi starts at ", lsrange[0], " previous ended at ", prevblock[1]+1, " so I should merge"
293			prevblock[1] = lsrange[1]
294			ranges[-1] = "\t'%s:%d-%s:%d',\n" % (run, prevblock[0],
295			run, prevblock[1])
296			else:
297			ranges.append("\t'%s:%d-%s:%d',\n" % (run, lsrange[0],
298			run, lsrange[1]))
299			prevblock = lsrange
300			selectlumi += "".join(ranges)
301			selectlumi += ")"
302
303
304			print "-------------------------------------------"
305			print " "
306			print "CFG snippet to select:"
307			print selectlumi
308
309			if EXCEPTION:
310			print "WARNING: Something wrong in manual lumisection selection tag for run: "+str(EXRUN)