### Логлинейный анализ с контрастным (a.k.a. effect, deviant, sum-to-zero) кодированием 

Представленный скрипт позволяет получить оценки параметров __ненасыщенной__ логлинейной модели с контрастным кодированием и экспортировать их в excel. Для построения модели необходима база с выбранными переменными в формате .csv.

In [157]:
import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.api as sm
from patsy.contrasts import Sum

In [158]:
dataset_name = input('Введите название csv-файла с базой данных: ')

if dataset_name[-4:] != '.csv':
    dataset_name += '.csv'

Введите название csv-файла с базой данных: lla_dz4_v1


В модуле statsmodels для построения модели используется не исходная база данных в виде объект\*признак, а таблица профилей частот. Следующие строки кода автоматически подготавливают такую таблицу из загруженных данных и, при необходимости, добавляют к значениям частот "дельту". Помните, что дельта необходима всегда при наличии в исходной таблице профилей нулевых частот. Отсутствие дельты в тех случаях, когда она нужна, оборачивается неадекватно высокими значениями стандартных ошибок параметров модели и - как следствие - неверной оценкой их значимости.

In [159]:
df = pd.read_csv(dataset_name, sep=';', na_values=' ', dtype='category').dropna()
df['count'] = 1

columns = [x for x in df.columns if x!='count']
pivot_table = df.groupby(columns).sum()
pivot_table['count'] = pivot_table['count'].fillna(0)
pivot_table.reset_index(inplace=True)
print('Исходная таблица профилей:')
pivot_table

Исходная таблица профилей:


Unnamed: 0,party,domicil,edulvl,count
0,1,1,1,8.0
1,1,1,2,28.0
2,1,1,3,19.0
3,1,1,4,119.0
4,1,1,5,101.0
5,1,2,1,17.0
6,1,2,2,30.0
7,1,2,3,25.0
8,1,2,4,92.0
9,1,2,5,87.0


In [160]:
print('В таблице найдено нулевых частот: ', len(pivot_table[pivot_table['count'] == 0.0]))
delta = float(input('Укажите значение дельты (например, 0.5): '))

В таблице найдено нулевых частот:  3
Укажите значение дельты (например, 0.5): 0.5


In [161]:
print('Таблица профилей с учетом дельты:')
pivot_table['count'] = pivot_table['count'] + delta
pivot_table

Таблица профилей с учетом дельты:


Unnamed: 0,party,domicil,edulvl,count
0,1,1,1,8.5
1,1,1,2,28.5
2,1,1,3,19.5
3,1,1,4,119.5
4,1,1,5,101.5
5,1,2,1,17.5
6,1,2,2,30.5
7,1,2,3,25.5
8,1,2,4,92.5
9,1,2,5,87.5


В statsmodels используется особый синтаксис для построения формул любых моделей. Так, чтобы переменные рассматривались как категориальные, нужно заключить их в скобки и добавить перед ними символ С: например, __C(variable)__. Для того чтобы категории этих переменных были закодированы по схеме sum-to-zero, заложенной в оригинальной модели логлинейного анализа Л. Гудмена, нужно дополнительно указать это в скобках следующим образом: __C(variable, Sum)__. Согласно используемому синтаксису, если между переменными поставить знак звездочки (\*), то в модель автоматически будут включены и все эффекты более низкого уровня для этих переменных: например, __C(variable_1, Sum)\*C(variable_2, Sum)__ означает, что в модели присутствуют сразу эффекты __C(variable_1, Sum)__, __C(variable_2, Sum)__ и __C(variable_1, Sum)\*C(variable_2, Sum)__. Поэтому в statsmodels нет необходимости прописывать все нужные эффекты вручную при построении иерархических моделей. Код ниже позволяет получить формулу в правильном формате для тех эффектов, которые выделил SPSS как generating class при процедуре отбора ненасыщенной модели.

In [162]:
formula = input('Укажите полученный generating class: ')

formula_new = 'count ~ C(' + formula.replace(', ',  ', Sum) + C(').replace('*', ', Sum)*C(') + ', Sum)'
print('Для указанной модели определена следующая формула: ', formula_new)

Укажите полученный generating class: party*domicil, domicil*edulvl
Для указанной модели определена следующая формула:  count ~ C(party, Sum)*C(domicil, Sum) + C(domicil, Sum)*C(edulvl, Sum)


Последние шаги - построение модели и сохранение оценок параметров микроэффектов и их p-value в excel при необходимости.

In [163]:
res = smf.glm(formula_new, pivot_table, family=sm.families.Poisson()).fit()
res.summary()

0,1,2,3
Dep. Variable:,count,No. Observations:,75
Model:,GLM,Df Residuals:,48
Model Family:,Poisson,Df Model:,26
Link Function:,log,Scale:,1.0000
Method:,IRLS,Log-Likelihood:,-172.90
Date:,"Sun, 09 Dec 2018",Deviance:,53.573
Time:,22:55:42,Pearson chi2:,55.9
No. Iterations:,6,Covariance Type:,nonrobust

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,2.0876,0.048,43.813,0.000,1.994,2.181
"C(party, Sum)[S.1]",1.5648,0.051,30.790,0.000,1.465,1.664
"C(party, Sum)[S.2]",-0.0766,0.078,-0.982,0.326,-0.229,0.076
"C(party, Sum)[S.3]",-0.8730,0.107,-8.129,0.000,-1.083,-0.663
"C(party, Sum)[S.4]",-0.1146,0.079,-1.449,0.147,-0.270,0.040
"C(domicil, Sum)[S.1]",0.0715,0.067,1.071,0.284,-0.059,0.202
"C(domicil, Sum)[S.2]",0.1011,0.065,1.543,0.123,-0.027,0.229
"C(edulvl, Sum)[S.1]",-0.7941,0.096,-8.255,0.000,-0.983,-0.606
"C(edulvl, Sum)[S.2]",-0.3406,0.077,-4.426,0.000,-0.491,-0.190


In [164]:
level = float(input('Укажите уровень значимости для определения значимых микроэффектов (например, 0.05): '))
print('Всего найдено значимых эффектов (на заданном уровне значимости {}): '.format(level), 
      sum(res.pvalues.drop('Intercept') <= level))

Укажите уровень значимости для определения значимых микроэффектов (например, 0.05): 0.01
Всего найдено значимых эффектов (на заданном уровне значимости 0.01):  8


In [165]:
results = pd.DataFrame(columns=['Estimate', 'P-value'])
results['Estimate'] = round(res.params, 4)
results['P-value'] = round(res.pvalues, 4)
results.reset_index(inplace=True)
results.rename(columns={'index': 'Effect'}, inplace=True)
names = lambda x: x.replace(', Sum)[S.', '=').replace(']', ')').replace('C', '').replace(':', '*')
results['Effect'] = results['Effect'].apply(names)
results

Unnamed: 0,Effect,Estimate,P-value
0,Intercept,2.0876,0.0
1,(party=1),1.5648,0.0
2,(party=2),-0.0766,0.3263
3,(party=3),-0.873,0.0
4,(party=4),-0.1146,0.1474
5,(domicil=1),0.0715,0.284
6,(domicil=2),0.1011,0.1228
7,(edulvl=1),-0.7941,0.0
8,(edulvl=2),-0.3406,0.0
9,(edulvl=3),-0.3964,0.0


In [147]:
results.to_excel('results.xlsx', index_label='ID')