Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

21 votos

¿Qué matrices doblemente estocásticas pueden escribirse como productos de matrices de promedios por pares?

Una matriz A se denomina doblemente estocástica si sus entradas son no negativas y si todas sus filas y columnas suman 1 . Un subconjunto de matrices doblemente estocásticas es el conjunto de matrices de promediado por pares que acercan dos componentes de un vector a su media. Más concretamente, una matriz de promediación por pares Pi,j,α se define estipulando que y=Pi,j,αx es yi=(1α)xi+αxj yj=αxi+(1α)xj yk=xk  for all ki,j , donde α[0,1] .

Mi pregunta es: ¿toda matriz doblemente estocástica puede escribirse como un producto de matrices de promedios por pares?

Si la respuesta es negativa, me gustaría saber si es posible caracterizar las matrices doblemente estocásticas que se pueden escribir de esta manera.

Actualización: Acabo de darme cuenta de que la respuesta es no. He aquí un esbozo de la prueba. Elija cualquier 3×3 matriz doblemente estocástica A con A23=A32=0 . Si A puede escribirse como el producto de medias por pares, las matrices de medias por pares P2,3,α nunca aparecen en el producto, ya que dan lugar a la fijación del (2,3) y (3,2) entradas a números positivos, que siguen siendo positivos después de más aplicaciones de medias por pares. Por tanto, el producto sólo debe utilizar P1,2,α o P1,3,α . Pero se puede ver que no importa en qué orden se apliquen estas matrices, al menos una de A23 o A32 se fijará en un número positivo. Por ejemplo, si promediamos primero 1 y 2 y luego 1 y 3, entonces A32 será distinto de cero.

Mi segunda pregunta sigue sin respuesta: ¿es posible caracterizar las matrices que son productos de medias por pares?

6voto

Whisk Puntos 1903

Esta cuestión se ha estudiado aquí (pero no se da ninguna caracterización)

Marcus, Marvin; Kidman, Kent; Sandy, Markus. Productos de matrices elementales doblemente estocásticas. Linear and Multilinear Algebra 15 (1984), no. 3-4, 331-340.

Obsérvese también que si consideramos la familia de matrices con filas y columnas que suman 1 (pero permiten entradas negativas) y αR el resultado correspondiente es verdadero, véase

Johnsen, E. C. Matrices esencialmente doblemente estocásticas. III. Productos de matrices elementales. Linear and Multilinear Algebra 1 (1973), no. 1, 33-45.

1voto

apg Puntos 1092

Puede ser demasiado difícil caracterizar todas las matrices que son productos de matrices promediadas por pares, por lo que probablemente sea una buena idea intentar resolver un problema más fácil (al menos computacionalmente) en un monoide cociente para obtener y computar muchos contraejemplos.

Sea [n]={1,,n} . Si fSn entonces ρf denota la matriz de permutación (δf(i),j)i,j que corresponde a la permutación f . Supongamos que A[n]×[n] . Entonces decimos que A es un n×n -multipermutación si A es la unión de permutaciones. Sea Mn sea el conjunto de todos los n×n -multipermutaciones. Sea Vn=P([n]2) y definir una operación de composición en Vn por AB={(x,z)|y,(x,y)B,(y,z)A}. Sea DSn sea el conjunto de todas las matrices doblemente estocásticas. Definir un mapeo ϕ:DSnMn dejando ϕ((ai,j)i,j)={(i,j)ai,j>0} . Entonces ϕ es un antihomorfismo monoide suryectivo (es decir. ϕ(BA)=ϕ(A)ϕ(B) para doble estocástico A,B y ϕ preserva la identidad).

Sea Bn sea el submonoide de Mn generado por elementos de la forma fg para algunos f,gSn . Entonces RBn sólo si R=ϕ(A) para alguna matriz A que puede factorizarse como un producto de matrices de promedios por pares. Por lo tanto, si podemos demostrar que ϕ(A)Bn entonces sabemos que A no puede factorizarse como un producto de matrices de promedios por pares.

Ahora, cada elemento de Bn se puede poner en la forma (1f1)(1fr)g o en la forma u(1v1)(1vr) . Si definimos Bn sea el submonoide de Bn generado por los elementos de la forma 1f entonces Bn puede considerarse una especie de producto semidirecto del grupo de permutaciones Sn y el monoide Bn . De hecho, si definimos una operación monoide en Vn×Sn dejando (R,f)(S,g)=(RfSf1,fg) y definimos un homomorfismo monoide Γ:Vn×SnVn dejando Γ(R,f)=Rf entonces Bn=Γ[Bn×Sn] .

Sea Dn={(R,(R(1f)))RV,fSn} . Entonces Gn=(Vn,Dn) es un grafo acíclico, por lo que podemos ordenar parcialmente Vn dejando fg si y sólo si existe un camino dirigido desde f a g . Además, la ordenación parcial es compatible con ya que si fg entonces fg (esto es útil ya que es difícil de calcular, pero es fácil de calcular). Obsérvese que R pertenece a Bn si y sólo si existe algún camino desde alguna permutación f a R en (Vn,Dn) . Defina R={SVnSR} . Dado que todo camino desde f a R sólo atraviesa los nodos del conjunto R podemos restringir nuestro algoritmo de búsqueda de caminos al subgrafo inducido cuyos nodos son precisamente los elementos de R . Por lo tanto, RBn si y sólo si existe alguna permutación f y una ruta desde f a R en el subgrafo inducido Gn[R] .

Ahora, observe que NGn[S](R)={R(1f)fSn,R(1f)S}={R(1f)fSn,RfS}. Por lo tanto, para calcular, NGn[S](R) basta con encontrar todas las permutaciones fSn tal que RfS . Sin embargo, si definimos Ty={z[n]x,(x,y)R(x,z)S} entonces RfS sólo si f(y)Ty para todos y[n] . Por lo tanto, el problema de encontrar los elementos en NGn[S](R) se reduce al problema de encontrar todos los emparejamientos perfectos en grafos bipartitos. Sin embargo, según este documento el problema de encontrar todas las correspondencias perfectas en un grafo bipartito requiere O(c(n+m)+n5/2) esfuerzo computacional y O(nm) memoria donde n es el número de vértices, m es el número de aristas, y c es el número de emparejamientos perfectos en el grafo bipartito. Sin embargo, no estoy convencido de que encontrar todas las biyecciones f con RfS es la mejor estrategia para informática NGn[S](R) ya que puede haber muchas más permutaciones f con RfS que elementos en NGn[S](R) .

Un gráfico mejorado

Definir un gráfico Gn,S=(Vn,S,En,S) donde

  1. Vn,S se compone de tuplas (P,A,B,Q) tal que |A|=|B| y QR(Bc×[n]) .

  2. En,S está formado por las aristas de las siguientes formas

i. ((P,[n],[n],),(P,,,P))En,S

ii. Supongamos que A[n],B[n] y aAc,bBc . Entonces ((P,A,B,Q),(P(Q{(a,b)}),A{a},B{b},Q({b}×[n])))En,S tal que P(Q{(a,b)})S .

Supongamos que f es una permutación. Entonces hay un camino dirigido desde (f,,,f) a (P,A,B,Q) si y sólo si hay g1,,gr tal que si R=f(1g1)(1gr) entonces hay una cierta biyección h:AB tal que P=R(Rh) y Q=R(Bc×[n]) . Por lo tanto, SBn si y sólo si existe un camino desde (f,,,f) a (S,,,S) para alguna permutación f con fS .

Por lo tanto, se puede determinar si SBn mediante un algoritmo de búsqueda de trayectorias. Sin embargo, nuestro algoritmo de búsqueda de caminos probablemente no será muy eficiente en este punto, así que reduzcamos el número de aristas de (f,,,f) a (S,,,S) para mejorar la eficacia. Decimos que un subconjunto EEn,S es transitable si E contiene cada arista de la forma ((P,[n],[n],),(P,,,P)) y donde si (P,A,B,Q)Vn,S y A[n] y h:AcBc es biyectiva, entonces hay aAc,bBc con b=h(a) y donde ((P,A,B,Q),(P(Q{(a,b)}),A{a},B{b},Q({b}×[n])))E.

Obsérvese que si E es transitable, entonces SBn si y sólo si existe algún camino desde (f,,,f) a (S,,,S) en el grafo dirigido (Vn,S,E) por lo que se puede utilizar un algoritmo de búsqueda de caminos para determinar si SBn o no.

Código

Este es el código en GAP para determinar si RBn . No he hecho ningún intento de optimizar este código.

`allperms:=function(x) local list,n,table,i,newtable,j; n:=Length(x); table:=[[]]; for i in [1..n] do newtable:=[]; for list in table do for j in [1..n] do if j in list then continue; fi; if x[i][j]=1 then Add(newtable,Concatenation(list,[j])); fi; od; od; table:=newtable; od; return table; end;

implicator:=function(x,y) local n,z,i,j,k; n:=Length(x); z:=x*0; for i in [1..n] do for j in [1..n] do z[i][j]:=1; for k in [1..n] do if y[k][j]=0 and x[k][i]=1 then z[i][j]:=0; break; fi; od; od; od; return z; end;

neighbors:=function(x,y) local list,n,xx,z,perms,output,i,j; n:=Length(x); z:=implicator(x,y); perms:=allperms(z); output:=[]; for list in perms do xx:=StructuralCopy(x); for i in [1..n] do for j in [1..n] do if x[i][j]=1 then xx[i][list[j]]:=1; fi; od; od; Add(output,xx); od; return output; end;

size:=function(x) return Sum(List(x,Sum)); end;

test:=function(y) local a,perms,xx,n,s,i,j,tar,table,har,bb,qq; n:=Length(y); s:=size(y); perms:=allperms(y); tar:=NewDictionary(true,true); table:=[];

for a in perms do xx:=y*0; for i in [1..n] do xx[i][a[i]]:=1; od; Add(table,xx); AddDictionary(tar,xx,true); od;

while Length(table)>0 do qq:=Remove(table); har:=neighbors(qq,y); for bb in har do if size(bb)=s then return true; fi; if not (LookupDictionary(tar,bb)=true) then AddDictionary(tar,bb,true); Add(table,bb); fi; od; od; return false; end;

`

Más códigos

Este es el código que encuentra un camino en el grafo (Vn,S,E) para algún conjunto travertible E .

`newnode:=function(quadruple) local PP; PP:=quadruple[1]; return [PP,[],[],PP]; end;

testquad:=function(quadruple,pair,y) local a,b,P,Q,A,B,n,i; a:=pair1; b:=pair[2]; P:=quadruple1; A:=quadruple[2]; B:=quadruple[3]; Q:=quadruple[4]; n:=Length(P); for i in [1..n] do if Q[b][i]=1 and y[a][i]=0 then return false; fi; od; return true; end;

newpairzero:=function(n,zero,one) local m,l,lar,mar; m:=Length(zero); lar:=Difference([1..n],zero); mar:=Difference([1..n],one); l:=Minimum(lar); m:=Minimum(mar); return List(mar,v->[l,v]); end;

newpairone:=function(n,zero,one) local m,l,lar,mar; m:=Length(zero); lar:=Difference([1..n],zero); mar:=Difference([1..n],one); l:=Minimum(lar); m:=Minimum(mar); return List(lar,v->[v,m]); end;

extendpair:=function(quadruple,pair) local a,b,P,Q,A,B,n,i,AA,BB,PP,QQ; a:=pair1; b:=pair[2]; P:=quadruple1; A:=quadruple[2]; B:=quadruple[3]; Q:=quadruple[4]; n:=Length(P); QQ:=StructuralCopy(Q); AA:=Concatenation(A,[a]); BB:=Concatenation(B,[b]); Sort(AA); Sort(BB); PP:=StructuralCopy(P); for i in [1..n] do PP[a][i]:=Maximum(QQ[b][i],PP[a][i]); QQ[b][i]:=0; od; return [PP,AA,BB,QQ]; end;

test:=function(y) local P,Q,pair,list,n,tar,table,xx,i,j,A,B,quadruple; n:=Length(y); tar:=NewDictionary(true,true); table:=[]; xx:=[]; for i in [1..n] do xx[i]:=[]; for j in [1..n] do xx[i][j]:=0; od; xx[i][i]:=1; od; Add(table,[xx,[],[],xx]); while Length(table)>0 do quadruple:=Remove(table); if not LookupDictionary(tar,quadruple)=fail then continue; fi; AddDictionary(tar,quadruple,true); P:=quadruple1; A:=quadruple[2]; B:=quadruple[3]; Q:=quadruple[4]; if Length(A)=n then if P=y then return true; fi; Add(table,newnode(quadruple)); else list:=newpairzero(n,A,B); for pair in list do if testquad(quadruple,pair,y) then Add(table,extendpair(quadruple,pair)); fi; od; fi; od;

return false; end;

`

Observaciones empíricas

Ejecuté el algoritmo anterior para determinar si los elementos pertenecían a Bn y la mayoría de los elementos de Mn que he probado no pertenecen a Bn . De hecho, en la mayoría de los casos, los elementos de la forma fgh donde f,g,hSn no pertenecen a Bn por lo que la mayoría de las matrices estocásticas de la forma 13(ρf+ρg+ρh) no pueden escribirse como el producto de matrices de promediación por pares.

Probablemente añadiré detalles y mejoraré esta respuesta más adelante con el fin de mejorar el algoritmo para determinar si un elemento RVn pertenece a Bn o no.

Matrices singulares

Supongamos que f es una permutación que puede escribirse como la composición de r ciclos disjuntos de longitudes k1,,kr .

Entonces Det(t1n+(1t)ρf)=rj=1[tkj+(t1)kj]. En particular, t1n+(1t)ρf es no singular si y sólo si t=1/2 y si t=1/2 entonces Rank(t1n+(1t)ρf) es el número de ciclos Impares en la permutación f .

Si RBn entonces N(R) sea la suma de todas las sumas m1++mr tal que R=f(1+g1)(1+gr) y cuando gi se escribe como una composición disjunta de ciclos, mi de esos ciclos son impar. Si RBn a continuación, establezca N(R)= . Podemos ajustar nuestro algoritmo para determinar si RBn o no para que calcule el valor N(R) también.

Obsérvese entonces que si A es una matriz doblemente estocástica que puede escribirse como un producto de matrices de promedios por pares, entonces Null(A)N(ϕ(A)) . Por lo tanto, si Null(A)>N(ϕ(A)) entonces sabemos que A no puede escribirse como producto de matrices de promedios por pares.

Matrices doblemente estocásticas cerca de una matriz de permutación

El problema de determinar si RBn o no es más fácil de resolver que el problema de determinar si RBn ya que para Bn el algoritmo de búsqueda de trayectorias comienza con un único vértice, a saber (1,,,1) en lugar de muchos vértices. Afortunadamente, el problema de determinar si un conjunto pertenece a Bn nos ayuda a demostrar que ciertas matrices doblemente estocásticas no pueden escribirse como un producto de matrices de promedios por pares.

Si A es una matriz doblemente estocástica que se parece demasiado a una matriz de permutación ρf y A puede escribirse como un producto de matrices de promedios por pares, entonces sabemos que A se puede poner en la forma A=ρf(t1In+(1t1)ρg1)(trIn+(1tr)ρgr) para constantes t1,,tr(0,1) donde las constantes t1,,tr están cerca 1 . Precisemos esta intuición.

Teorema: Sea sea una norma sobre el espacio vectorial de todos los n\times n -matrices. Sea M=\max_{f\in S_{n}}\|\rho_{f}\|, y que N=\min_{f\in S_{n}\setminus\{1\}}\|I_{n}-\rho_{f}\|. Entonces, siempre que A es el producto de matrices de promedios por pares, entonces

  1. A=(t_{1}I_{n}+(1-t_{1})\rho_{f_{1}})\cdots(t_{r}I_{n}+(1-t_{r})\rho_{f_{r}}) donde \min(t_{1},\dots,t_{r})\geq 1/2

o

  1. \|A-I_{n}\|\geq N-2M(1-|\det(A)|).

Prueba: Supongamos que f es una permutación que puede descomponerse en ciclos disjuntos de longitudes k_{1},\dots,k_{r} . Observe que |\det(tI_{n}+(1-t)\rho_{f})|=\prod_{j=1}^{r}|t^{k_{j}}+(t-1)^{k_{j}}| \leq|t^{k_{1}}+(t-1)^{k_{1}}| \leq t^{k_{1}}+(1-t)^{k_{1}}\leq t^{2}+(1-t)^{2}\leq\frac{1}{2}+|t-\frac{1}{2}|.

Ahora, supongamos que A es el producto de matrices de promediación por pares. Entonces, sin pérdida de generalidad, hay t_{1},\dots,t_{r} tal que \min(t_{1},\dots,t_{r})\geq\frac{1}{2} junto con permutaciones f,g_{1},\dots,g_{r} donde A=\rho_{f}(t_{1}I_{n}+(1-t_{1})\rho_{g_{1}})\dots(t_{r}I_{n}+(1-t_{r})\rho_{g_{r}}) .

En este caso, tenemos \det(A)\leq t_{1}\dots t_{r} .

Ahora, \|A-\rho_{f}\|\leq\|A-\rho_{f}t_{1}\dots t_{r}I_{n}\|+\|\rho_{f}t_{1}\dots t_{r}I_{n}-\rho_{f}\| \leq(1-t_{1}\dots t_{r})M+(1-t_{1}\dots t_{r})M\leq 2M(1-t_{1}\dots t_{r})\leq 2M(1-\det(A)).

Por lo tanto, \|A-I_{n}\|\geq\|I-\rho_{f}\|-\|A-\rho_{f}\|\geq N-2M(1-\det(A)). Q.E.D.

Observe que M=\max\{\|A\|:\text{$ A $ is doubly stochastic}\} . Además, \|N\|\leq\|I_{n}\|+M\leq 2M . Si la norma \|\cdot\| es submultiplicativa ( \|AB\|\leq\|A\|\cdot\|B\| para todos A,B ), entonces M=\|I\|=I_{n},\|N\|\leq 2 .

Teorema: Sea \|\cdot\| sea una norma sobre el conjunto de todos los n\times n -matrices. Sea M=\max_{f\in S_{n}}\|\rho_{f}\|,N=\min_{f\in S_{n}\setminus\{1\}}\|I_{n}-\rho_{f}\|.

Supongamos que A es una matriz doblemente estocástica. Si \phi(A)\not\in B_{n}^{\sharp} y |A-I_{n}|<N-2M(1-\det(A)), entonces A no puede ser como el producto de matrices de promediación por pares.

Argumento de la dimensionalidad

Supongamos que R\in B_{n} . Entonces T_{R} sea el subespacio vectorial de M_{n}(\mathbb{R}) formado por todas las matrices (a_{i,j})_{i,j} tal que \{(i,j)\mid a_{i,j}\neq 0\}\subseteq R y donde \sum_{k}a_{i,k}=0 para cada i\in[n] y donde \sum_{k}a_{k,j}=0 para cada i\in[n] . Observe que \dim(T_{R})\geq|R|-2n .

Entonces, siempre que \phi(A)=R existe un subconjunto abierto U de T_{R} tal que A+B es doblemente estocástica para cada B\in U .

Proposición: Supongamos que R\subseteq[n]^{2} , R es la unión de permutaciones, pero R no se puede poner en la forma R=f(1\cup f_{1})\dots(1\cup f_{r}) donde f_{1},\dots,f_{r} son permutaciones no idénticas y f es una permutación, y donde r\geq\dim(T_{R}) . Entonces existe una matriz doblemente estocástica A con \phi(A)=R pero dónde A no puede escribirse como producto de matrices doblemente estocásticas.

Prueba: Basta observar que la dimensión del conjunto de todas las matrices doblemente estocásticas A con \phi(A)=R es \dim(T_{R}) mientras que la dimensión del conjunto de todos los productos de matrices promediadas por pares A con \phi(A)=R es como máximo \dim(T_{R})-1 . Q.E.D.

0voto

apg Puntos 1092

Sea DS_{n} denota el conjunto de todos los n\times n matrices doblemente estocásticas. Sea F_{n} denota el conjunto de todos los n\times n matrices que pueden escribirse como productos de matrices de promedios por pares. Entonces afirmo que F_{n}\subseteq\overline{F_{n}^{\circ}} donde el interior y el cierre se toman en el conjunto DS_{n} . Por lo tanto, F_{n}\setminus F_{n}^{\circ} no es denso en ninguna parte de DS_{n} . En particular, si F_{n} está cerrado, entonces F_{n} debe estar regularmente cerrado. Todavía no sé si F_{n} es un conjunto cerrado de not.

Sea DS_{n}^{\sharp} sea el conjunto de todos los n\times n matrices con entradas de valor real en las que la suma de cada fila es 1 y la suma de cada columna es también 1 . Sea T_{n} sea el conjunto de todos los n\times n matrices con entradas de valor real en las que la suma de cada fila es 0 y la suma de cada columna es también 0 . En otras palabras, DS_{n}^{\sharp} es el conjunto de todas las matrices generalizadas doblemente estocásticas, y T_{n} es el espacio tangente de cada punto de DS_{n}^{\sharp} .

Observamos que \dim(T_{n})=(n-1)^{2} y T_{n} está generado por elementos de la forma \rho(f)-I_{n} donde \rho(f) es la matriz de permutación que corresponde a la permutación f . Sea r=n^{2} . Hay permutaciones f_{1},\dots,f_{r} donde \rho(f_{1})-I_{n},\dots,\rho(f_{r})-I_{n} es una base para T_{n} .

Afirmo que siempre que A\in F_{n} y \epsilon>0 existe un subconjunto abierto U\subseteq DS_{n}^{\sharp} y algunos B\in\overline{U} con \|A-B\|<\epsilon .

Supongamos que A\in F_{n} . Sea \epsilon>0 . Entonces existe una matriz invertible B\in F_{n} con \|A-B\|<\epsilon .

Definir una función C:\mathbb{R}^{n}\rightarrow DS_{n}^{\sharp} dejando C(t_{1},\dots,t_{r})=B((1-t_{1})I_{n}+t_{1}\rho(f_{1}))\dots((1-t_{r})I_{n}+t_{r}\rho(f_{r})).

Ahora bien, si 1\leq i\leq n entonces \frac{\partial}{\partial t_{i}}C(t_{1},\dots,t_{r})|_{(t_{1},\dots,t_{r})=0}=B\cdot(\rho(f_{i})-I_{n}).

Ahora bien, puesto que B es invertible, resulta que los vectores de la forma \frac{\partial}{\partial t_{i}}C(t_{1},\dots,t_{r})|_{(t_{1},\dots,t_{r})=0}=B\cdot(\rho(f_{i})-I_{n}) forman una base del espacio tangente T_{n} . Por lo tanto, por el teorema de la función inversa, podemos concluir que existe un subconjunto abierto U\subseteq\mathbb{R}^{n} con (0,\dots,0)\in U tal que si V=C[U] entonces C mapas U difeomórficamente en V y donde V es un subconjunto abierto de DS_{n}^{\sharp} . Obsérvese además que B=C(0,\dots,0) . Sea U_{1}=\{(x_{1},\dots,x_{n})\in U\mid\max(x_{1},\dots,x_{n})<1,\min(x_{1},\dots,x_{n})>0\}. Entonces hay algo abierto V_{1}\subseteq V tal que C mapas U_{1} difeomórficamente en V_{1} y donde B\in\overline{V_{1}} . Sin embargo, V_{1} es un subconjunto abierto de DS_{n}^{\sharp} consistente únicamente en productos de matrices de promedios por pares.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X